[personal profile] borislvin
Жизнь в информационной среде обрушивает на нас потоки агрегированной статистической информации. Иногда - в цифровой форме, иногда в графической. Мой принцип состоит в том, что если эта информация представляется существенной, то прежде чем ее использовать, необходимо ходя бы в самой минимальной форме понять, кем и откуда берутся агрегируемые данные, какова их природа и как осуществляется агрегирование. Конечно, догрызться до деталей удается редко, хотя бы просто за недостатком времени, но самым минимумом должно быть хотя бы представление о надежности тех людей или той институционализированной цепочки людей, которые стоят за сбором и обработкой соответствующих данных.

Например, недавно в одном фейсбучном разговоре об известном проекте "Doing Business", - известном прежде всего рейтингом стран, - снова пытался в самых коротких словах упомянуть об этих проблемах выбора исходных данных, агрегирования и т.д. (https://www.facebook.com/permalink.php?story_fbid=898700267185239&id=100011358228508).

Конечно, самый устойчивый и любимый пример - это злосчастный агрегат "ВВП". Когда мне начинают рассказывать о том, как темпы роста ВВП выросли на полпроцента в год и т.д., я обычно спрашиваю собеседника, знает ли он, что означают буквы аббревиатуры и что означает каждое слово, скрывающееся за этими буквами. И только разобравшись в этом вовсе нетривиальном вопросе (прежде всего в проблеме амортизации капитальных благ, запрятанной во первой букве аббревиатуры), можно переходить к обсуждению общих принципов расчета агрегата, учета в нем государственных расходов и доходов, внерыночных и внеденежных сделок и т.д., без чего все сравнения оказываются или заведомо тривиальными, или бессодержательными.

Но сейчас попался на глаза прекрасный пример того, как может вводить в заблуждение графическое агрегирование.

В фейсбуке увидел ссылку на очень красивую картинку, где красными точками, как утверждается, показаны населенные пункты с населением больше 1000 человек (https://www.facebook.com/photo.php?fbid=2146052402113344). Картинка настолько интуитивная, настолько яркая, что воспринимается совершенно некритически. Во всяком случае, у меня она спопервоначалу не вызвала никакого отторжения.

Но что-то торкнуло, и решил взглянуть подетальнее. И сразу наткнулся на замечательный анализ картинки, сделанный юзерами Реддита три года назад (https://www.reddit.com/r/MapPorn/comments/3tjl1t/cities_and_towns_in_europe_over_1000_inhabitants). Внимательные люди обратили внимание на чрезмерно ярко выраженную границу между Германией и Данией - и попытались разобраться. В итоге выяснилось, что данные, отраженные на карте, собраны из самых разных источников, методологически никак не согласованных друг с другом, и отражают в первую очередь особенности национального законодательства по административно-территориальному деленю. Во всех странах время от времени проходят реформы муниципального устройства. И как только большие муниципальные единицы дробят на единицы меньших размеров, на такой карте возникнет несколько новых красных точек. А как только пройдет реформа по объединению мелких единиц в крупные - число красных точек сразу же сократится.

В итоге эта же картинка, снова появившаяся на Реддите (https://www.reddit.com/r/MapPorn/comments/9oegvw/population_density_of_europe_and_its_surrounding), была быстро понижена в рейтинге (downvoted) как ненадежная.

То же самое, но короче, объясняется в записи некоего Джона Эллиджа - https://www.citymetric.com/politics/does-map-actually-show-every-european-town-over-1000-residents-2875

Date: 2018-11-24 06:03 am (UTC)
From: [identity profile] reader59.livejournal.com
Вообще-то "ввп на полпроцента" ни о чем уже по метрологическим причинам - вряд ли там точность измерения уже первичных данных выше пары процентов, то есть "рост на полпроцента" это на самом деле в самом лучшем случае "от -1,5% до +2,5%".

Date: 2018-11-24 06:30 am (UTC)
From: [identity profile] bbb.livejournal.com
на самом деле все даже хуже :)

Date: 2018-11-24 07:30 am (UTC)
From: [identity profile] arxipov.livejournal.com
Раз ВВП это ваш любимый пример)
Насколько верны такие утверждения, например: ВВП на душу населения СССР в 1980 г. составлял 36% ВВП США?
Какова степень достоверности, когда мы говорим о ВВП СССР?

Date: 2018-11-24 10:45 am (UTC)
From: [identity profile] talgaton.livejournal.com
в СССР счетные данные об элементарной детской смертности - не верные.

Date: 2018-11-25 01:39 am (UTC)
From: [identity profile] bbb.livejournal.com
Это как раз иллюстрация того, что я сказал про ВВП - что сравнения с отсылкой к этому показателю оказываются "или заведомо тривиальными, или бессодержательными".

Ваш пример полностью подпадает под первую категорию, то есть он тривиален. Если перевести его на нормальный язык, то он означает, что, дескать, ежегодный прирост богатства на душу населения или там производительность труда в США были примерно в три раза больше, чем в СССР. Переводя на обычный язык - дофига. Но чтобы понять это, совершенно не обязательно было что-то там высчитывать. Этот факт был самоочевидным. И если кому-то зачем-то надо было квантифицировать этот факт, он мог посчитать что-нибудь гораздо более простое.

Date: 2018-11-25 07:33 am (UTC)
From: [identity profile] arxipov.livejournal.com
Ясно. Но насколько достоверны именно эти цифры, 36%? Может, было 19%? Или 28%?
Вот, как можно подсчитать производительность в с/х, когда картошку убирали доктора наук, получая за это свой оклад? И армия студентов, инженеров, которой нет в статистике?
Разве можно использовать официальные цифры этой производительности? И реальных цен не было. Цены не были «ценами». И т. д., и т. п.
Можно ли вообще точно квантифицировать ВВП советского периода? Ведь пишутся научные труды. Строятся графики. Там не написано «до фига», там уже есть точные цифры. Можно ли их считать хоть сколько-нибудь достоверными?
Не научнее ли написать что-то типа: ВВП СССР составлял от 15% до 30% от ВВП США, точные цифры подсчитать нельзя?

Date: 2018-11-25 02:23 pm (UTC)
From: [identity profile] bbb.livejournal.com
Для меня тут проблема глубже. Фраза типа "ВВП СССР составлял от 15% до 30% от ВВП США, точные цифры подсчитать нельзя" предполагает существование некоего объекта, обладающего размерностями, измеряемыми параметрами, хотя бы даже если точность измерений оставляет желать лучшего. Типа, не знаю, общей массы воды в океане.

То есть некая сугубо умозрительная конструкция, выстроенная из множества разных условностей, упрощений, усложнений, допущений и т.д. и условно именуемая аббревиатурой ВВП, в головах людей превратилась в самостоятельный объект внешнего мира и встала в ряд с такими объектами, как суммарная численность, по весу, по объему или по штукам, изготовления каких-то вещей (нефти, галош, телефонных аппаратов).

В итоге теряется различие между простым (ординальным) упорядочиванием, соотносительным сравнением разных вещей - и их соизмерением в неких общих единицах. Мне кажется, что ярче всего это иллюстрируется на феномене спортивных состязаний, где результаты получаются именно в ходе упорядочивания, а не по физическому параметру. То есть на феномене, допустим, футбола, в отличие от поднятия штанги (где про спортсменов действительно можно сказать, что он оказался сильнее другого на столько-то едииниц). По итогам чемпионата команды располагаются упорядоченной последовательностью, что и означает - мол, эта команда лучше всех. При этом всегда можно как-то скомбинировать разные количественные параметры команд и игр и сконструировать агрегированный показатель, что-то там сложив, поделив и перемножив. Думаю, что если подбором и комбинированием параметров займутся знатоки футбола, то в итоге получит что-то типа такого - у команды Индии показатель 20, у команды Франции показатель 64, у команды Германии показатель 70. Это и будет означать, что у Индии команда слабая, а у Франции и Германии - сильные. Но все это и так знают, а вот из того, что у команды Германии агрегированный показатель оказался выше, чем у Франции - практически ничего не следует, и это нагляднее всего проявляется в ажиотаже болельщиков в играх команд, считающихся близкими по уровню. Потому что "сила команды" - это не количественный параметр, не формула, агрегирующая результаты измерений.

Date: 2018-11-25 03:19 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Мне кажется, что я вас понимаю) Вы говорите, что ВВП не совершенен. Оценка на основании ВВП несовершенна. Что у Индии ВВП (или футбольный показатель) 20, у Франции 64, у Германии 70 - так это тривиально, это и так все знают. Что это ничего не даёт. Я согласен.

Я же не про ВВП вообще, я только про ВПП СССР. Потому что даже этот несовершенный показатель, ВВП, мы не можем применять к СССР – вот что я хочу сказать. Вы говорите о несовершенстве ВВП, а я говорю, что рассчитать ВВП СССР, так, чтобы достоверно соотнести его с ВВП других стран, нельзя.
Мы не можем встраивать СССР в этот рейтинг с Индией, Францией и Германией, потому что все советские рублёвые цифры ложны. Мы можем встроить интуитивно, да, оценочно, да, но не на основании расчетов.

Date: 2018-11-25 05:49 pm (UTC)
From: [identity profile] scabon.livejournal.com
> все советские рублёвые цифры ложны

Да, но не только рублёвые. Вот, например, эпизод из моей полулегальной получастной деятельности середины 1980-х, ещё до принятия знаменитого закона "Об индивидуальной трудовой деятельности". Мы собираем в совхозе некие овощи-фрукты и отвозим их на грузовике на базу. На базе стоят весы, на которых полагается взвешивать грузовик до и после разгрузки. Зафиксированная разница -- это тот вес овощей-фруктов, за который нам платят и который попадает в статистику.

Однако на базе нам говорят, что весы эти сломаны, так что вес определяется "на глазок". Совхозный бригадир, которому надо план выполнять, нам объясняет, какие "правильные" цифры надо писать в документах. Принимающий получает за свою подпись бутылку водки, которая была во время горбачёвской "борьбы с алкоголизмом" дороже денег. Мы, естественно, тоже с этого навар получаем, так что все счастливы.

А потом я читал какую-то речь Горбачёва, в которой он говорил о том, что на базах гниёт чуть ли не половина поставленных туда овощей и фруктов. Читал и думал о том, какой процент этих будто бы "сгнивших" овощей и фруктов был изначально фиктивным.

Кроме того, были случаи, когда я делал нечто вполне реальное и потенциально полезное -- за что я получал зарплату, премии, командировочные и т.д. -- но эффект в условиях советской экономической системы был нулевой. Но это отдельная история.

Date: 2018-11-25 06:09 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Показательный случай. Кстати, вполне возможно, эти весы были сломаны не только в тот день, а всё время.

Date: 2018-11-26 11:30 pm (UTC)
From: [identity profile] scabon.livejournal.com
Да, весы там были довольно долго сломаны. Или, может быть, "сломаны" -- не знаю, как там на самом деле было. Мы к этому было привыкли, но как-то раз приезжаем с уже заполненными документами, подаём им, а нам говорят, что весы починили и просят на них заехать. Естественно, оказалось, что была очень большая разница между тем, что было на бумаге написано, и тем, что показали весы. Могли быть неприятности, но как-то мы их утрясли. Может быть, с помощью той же водки, а может быть всё само собой рассосалось, так как разоблачение ударило бы не только по нам, но и по другим. По крайней мере, по бригадиру и по тому сотруднику базы, который наши бумажки раньше подписывал.
Edited Date: 2018-11-26 11:31 pm (UTC)

Date: 2018-11-26 06:16 pm (UTC)
From: [identity profile] bbb.livejournal.com
> Да, но не только рублёвые

Да, но не только советские :)))

Например, в советской системе существовал механизм (формально) полного учета множества показателей производственной деятельности. Их надо было собирать на уровне подразделений предприятия, агрегировать на уровне предприятия, пересылать в местные и отраслевые органы (линейного управления, статистические, партийные), там это все тоже складывалось-агрегировалось и т.д., и в итоге должно было выйти на некую общую статистику. Но по дороге все эти цифры разнообразно и системно искажались, потому что подпадали под тот самый закон Годхарта - то есть потому что отчетные индикаторы были одновременно и оценочными.

Проблемы же макро-статистики общества не-советского типа включают, помимо прочего, и то, что в ней гораздо меньше объем отчетности, которую надо в обязательном порядке передавать в статистические органы. Очень многое из того, что в советской системе получалось от экономических деятелей напрямую, но по ходу дела ими же и искажалось, в не-советской системе приходится генерировать косвенными, оценочными, селективными методами - и неточности-среднепотолочности могут здесь быть сколь угодно большими.

Можно сказать, что советская статистика формально "знала", сколько в стране стульев, но это знание не соответствовало реальности. Западная статистика изначально не знает, сколько в стране стульев, вместо этого она пытается это число как-то косвенно оценить, но эта оценка точно так же может не соответствовать реальности.

И, конечно, отдельной строкой идет огромный-преогромный госсектор, учет которого в системе ВВП всегда представляет собой принципиально неразрешимую задачу. Ведь там же нет свободного ценообразования, поэтому чтобы интегрировать данные оборотов госзатрат и госзакупок в логику "произведенного продукта", приходится самому себе сильно выкручивать шею.

Date: 2018-11-27 12:00 am (UTC)
From: [identity profile] scabon.livejournal.com
> Можно сказать, что советская статистика формально "знала", сколько в стране стульев, но это знание не соответствовало реальности.

Я примерно представляю себе, как советская статистика считала стулья, таблетки лекарств, пулемёты, полнометражные фильмы и т.д. Но как они подсчитывали более тонкие материи вроде внедрения новых технологий? Вот, например, такая история из моей биографии. Я её как-то в ЖЖ уже рассказывал, но, кажется, не здесь.

В начале 1987-го года мне дали в КБ задание написать программное обеспечение для автоматизации некоего процесса на одном очень-очень большом заводе. Приходит ко мне "постановщик [задач]" -- так тогда называли системных аналитиков -- и даёт алгоритм. Алгоритм довольно сложный, но на первый взгляд адекватный. Я начинаю задавать вопросы, а он на них как-то невнятно отвечает. Меня это удивило. Если он создал этот непростой алгоритм, то почему он не может ответить на относительно простые вопросы? К тому же он был горький пьяница, так что то, что он что-то нетривиальное создал, тоже было несколько удивительно.

Я это мимоходом упомянул в разговоре с моим начальником, очень толковым специалистом. Тот улыбнулся и сказал, что это знакомая история. Постановщик просто пошёл в библиотеку, нашёл в выписываемых англоязычных журналах алгоритм, перевёл его на русский и выдал на гора. Тоже в некотором смысле процесс освоения новых технологий.

Как бы то ни было, как я выше заметил, он был пьяницей. Вот приезжаем мы в конце 1987-го года на завод этот софт внедрять (там были и другие тонкости, но в первом приближении так.) Оказывается, что "железа", т.е. того компьютера, который был выделен для этого проекта, ещё нет. Харьковский, кажется, завод, не выполнил квартальный или годовой план и компьютер будет поставлен только в марте-апреле 1988-го года. А у нас премия зависит от того, подпишет завод документ о приёме нашего софта или нет. Мы идём к заводскому начальнику и говорим: "Послушайте, мы своё дело сделали, программное обеспечение разработали и привезли. Не наша вина, что железа нет! Вот, пожалуйста, подпишите документ о приёме." На что начальник отвечает: "Я вижу, что вы его привезли, но откуда я знаю, работает оно или нет? Вы это можете продемонстрировать на другом компьютере?" Я поговорил с местными инженерами. Оказалось, что это нереально по разным техническим причинам. А новый 1988-й год уже на носу. Что делать? И тут этот постановщик-пьяница куда-то отправляется, возвращается с бутылкой спиртного и идёт к заводскому начальнику. Мол, отмечать наступающий Новый год. Через час он появляется с подписанным документом и наша премия обеспечена! :-)

Как эти тонкости пыталась учитывать советская статистика? Только по конечному результату -- в данном случае автоматизация процесса могла, теоретически, привести к неким положительным сдвигам вроде повышения производительности труда -- или они ещё пытались подсчитывать промежуточные ступени вроде количества строк в написанном программном обеспечении? И, если предположить, что подобные попытки были в среднем ещё менее успешными, чем попытки подсчитывать количество стульев, то означало ли, что постепенное уменьшение значимости стульев и повышение значимости разного рода бумагомарания в экономической деятельности постепенно понижало адекватность советской статистики?

Date: 2018-11-25 03:25 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Да, и в чём сила команды?

Date: 2018-11-25 05:06 pm (UTC)
From: [identity profile] bbb.livejournal.com
Это наша неквантифицируемая сравнительная оценка неопределенного набора слабо определенных и часто неразграниченеых факторов, способствующих, по нашему представлению, победе в игре по известным правилам.

Примерно так :)

Date: 2018-11-25 06:08 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Что же, ясно и исчерпывающе.

Date: 2018-11-25 05:09 pm (UTC)
From: [identity profile] bbb.livejournal.com
ВВП несовершенен только в том смысле, в каком всегда будет несовершенен расчётный показатель, исчисляющий, кто лучший художник, Тинторетто или Веронезе, и на сколько процентов лучше.

Date: 2018-11-25 06:09 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Красота, частью которой является и экономика, трудно поддаётся оценке.

Date: 2018-11-26 04:31 pm (UTC)
From: [identity profile] bbb.livejournal.com
Прекрасно поддается.

Более того, красота вообще невозможно вне оценки.

Само понятие красоты как раз и означает, что некий объект общего множества кажется вам красивее других объектов того же множества. То есть сама ваша отсылка к понятию "красоты" вы автоматически является отсылкой к неизбежной оценке.

Дело в другом - в том, что эта оценка носит прежде всего соотносительный характер, а не количественный, исчисляемый.

Мы с вами можем быть согласны с тем, что Таня красивее Маши, но это не результат измерения и агрегирования количественных параметров.

Date: 2018-11-26 04:48 pm (UTC)
From: [identity profile] arxipov.livejournal.com
Ничего не может быть без оценки.
Я имел в виду, конечно, оценку математическую, и только её.
Такую, какой и является ВВП. Т. е. формулу, по которой мы можем посчитать и сказать – это красиво или нет, и насколько. И чтобы ещё все непременно с ней согласились, как с тем, что 2х2=4.

Date: 2018-11-26 06:43 pm (UTC)
From: [identity profile] bbb.livejournal.com
Тут сразу несколько качественных, принципиальных дихотомических различий

Одно - это различие между ординальной оценкой и оценкой количественной, расчетной. Об нем я уже говорил.

Другое - это различие между числом, предлагаемым как количественная оценка, и числом, предлагаемым как результат прямого пересчета (балансовым результатом).

Скажем, когда бюджетная или монетарная статистика относятся к второй категории, к категории балансовой статистики. Тут тоже полным полно проблем с формальным определением статей балансов, с их классификацией, разграничением, оставлением чего-то за балансом или, наоборот, включением в баланс, с возможными коэффициентами учета разных статей в балансовом расчете и т.д., но в любом случае у нас уже имеется некий количественный баланс, от которого мы и отталкиваемся.

Но для тех, кто считает ВВП и аналогичные агрегаты, такого рода балансов нет. Так что это именно что количественные оценки, а не "подсчет".

Date: 2018-11-27 08:15 am (UTC)
From: [identity profile] arxipov.livejournal.com
Тут вряд ли чему можно возразить.
Но я ещё попробую защитить вот эту свою фразу:

Красота, частью которой является и экономика, трудно поддаётся оценке.

Вы говорите, что ВВП несовершенен. А ВВП – это оценка экономики. Т. о. можно сказать, что такой инструмент, как ВВП, из-за своего несовершенства не может до конца правильно оценить экономику. И, следовательно, всё же можно утверждать, как это делаю я, что экономика трудно поддаётся оценке.

Затем вы говорите: нет, красота прекрасно поддаётся оценке. Например, Таня красивее Маши. Более того, красота вообще невозможна вне оценки.

С этим я не соглашусь.

Конечно, каждый отдельный человек без труда скажет что красиво, и что нет. Вообще, всё, что мы думаем (не только о красоте), невозможно без оценки. Будь это абстрактное понятие или конкретный предмет, в той или иной степени у нас уже есть какая-то его оценка.

Но мы же, как и в случае с ВВП, говорим об общепринятой оценке. Ведь мы же не используем при подсчёте агрегатов или в бюджетной и монетарной статистике оценки экономике, данные людьми на улице. И это несмотря на то, что экономика прекрасно поддаётся оценке на улице - люди, даже не имеющие специального образования, без труда оценивают экономическое положение своей страны.

Мы же говорим об общем понимании красоты, и когда мы с вами уверены, что Таня красивее Маши, тысячи людей скажут нам, что всё наоборот, а ещё две тысячи скажут, что ни Таня, ни Маша не имеют отношения к красоте. Оценка становится затруднительной.

А красота произведений искусства? Чем современнее оно, тем более разнятся мнения.
2х2 красоты, его общепринятого понимания, не существует или оно затруднительно.
Поэтому сказать, что красота трудно поддаётся оценке, тоже можно.

Date: 2018-11-25 05:11 pm (UTC)
From: [identity profile] bbb.livejournal.com
То есть вы, конечно, правы в том, что советская статистика и практика изначально была не приспособлена к использованию системы национальных счетов, используемых для расчета ВВП. Это само собой очевидно. Я толкую о проблеме следующего уровня.

Date: 2018-11-26 12:11 am (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
однако и футболе и в шахматах действительно есть система рейтингов, которые "агрегированный показатель, что-то там сложив, поделив и перемножив". которые в чем то ненапрасно с используются

Date: 2018-11-26 05:29 pm (UTC)
From: [identity profile] bbb.livejournal.com
Совершенно верно, и именно здесь аналогия с ВВП очень удачна.

Если рейтинги двух шахматистов отличаются, условно говоря, как 20 и 100, то это явно означает, что второй много сильнее первого. Этот факт обычно самоочевиден, а итог их состязания обычно легко предсказуем и не представляет интереса.

Если же рейтинги двух шахматистов отличаются, условно говоря, как 80 и 82, то это означает, скорее всего, что они играют где-то в одной лиге, а результат их состязания (то есть реальное соотношение их силы) непредсказуемы.

То есть количественный рейтинг может быть технически удобен для разных формальных манипуляций, типа ранжирования списков, установления гонораров и т.д., но его содержательный вклад в уже имеющееся знание очень скромный.
Edited Date: 2018-11-26 05:30 pm (UTC)

Date: 2018-11-26 11:48 pm (UTC)
From: [identity profile] vasja-iz-aa.livejournal.com
в рейтингах/коэффициентах интересны не только их значения в данный момент, но и динамика изменений. ну и и для содержательного анализа их надо конечно не отдельно рассматривать, а с другими данными вместе. другие данные могут их интерпретацию радикально поменять. если воспользоваться Вашим примером: шахматист 80 может оказаться очень сильным молодым игроком, а 82 имеет старенький мастер, играющий уже никак но не успевший растерять прежде очень высокого рейтинга

еще другое хорошее свойство агрегированных из множества разнообразных первичных данных показателей то, что их сложно фальсифицировать заинтересованным лицам
Edited Date: 2018-11-26 11:50 pm (UTC)

Date: 2018-11-24 10:04 am (UTC)
From: [identity profile] shadow-ru.livejournal.com
Можно сравнить с картой "Европа ночью":

Image

Датско-немецкий перепад исчезает, да и многое остальное выглядит по-другому.

Date: 2018-11-24 10:44 am (UTC)
From: [identity profile] talgaton.livejournal.com
из политически более актуального:
безработица и экономический рост в сша. -
обама и позже.
меня удивляет что у Трампа не нашлось спикера который объяснил ту жопу которая была при Обаме!

Profile

borislvin

November 2025

S M T W T F S
      1
2345678
9101112131415
161718192021 22
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 30th, 2025 07:36 pm
Powered by Dreamwidth Studios