borislvin ([personal profile] borislvin) wrote2010-07-02 11:05 am

Как дурить с помощью графиков

Только что наткнулся еще на один пример, иллюстрирующий известный прием деликатного обдуривания читателей, то есть манипулирования графиками таким образом, чтобы содержание формально не искажалось, но впечатление создавалось искаженное.

Этот график расположен на странице 4 документа по линку http://www.americanprogress.org/issues/2007/12/pdf/domestic_partners.pdf

Сам документ посвящен тому, что авторы считают дискриминационным налогообложением однополых браков. И по ходу дела там выставляется вот такая картинка:



Думаю, механизм визуальной манипуляции в объяснении не нуждается.
lxe: (Default)

[personal profile] lxe 2010-07-02 03:22 pm (UTC)(link)
Нормализация по каждой оси по отдельности - стандартная опция Excel.

Факта манипуляции это, конечно, не отменяет (надо ж, блин, думать головой!), - но делает презумпцию прямого и сознательного умысла оккамовски несостоятельной.

Скорее, было так: "Бивис, смотри, как клево вышло - давай так оставим?"
lxe: (москво-фобос)

Тьфу, калькой выразился.

[personal profile] lxe 2010-07-02 03:33 pm (UTC)(link)

По-русски "нормирование", конечно.

[identity profile] triz-wiz.livejournal.com 2010-07-02 03:35 pm (UTC)(link)
А то, что крайние правые точки совпали, это тоже стандартная опция? К тому же горизонтальная ось неравномерная. Стандартно её бы график растянулся влево. Ручками люди поработали.
lxe: (Default)

[personal profile] lxe 2010-07-02 04:44 pm (UTC)(link)
Совпали, потому что это максимум по обеим осям.
Визуальная нормировка по умолчанию к одному диапазону.
Горизонтальная ось стянута, потому что это "Histogram", а не "X-Y diagram", цена деления - отсчет, а не шаг независимой переменной.

Прям, честное слово, никогда с M$ Office не работали?
Или в ваших палестинах блюдут авторское право, и он строго платный?

[identity profile] triz-wiz.livejournal.com 2010-07-02 04:50 pm (UTC)(link)
Про гистограмму мне не понятно. Какие сырые данные туда забивали для её получения?
lxe: (Default)

[personal profile] lxe 2010-07-02 05:41 pm (UTC)(link)
Три колонки: год, зависимая переменная раз, зависимая переменная два.
"Line diagram" строится аналогично - по отсчетам, а не значениям.
Откройте эксель (или Calc, или 1-2-3, если он еще где-то жив) и посмотрите.

[identity profile] triz-wiz.livejournal.com 2010-07-02 06:06 pm (UTC)(link)
В моём представлении гистограмма строится так. Есть величина распределённая на интервале. Интервал разбивается на подинтервалы. Подсчитывается количество случаев приходящееся на каждый подинтервал. Потом над каждым подинтервалом (для вертикальных гистограмм) рисуется столбик высоты, пропорциональной числу случаев. В принципе, можно ограничиться точкой на уровне верхнего обреза столбика. Значения интересующей нас величины размещаются на горизонтальной оси.
Здесь мы имеем на горизонтальной оси годы. Если включать в подинтервал правую границу, то значения столбиков должны быть:
~14 000 000 000, 10, 2, 1, 1, 1, ...
Таким образом у меня всё ещё есть сомнения, что приведённый график является гистограммой. Если Вы можете подробнее разъяснить именно концептуальную часть, то я попробую технические моменты решить самостоятельно.
lxe: (Default)

[personal profile] lxe 2010-07-03 06:09 pm (UTC)(link)
Концептуальная часть такова, что подинтервалы на графике - это "с 1 января до 31 декабря соответствующего года". Они не смыкаются, но равновелики, и значения измеряемой величины за каждый из этих интервалов сопоставимы (если исключить рост населения США за эти годы: все же не Китай). Вместо "1990, 2002, 2003" могли бы быть "США, Канада, Мексика" - "в 1990 году на 1000 населения". США, Канаде и Мексике соответствовали бы столбики равной ширины.

А Вы все-таки откройте "Эксель", вбейте туда три колонки данных, заметно различных масштабом, и посмотрите, что вам с ходу предложат нарисовать. Так реально будет проще. Давайте: "Start" - "Programs" - "Microsoft Office"...

[identity profile] triz-wiz.livejournal.com 2010-07-03 08:23 pm (UTC)(link)
Действительно, не Китай (http://www.google.com/publicdata?ds=wb-wdi&met=sp_pop_grow#met=sp_pop_grow&idim=country:USA:CHN).

Вопрос о том, является ли данный график гистограммой остаётся в силе.

MS Office у меня стоит на рабочем компьютере, так что точное меню выбора я смогу сообщить не раньше вторника в Штатах. По моим наблюдениям гистограммы находились в меню Data Analysis и в стандартный набор графиков не входят.
lxe: (Гародня)

[personal profile] lxe 2010-07-02 05:52 pm (UTC)(link)
Пойнт в том (уже со стороны разработчиков таблиц), что в общем случае независимая переменная может быть не числом, и этот случай довольно распространен.
И случай, когда две..+inf семантически связанные величины несоизмеримы или имеют различный на порядки масштаб, тоже довольно распространен - и поддержать его по умолчанию удобней, чем отвечать на звонки пользователей "почему у меня провал на месте каждого второго столбца из тройки, и как это поправить".
Edited 2010-07-02 17:52 (UTC)

[identity profile] capka3m.livejournal.com 2010-07-02 03:28 pm (UTC)(link)
aaaaaaaaaaaaaaaa!!!!!!!!!

[identity profile] triz-wiz.livejournal.com 2010-07-02 03:32 pm (UTC)(link)
Это избрание Буша вызвало сокращение числа однополых пар с 2000 по 2002?

[identity profile] zt.livejournal.com 2010-07-02 03:35 pm (UTC)(link)
А тут два трюка, ты какой имеешь в виду? (pdf не открывается)

[identity profile] lodka.livejournal.com 2010-07-02 03:38 pm (UTC)(link)
а, по-моему, картинка очень даже позитивная (если не сказать позитивненькая).
за 15 лет число однополых пар выросло в 8 раз!
если в начале 90х однополые пары составляли только 3% от числа разнополых пар, то сейчас - 15%.
поскольку геев не может быть больше 10-15% (я не спец, но большее число было бы слишком вызывающим), то можно сделать суждение, что все гей, кто хотел бы жить в паре и жить семьей, уже делают это. реальная свобода.

[identity profile] griseopallidus.livejournal.com 2010-07-02 03:52 pm (UTC)(link)
Итак, при Обаме каждый мужик получил по мужику!
lxe: (Default)

[personal profile] lxe 2010-07-02 04:45 pm (UTC)(link)
Это именно неженатые пары, т.е. "гражданские браки". Так что рано радуетесь.

[identity profile] avva.livejournal.com 2010-07-02 04:14 pm (UTC)(link)
Замечательно! В анналы!

[identity profile] vodianoj.livejournal.com 2010-07-03 09:26 am (UTC)(link)
В анналы, конечно, но не в те, о которых ты думаешь:
http://bbb.livejournal.com/2197293.html?thread=12930349#t12930349

[identity profile] dagof.livejournal.com 2010-07-02 05:12 pm (UTC)(link)
супер

[identity profile] kuznetsov.livejournal.com 2010-07-02 05:16 pm (UTC)(link)
А-а-а!

[identity profile] bbb.livejournal.com 2010-07-02 05:22 pm (UTC)(link)
Это, конечно, классика. Но здесь, согласитесь, имеет место прямой обман, то есть работа намного грубее.

[identity profile] vodianoj.livejournal.com 2010-07-03 09:27 am (UTC)(link)
http://bbb.livejournal.com/2197293.html?thread=12930349#t12930349

[identity profile] yu-khristich.livejournal.com 2010-07-04 02:52 pm (UTC)(link)
Про то же вспомнил!

(Anonymous) 2010-07-02 05:40 pm (UTC)(link)
Есть хорошая подборка именно на эту тему (как дурить при помощи графиков):

http://www.math.yorku.ca/SCS/Gallery/noframes.html#LieFactor

Enjoy!

Игорь

[identity profile] iloska.livejournal.com 2010-07-02 06:43 pm (UTC)(link)
А что хотели сказать при помощи этих графиков?
(извините за торможение)

[identity profile] bbb.livejournal.com 2010-07-02 08:34 pm (UTC)(link)
Не то чтобы "сказать", но создать впечатление, что число однополых семейных пар, живущих вне брака, сравнялось с числом таких же разнополых пар. При этом опускание слова unmarried в надписях на графике (кроме заголовка) приводит к тому, что кто-то начинает воспринимать картинку как сравнение живущих совместно пар вообще.

[identity profile] iloska.livejournal.com 2010-07-03 07:25 pm (UTC)(link)
Так это же хорошие данные для однополых семей.
Или я что-то не понимаю?

[identity profile] helvegr.livejournal.com 2010-07-02 09:11 pm (UTC)(link)
График вырван из контекста. Тут сравнивают не численность, а динамику изменения численности.

[identity profile] bbb.livejournal.com 2010-07-03 01:00 pm (UTC)(link)
Чтобы визуально сравнивать динамику, нужен одинаковый масштаб для обеих графиков. Разный масштаб для разных линий - самый классический прием графической манипуляции.

Точнее гооворя, разный масштаб позволяет маскировать разные исходные уровни - то есть разную природу этих динамик (одно дело - быстрый начальный рост с нуля, другое дело - устойчивый рост с уже значительной базы).
Edited 2010-07-03 13:04 (UTC)

[identity profile] helvegr.livejournal.com 2010-07-03 05:54 pm (UTC)(link)
Я не вижу тут злонамеренности. Они хотят показать схожесть изменения численности однополых и разнополых пар. Если сделать масштаб одинаковым, нижний график после 2000 года будет почти горизонтальным.

[identity profile] bbb.livejournal.com 2010-07-03 07:11 pm (UTC)(link)
Ну, не видите - значит, не видите. Не буду же я объяснять то, что большинству читателей очевидно без слов.

[identity profile] vodianoj.livejournal.com 2010-07-03 09:24 am (UTC)(link)
Прочитали бы статью, прежде чем ерунду писать. Речь в ней вообще не идёт об однополых браках, а об несправедливом обложении налогами официально незарегестрированных партнёров, живущих вместе.
Конкретно этот график вообще не призывает сравнивать однополох и разнополых партнёров, поскольку они абсолютно равно дискременируются, а просто показывает насколько выросло количество как однополых, так и разнополых неженатых пар и приведён вместе просто для экономии места.

[identity profile] bbb.livejournal.com 2010-07-03 12:55 pm (UTC)(link)
Прочитали бы постинг, прежде чем ерунду писать.

Тогда бы увидели, что в нем написано:

Сам документ посвящен тому, что авторы считают дискриминационным налогообложением однополых браков.

В следующий раз ерунда, написанная в вызывающем и оскорбительном тоне, расскриниваться не будет.

[identity profile] vodianoj.livejournal.com 2010-07-03 01:44 pm (UTC)(link)
Ну? Так документ-то то этому как раз и не посвящён!
Там идёт речь о дискриминации незарегистрированных браков. Т.е. как те, что указанны в слева, так и те, что указанны справа.
Там нету сравнения между однополоым и разнополыми - график утверждает, что дискриминируются 5 миллионов однополых и 800,000 разнополых.

[identity profile] ella-p.livejournal.com 2010-07-03 03:38 pm (UTC)(link)
Дык не однополых же, а просто незарегистрированных партнерств в сравнении с официально женатыми парами.

[identity profile] bbb.livejournal.com 2010-07-03 07:06 pm (UTC)(link)
Э, нет. Ты почитай бумагу-то там через слово говорится про same-sex. И график именно про same-sex и opposite-sex. Хотя незарегистрированные партнерства можно рассматривать через какую угодно призму - раса, происхождение, образование, гражданство, доход, место жительства и т.д.

И главное, что взгляд автора - совершенно правильный. Проблема, о которой он говорит, актуально именно для однополых семей. Потому что для разнополых это просто нормальный выбор - или вступать в формальный брак, беря на себя целый ряд дополнительных обязательств и получая целый ряд дополнительных бенефитов, или жить, как говорится, во грехе. Соответственно, пока однополые семьи не стали массовым явлением, эта проблема и не была актуальной. Теперь же однополые семьи не просто не скрываются; они все больше и больше легализуются, получают статус формального брака. Но федеральное налоговое законодательство, как я понимаю, эти браки не признает, то есть бенефиты, которые могут получать такие однополые супруги от работотодателя, подлежат федеральному обложению. То есть у однополых семей выбора нет - хоть в браке, хоть без брака, их бенефиты все равно облагаются.

То есть бумага, реально, by all practical means, про однополых, а не разнополых.

Но в любом случае - все это не имеет никакого отношения к теме моего постинга, то есть к иллюстрации "графического мухлежа". Юзер vodianoj почему-то вообразил, что мухлежность графика зависит от контекста, да еще поведал об этом в совершенно недопустимом тоне. Когда я объяснил ему, что контекст упомянут в постинге, он стал придираться к точности формулировок, как это сейчас сделала и ты. Но, повторю, даже если бы я график и вырвал из контекста (что на самом деле не имело места), это никак не повлияло бы на его мухлежность.
Edited 2010-07-03 19:09 (UTC)

[identity profile] ella-p.livejournal.com 2010-07-03 09:46 am (UTC)(link)
То есть, ты серьезно полагаешь, что нас здесь пытаются убедить в том, что гомосексуальных пар - ровно половина от общего числа?

[identity profile] bbb.livejournal.com 2010-07-03 12:58 pm (UTC)(link)
Другого объяснения того, зачем надо было устанавливать разные масштабы для двух линий, да еще накладывать их таким образом, чтобы они совпали на последних точках, придумать не удается.

[identity profile] ella-p.livejournal.com 2010-07-03 03:36 pm (UTC)(link)
Я тебе предложу еще пару объяснений: идиотизм и нормальная гуманитарная безграмотность, раз. И желание в первую очередь продемострировать динамику нижней кривой - которой на графике правильного масштаба просто не было бы видно - два.
lxe: (kawaiian islands)

[personal profile] lxe 2010-07-03 06:11 pm (UTC)(link)
Нормальная компьютерная безграмотность.
"Не надо объяснять злым умыслом то, что можно объяснить глупостью".

[identity profile] bbb.livejournal.com 2010-07-03 06:56 pm (UTC)(link)
Идиоты все-таки не пишут умственных статей. А безграмотные люди делают графики правильные, но неудобоваримые - например, выводят эти две кривые правильным образом, но в результате чрезмерно вытягивают график в высоту. Грамотные же строят такой же график, как и безграмотные, но вырезают пустое пространство посередине, проведя ломаную разделительную черту.

[identity profile] ostap.livejournal.com 2010-07-12 11:48 pm (UTC)(link)
Я думаю, грамотный человек просто сделал бы шкалу Y экспоненциальной, а не линейной. Тогда и вырезать бы ничего не пришлось.

[identity profile] bbb.livejournal.com 2010-07-13 12:08 am (UTC)(link)
В принципе, это тоже вариант. Но с учетом того, что статья и график адресованы широкой публике, которая не вполне может осознавать логику экспоненциальной шкалы (даже если на нее нанесены соответствующие обозначения), вариант с разрезалкой кажется мне и более простым, и более понятным. Получились бы две линии, одна над другой. Одна бы показывала рост с 0.1 до 0.8, другая - рост с с 3.1 до примерно 5.2. То есть абсолютный рост верхней линии был бы в три раза больше абсолютного роста нижней. Значит, разрезалка проходила бы на уровне примерно одной четверти высоты графика. И все было бы прозрачно и понятно. Так мне кажется.

[identity profile] ostap.livejournal.com 2010-07-13 09:03 am (UTC)(link)
С одной стороны - да. С другой, тут справедливо говорили, что если обе шкалы разнести, то нижняя покажется почти плоской и не будет давать чёткого представления об относительном росте показателей. Экспоненциальная шкала этот вопрос снимет.

Да, экспоненциальная шкала - это непривычно и многим непонятно. Но тем более надо нести такое знание в массы.

[identity profile] igor-michigan.livejournal.com 2010-07-04 03:21 pm (UTC)(link)
Круто...
Через 10 секунд доехало только...

[identity profile] vasja-iz-aa.livejournal.com 2010-07-06 01:25 am (UTC)(link)
График выглядит странно, но я не готов обвинить авторов в манипуляции. Я не понимаю цели, в чем бы бы они хотели фальшиво зрителя убедить таким шкалированием.