borislvin ([personal profile] borislvin) wrote2010-07-02 11:05 am

Как дурить с помощью графиков

Только что наткнулся еще на один пример, иллюстрирующий известный прием деликатного обдуривания читателей, то есть манипулирования графиками таким образом, чтобы содержание формально не искажалось, но впечатление создавалось искаженное.

Этот график расположен на странице 4 документа по линку http://www.americanprogress.org/issues/2007/12/pdf/domestic_partners.pdf

Сам документ посвящен тому, что авторы считают дискриминационным налогообложением однополых браков. И по ходу дела там выставляется вот такая картинка:



Думаю, механизм визуальной манипуляции в объяснении не нуждается.
lxe: (Default)

[personal profile] lxe 2010-07-02 03:22 pm (UTC)(link)
Нормализация по каждой оси по отдельности - стандартная опция Excel.

Факта манипуляции это, конечно, не отменяет (надо ж, блин, думать головой!), - но делает презумпцию прямого и сознательного умысла оккамовски несостоятельной.

Скорее, было так: "Бивис, смотри, как клево вышло - давай так оставим?"
lxe: (москво-фобос)

Тьфу, калькой выразился.

[personal profile] lxe 2010-07-02 03:33 pm (UTC)(link)

По-русски "нормирование", конечно.

[identity profile] triz-wiz.livejournal.com 2010-07-02 03:35 pm (UTC)(link)
А то, что крайние правые точки совпали, это тоже стандартная опция? К тому же горизонтальная ось неравномерная. Стандартно её бы график растянулся влево. Ручками люди поработали.
lxe: (Default)

[personal profile] lxe 2010-07-02 04:44 pm (UTC)(link)
Совпали, потому что это максимум по обеим осям.
Визуальная нормировка по умолчанию к одному диапазону.
Горизонтальная ось стянута, потому что это "Histogram", а не "X-Y diagram", цена деления - отсчет, а не шаг независимой переменной.

Прям, честное слово, никогда с M$ Office не работали?
Или в ваших палестинах блюдут авторское право, и он строго платный?

[identity profile] triz-wiz.livejournal.com 2010-07-02 04:50 pm (UTC)(link)
Про гистограмму мне не понятно. Какие сырые данные туда забивали для её получения?
lxe: (Default)

[personal profile] lxe 2010-07-02 05:41 pm (UTC)(link)
Три колонки: год, зависимая переменная раз, зависимая переменная два.
"Line diagram" строится аналогично - по отсчетам, а не значениям.
Откройте эксель (или Calc, или 1-2-3, если он еще где-то жив) и посмотрите.

[identity profile] triz-wiz.livejournal.com 2010-07-02 06:06 pm (UTC)(link)
В моём представлении гистограмма строится так. Есть величина распределённая на интервале. Интервал разбивается на подинтервалы. Подсчитывается количество случаев приходящееся на каждый подинтервал. Потом над каждым подинтервалом (для вертикальных гистограмм) рисуется столбик высоты, пропорциональной числу случаев. В принципе, можно ограничиться точкой на уровне верхнего обреза столбика. Значения интересующей нас величины размещаются на горизонтальной оси.
Здесь мы имеем на горизонтальной оси годы. Если включать в подинтервал правую границу, то значения столбиков должны быть:
~14 000 000 000, 10, 2, 1, 1, 1, ...
Таким образом у меня всё ещё есть сомнения, что приведённый график является гистограммой. Если Вы можете подробнее разъяснить именно концептуальную часть, то я попробую технические моменты решить самостоятельно.
lxe: (Default)

[personal profile] lxe 2010-07-03 06:09 pm (UTC)(link)
Концептуальная часть такова, что подинтервалы на графике - это "с 1 января до 31 декабря соответствующего года". Они не смыкаются, но равновелики, и значения измеряемой величины за каждый из этих интервалов сопоставимы (если исключить рост населения США за эти годы: все же не Китай). Вместо "1990, 2002, 2003" могли бы быть "США, Канада, Мексика" - "в 1990 году на 1000 населения". США, Канаде и Мексике соответствовали бы столбики равной ширины.

А Вы все-таки откройте "Эксель", вбейте туда три колонки данных, заметно различных масштабом, и посмотрите, что вам с ходу предложат нарисовать. Так реально будет проще. Давайте: "Start" - "Programs" - "Microsoft Office"...

[identity profile] triz-wiz.livejournal.com 2010-07-03 08:23 pm (UTC)(link)
Действительно, не Китай (http://www.google.com/publicdata?ds=wb-wdi&met=sp_pop_grow#met=sp_pop_grow&idim=country:USA:CHN).

Вопрос о том, является ли данный график гистограммой остаётся в силе.

MS Office у меня стоит на рабочем компьютере, так что точное меню выбора я смогу сообщить не раньше вторника в Штатах. По моим наблюдениям гистограммы находились в меню Data Analysis и в стандартный набор графиков не входят.
lxe: (Гародня)

[personal profile] lxe 2010-07-02 05:52 pm (UTC)(link)
Пойнт в том (уже со стороны разработчиков таблиц), что в общем случае независимая переменная может быть не числом, и этот случай довольно распространен.
И случай, когда две..+inf семантически связанные величины несоизмеримы или имеют различный на порядки масштаб, тоже довольно распространен - и поддержать его по умолчанию удобней, чем отвечать на звонки пользователей "почему у меня провал на месте каждого второго столбца из тройки, и как это поправить".
Edited 2010-07-02 17:52 (UTC)