[personal profile] borislvin
Пару недель назад я писал о ненадежности статистических данных, связанных с эпидемией и приводил несколько примеров, касающихся динамики тестирования в США. Вот еще в ту же корзину.

Сайт https://covidtracking.com/data/us-daily показывает ежедневную динамику по стране, включая динамику тестирования. Данные получаются сложением цифр по штатам. Попробуем же посмотреть, что это за цифры.

Вот Техас - https://covidtracking.com/data/state/texas

Про него написано - "As of May 16, Texas is reporting mostly specimens tested, except for the small number of tests performed by public labs, which are de-duplicated. As of May 23, Texas is separating out PCR and antibody tests; we report the number of PCR tests. Total tests might be impacted". То есть Техас показывает данные по тестированию с разделением на ПЦР и антитела, и эти агрегаторы учитывают только тесты ПЦР. И даже эти данные могут быть сильно испачканы непоследовательным подходом к дублированию, если одни лаборатории проводят очистку итоговых цифр от повторых тестов (то есть показывают суммарное число людей, прошедших тесты), а другие лаборатории такую очистку не проводят, то есть показывают суммарное число тестов, даже если среди них были повторные.

Свои цифры агрегаторы подкрепляют скриншотами соответствующих сайтов штатов, делая их несколько раз в день. Соотстветственно, мы можем сравнить скриншоты на конец вчерашнего рабочего дня (четверг 18 июня) и конец сегодняшнего рабочего дня ( пятница 19 июня). Мы видим, что по состоянию на 19 июня, в Техасе было всего протестировано 1,623 тысячи человек. Чуть ниже сообщается, что тестов ПЦР сделано 1,424 тысячи, а тестов на антитела - 153 тысячи. Но цифры тестов на ПЦР и антитела указаны по состоянию на предыдущий день, 18 июня, поэтому в сумме они дают 1,577 тысяч, указанную как общую в скриншоте за предыдущий день. Очевидно, агрегаторы не углядели, что разбивка по видам тестов на скриншотах дается не от итоговой суммы на том же скриншоте, а от итоговой суммы за предыдущий день - и поэтому расчетную величину ежедневных тестов ПЦР постоянно сдвигают на день позже, чем следует, тем самым внося искажение и в цифры ежедневных данных по стране в целом.

Переходим к Нью-Йорку - https://covidtracking.com/data/state/new-york

Про нью-йоркские тесты агрегаторы ничего не пишут. Правда, они пишут нечто другое, в некотором роде более поразительное - "There is a significant gap between deaths reported by New York City and New York State. As of 6/1, the difference between the state reported deaths, which we use, and the NYC deaths was 5740". Но про тесты - ничего. На скриншотах же видно, что штат Нью-Йорк сообщает просто общее число тестов, без детализации по ПЦР и антителам. На самом сайте штата в разделе FAQ о происхождении данных по тестированию сообщается крайне энигматично - мол, они даются по базе данных, куда собираются цифры, сообщаемые лабораториями.

Таким образом, в общенациональный учет тестов, который ведут агрегаторы, попадают цифры Техаса по тестам ПЦР, то есть очищенные от данных тестов на антитела (но не полностью очищенные от двойного счета) - и цифры Нью-Йорка, про которые мы ничего не знаем, очищены ли они от тестов на антитела и от двойного счета.

При этом если бы Техас не проводил раздельный учет, то цифры у агрегаторов за сегодняшний день были бы не 16 тысяч, а 46 тысяч, в три раза больше (даже отвлекаясь от того факта, что они ошибочно сдвигают свои данные на один день).

И это все, конечно, в предположении, что лаборатории исправно и аккуратно передают властям штата полные ежедневные данные о количестве тестов...

Date: 2020-06-20 04:46 am (UTC)
From: [identity profile] xaxam.livejournal.com
Шума в картину добавляет тот факт, что кое-где тесты делают несколько дней, и непонятно, что в статистике указано: день, когда была взята проба, или день, когда получен и расшифрован результат.

А диагностику по симптомам, которая когда-то была основным источником стат. данных, никто не учитывает уже?
Edited Date: 2020-06-20 04:47 am (UTC)

Date: 2020-06-20 05:45 am (UTC)
From: [identity profile] bbb.livejournal.com
Да, это верно. Но мне думается, что лаборатории сообщают о завершенных тестах, то есть уже после получения результата. Впрочем, я не знаю, точно ли сейчас проверка теста все еще занимает несколько дней. Слыхал, что теперь это делается гораздо быстрее.

Date: 2020-06-20 06:00 am (UTC)
From: [identity profile] xaxam.livejournal.com
Понятно, что до завершения обработки теста бессмысленно о нём сообщать. Вопрос, какой датой помечать результат в отчётности.

У Мальгина только что написано про 48 часов. Не совсем понятно, к чему эта цифра относится.

Date: 2020-06-20 03:06 pm (UTC)
From: [identity profile] dmpogo.livejournal.com
С датами вообще сложно, даже с такими более однозначными вещами как смерть. У нас часто пишут, типа "В последнем дневном отчете в Квебеке количество смертей увеличилось на 50 человек. Однако только 15 из них произошли в последние 24 часа, а 35 - смерти до первого июня, не попавшие в отчет ранее" . А на графиках - все 50 в день отчета.
Edited Date: 2020-06-20 03:06 pm (UTC)

Profile

borislvin

November 2025

S M T W T F S
      1
2345678
9101112131415
161718192021 22
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 27th, 2025 07:36 pm
Powered by Dreamwidth Studios