За последние пару дней скандал с "электронной переписью" и "константой Дубилета 0.888" оброс множеством интерпретаций и подробностей. Люди, которые далеки от науки и анализа данных, во всем этом запутались с самого начала, что в общем-то не удивительно. Давайте я очень кратко поясню в чем, собственно, зрада и почему объяснения Дубилета можно принимать только частично.
Перепись населения в Украине не проводилась очень давно, поэтому единственные более-менее объективные данные о населении, которые есть в природе, это электронные реестры разных ведомств. На основе этих реестров держстат регулярно формирует различную статистику как в целом по стране, так и по регионам. В частности, это возрастной и половой состав населения - количество мужчин и женщин разных возрастных групп.
Таким образом у нас есть первичные данные - электронные реестры ведомств, которые держстат, по определенной процедуре пересчитывает в это возрастное распределение. Если данные реестров обозначить как R, процедуру пересчета как F1, а возрастное распределение как h1 (1 - означает, что это делает именно держстат, 2 будет для Дубилета), то получается:
h1 = F1(R)
Поехали дальше. Приходит Дубилет, берет те же самые исходные данные реестров (других-то нет), добавляет к ним дополнительно данные мобильных операторов и еще что-то (на самом деле, не важно что) и разрабатывает какую-то свою процедуру статистического анализа всего этого добра. Таким образом на входе у него то самое R (данные реестров) плюс некое M (данные мобильных операторов и еще что-то там), методика рассчета у него другая - F2, а на выходе получается возрастное распределение h2. Имеем:
h2 = F2(R,M)
Т.е. у Дубилета на входе два набора данных и другой алгоритм. Зададимся вопросом - насколько могут при этом получиться похожи h1 и h2?
Предположим, что h1 и h2 получились абсолютно одинаковыми. Это означало бы, что функция F2 тупо игнорирует дополнительные данные M, а данные R обрабатывает точно так же как функция держстата F1.
Если бы h1 и h2 получились достаточно разными, то можно было бы сделать вывод о том, что данные М таки задействованы, а сама функция какая-то хитрая и не идентична той, что у держстата.
В реальности мы получили нечто среднее: h2 = 0.888*h1 с точностью до ошибок округления. Какие выводы можно сделать из этого? А такие, что функция обработки данных Дубилета F2 учитывает дополнительные данные мобильных операторов, но делает это наипримитивнейшим образом - просто умножает то, что было бы без этих данных, на 0.888. Т.е. в сухом остатке получается
F2 = 0.888*F1
Это то, что мы видим извне. Для нас все, что происходило в процессе обработки данных - это черный ящик. Мы не знаем как реально происходил анализ данных и какие реально были алгоритмы. Тем не менее, мы видим вход и выход. Какой бы сложной не была в реальности "функция Дубилета" в практическом смысле она тупо эквивалентна обработке, которую делает рутинно держстат, помноженной на 0.888.
Теперь вводы:
В чем заключаются ошибки команды Дубилета?
Disclaimer: все сказанное в этой статье - личное оценочное суждение автора, сделанное на основе данных из публичных источников.
Если вы хотите увидеть материал на какую-то конкретную тему, то вы можете поучаствовать в его создании. Перечислите небольшую сумму (сколько не жалко) на карточку ПриватБанка 5168742223114541 и напишите мне в личные сообщения какая тема вас интересует. А можете просто таким образом сказать спасибо автору.
Коментарі доступні тільки зареєстрованим користувачам
вхід / реєстрація