Блог Бэйз Лайн

Откуда появляются тёмные данные и как они влияют на решение

Данные привычно воспринимаются как цифры, но в книге «Тёмные данные» Дэвид Хэнд приравнивает к ним ошибку в названии винтажного пива и даже мошенничество. Понимаем, за всеми тёмными данными не угнаться. Но если знать, как они возникают, меньше шанс совершить ошибку и больше вероятность трезво оценить ситуацию.

«Данные, которых у вас нет, могут быть важнее для понимания реальности, чем те, которыми вы располагаете» – так описал ахиллесову пяту в науке профессор математики и сотрудник Имперского коллежда в Лондоне. В своей книге Хэнд выделяет 15 типов тёмных данных, нехватка которых может привести к искажениям, неверным выводам и ошибкам в восприятии ситуации.
DD-тип 1: Данные, о которых мы знаем, что они существуют. Это самый очевидный тип, который возникает, когда не хватает переменных и возникают пропуски.

DD-тип 2: Данные, о которых мы не знаем, что они существуют. Потому что не догадываемся, что забыли их измерить.

DD-тип 3: Выборочные факты. Когда мы судим о явлениях только на основе личного опыта.

DD-тип 4: Самоотбор. Источники данных сами решают, стоит ли их предоставлять.

DD-тип 5: Неизвестный определяющий фактор. Отсутствие данных приводит к ложным причинно-следственным связям.

DD-тип 6: Данные, которые могли бы существовать. Как поведение людей меняется в зависимости от его условий.

DD-тип 7: Данные, которые меняются со временем. Данные больше не отражают текущую ситуацию.

DD-тип 8: Данные, которые неверно определили. Например, формальная фиксация семьи не учитывает, как могут складываться отношения в ней

DD-тип 9: Обобщение. Даже расчёт распределений скрывает их особенности.

DD-тип 10: Ошибки измерения и неопределённость

DD-тип 11: Искажения обратной связи. Закон Кэмпбелла: чем шире используется количественный показатель, тем сильнее он искажает социальные процессы.

DD-тип 12: Асимметрия информации. Не все знают все - одна сторона скрывает данные от другой.

DD-тип 13: Намеренно затемнённые данные. Например, с целью мошенничества.

DD-тип 14: Фальшивые данные. Например, фейк-ньюс. Или синтетические данные, которые возникают при сглаживании и допущениях в статистике.

DD-тип 15: Экстраполяция за пределы ваших данных. Работа с данными может привести к их затемнению при округлении, ошибках ввода, объединении наборов с разным числом наблюдений.

Примеры работы с тёмными данными
На самом деле, владельцы дорогих авто с акселерометрами живут в богатых районах - данные оттуда будут неполными. Оказалось, что главная причина ухабов - утопленные крышки люков, а не выбоины.

Приложение Street Bump. Его разработала мэрия Бостона для автомобилистов, которые должны фиксировать на смартфоне каждую встряску на дорогах.

Вместо мест с инцидентами карты показывают районы, где люди готовы о них сообщить.


Опрос Direct Line Home Insurance. Страховая компания выяснила, 11% респондентов не заявляют о том, что видели преступления, потому что опасались, что данные на картах преступности отпугнут арендаторов жилья в их районе.

«Если любую информацию принимать за данные, её анализ становится сложным». В конце своей книги математик и статистик Дэвид Хэнд описывает принципы работы с тёмными данными. В них речь идёт не просто об информации, а наборе сведений о совокупности объектов.

Учёный раскрывает механизмы появления недостающих данных:

  • UDD (Unseen Data Dependent) - потерянные данные зависят от невидимых. Вероятность того, что наблюдений окажется недостаточно, зависит от значений, которые ещё неизвестны. Их можно было бы измерить, если бы все «дошли» до конца периода наблюдения.
  • SDD (Seen Data Dependent) - потерянные наблюдения, которые зависят от видимых данных. Вероятность того, что наблюдений не хватит для прогноза, зависит от данных, которые не зафиксировали в начале исследования.
  • NDD (Not Data Dependent) - потерянные наблюдения не зависят от имеющихся или отсутствующих данных Выпадение в этой группе не связаны с факторами видимости данных. Как правило, наблюдений недостаточно по причинам, которые никак не связаны с исследованием. Это самая простая ситуация, и вероятно, самая редкая. Здесь тёмные данные не имеют значения.
Как работать с SDD и UDD:

  • SDD - коварные, но не безнадёжные потери. Например, по оставшимся наблюдениям можно смоделировать, как связаны значения в начале (t1) и в конце (t2) исследования. А для потерянных данных рассчитать значения переменных в t2 по начальным в t1.
  • UDD - действительно сложная группа причин. Хэнк так оценивает возможности анализа: «Единственный способ оценить такие данные - получить информацию откуда-то ещё или предположить самому, почему именно эти значения отсутствуют. ... В случае с категорией UDD нам нужно искать решение в другом месте».

«Тёмные данные» помогают систематизировать инструменты «подозрительного» отношения к данным.
Ставьте реакции, если материал интересный. Поделимся новыми источниками в принятии решений.

Если хотите самостоятельно управлять даже тёмными данными, приглашаем на обучение: https://base-line.ru/consal.

2024-12-18 15:27