Книги. «Темные данные: практическое руководство по принятию правильных решений в мире недостающих данных»

Привет.

Не скрою, что у меня всегда есть определенная толика профессионального интереса к работе с данными, их анализу. Поэтому когда увидел книгу Дэвида Хэнда с интригующим названием “Темные данные”, а также прочитал подзаголовок “Практическое руководство по принятию правильных решений в мире недостающих данных”, решил ее полистать. К моему удовольствию, Дэвид Хэнд оказался британским статистиком, а заодно президентом Королевского статистического общества, за свою работу он получил звание офицера Ордена Британской империи.

Выборочно открыл книгу в нескольких местах, увиденное понравилось, в итоге прочитал книгу за пару дней (360 страниц или около того, немного). Текст написан легким языком, но без ненужных упрощений и допущений, что очень ценно в таких работах. За простотой скрываются большие знания автора и отлично подобранные примеры, которые позволяют оценить важность данных. Под “темными данными” понимается информация, которая намеренно или случайно искажена, отсутствует в наборе данных и меняет наше представление об обсуждаемом предмете. Давайте приведу пример, который хорошо это объяснит:

«Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale — пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток “приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося нефильтрованного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт”. Как раз то, что нужно в арктических экспедициях.

В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась 50 лет, неправильно написал название пива, пропустив одну “p” в слове “Allsopp”. Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503300.

В этом случае одна пропущенная буква стоила полмиллиона долларов. Это наглядный пример того, что потеря информации может привести к значительным последствиям».

На самом деле предложение в полмиллиона было шуточным, бутылку в итоге купили за $4300. Что все равно на порядок отличается от того, что выручил первый владелец. Случайное искажение информации привело к тому, что были потеряны вполне реальные деньги, но такие ситуации происходят сплошь и рядом. Вспомните, как на фондовом рынке скупают акции случайных компаний, названия которых созвучны тем, что действительно представляют интерес. Кажется, что это невозможно в наше время, но ситуация повторяющаяся, и избежать ее невозможно.

Вводя читателя в классификацию темных данных, Хэнд предлагает понимание того, как возникают ошибки. Например, существуют данные, про которые мы не догадываемся, что они отсутствуют. В Америке часто приводят в качестве подтверждения строительных умений предков бревенчатые хижины времен освоения Дикого Запада. Кажется, что сам факт существования этих строений доказывает умения строителей. Но мало кто задумывается, куда делись все остальные хижины, ведь они исчезли. До нашего времени сохранились только лучшие образцы, а 99% исчезло. И это те самые данные, про которые большинство не думает. У нас часто приводят в качестве примера городскую легенду о дельфинах, которые спасают людей, так как толкают их в сторону берега. Вот только те, кого дельфины, играя, толкали в открытое море, уже ничего не могут рассказать. Ошибка выжившего.

Другим примером искажения данных может являться их восприятие, когда общество впервые уделяет им внимание. Например, газеты не публикуют в криминальной хронике определенный тип преступлений, а затем это становится модным. И создается ошибочное впечатление, что это нечто новое и происходит рост таких преступлений. Но это в большинстве случаев не так, скорее мы впервые видим данные, они становятся для нас новыми.

Ошибки в изначальных данных случаются сплошь и рядом, их тоже нужно уметь распознавать. Человеческий фактор всегда выходит на первое место, уверен, что вы удивитесь, если увидите на своем банковском счету миллионы, которых там еще вчера не было. Ошибка не такая уж редкая, сотрудники разных компаний часто ошибаются в запятых, когда выставляют числа. Например, итальянская авиакомпания Alitalia в 2006 году продала билеты бизнес-класса из Торонто на Кипр по 39 долларов вместо 3900 долларов за штуку. Общий убыток составил 7.2 млн долларов.

Но можно перепутать не только запятые в цифрах, а правильные колонки. В 2005 году инвестиционная компания Mizuho Securities потеряла 300 млн долларов. Она предложила 610 тысяч акций J-com по стоимости в одну иену, хотя все должно было быть наоборот — стоимость акции составляла 610 тысяч иен. В книге приводятся десятки таких ошибок, которые стоили компаниям миллиардов. И это тоже про работу с данными, которые могут не просто отсутствовать, а быть искажены в силу ошибки, либо это может быть сделано осознанно.

Какие еще ошибки могут быть? Любые. Ошибка измерительных приборов или методики, что дает сбой. Намеренная фальсификация, которую можно найти с помощью математических методов. Один из примеров, который меня заставил улыбнуться, это рассылка в сотни научных журналов поддельной статьи, внутри которой не содержалось ничего конкретного, в итоге сотни публикаций без какой-либо проверки. Это хорошо иллюстрирует тот мир, в котором мы живем.

Знаете, это одна из книг, которые можно рекомендовать прочитать самому широкому кругу людей, от тех, кто занимается анализом данных профессионально (нового не найдете, но любопытные моменты встретите), до обычных людей, которые хотят чуть лучше понимать, как формируется мир информации вокруг всех нас. Одним словом, читать книгу нужно, она откровенно хороша и написана легким языком. Рекомендую.

[email protected]
наверх