Привет.
Не скрою, что у меня всегда есть определенная толика профессионального интереса к работе с данными, их анализу. Поэтому когда увидел книгу Дэвида Хэнда с интригующим названием “Темные данные”, а также прочитал подзаголовок “Практическое руководство по принятию правильных решений в мире недостающих данных”, решил ее полистать. К моему удовольствию, Дэвид Хэнд оказался британским статистиком, а заодно президентом Королевского статистического общества, за свою работу он получил звание офицера Ордена Британской империи.
Выборочно открыл книгу в нескольких местах, увиденное понравилось, в итоге прочитал книгу за пару дней (360 страниц или около того, немного). Текст написан легким языком, но без ненужных упрощений и допущений, что очень ценно в таких работах. За простотой скрываются большие знания автора и отлично подобранные примеры, которые позволяют оценить важность данных. Под “темными данными” понимается информация, которая намеренно или случайно искажена, отсутствует в наборе данных и меняет наше представление об обсуждаемом предмете. Давайте приведу пример, который хорошо это объяснит:
«Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale — пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток “приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося нефильтрованного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт”. Как раз то, что нужно в арктических экспедициях.
В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась 50 лет, неправильно написал название пива, пропустив одну “p” в слове “Allsopp”. Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503300.
В этом случае одна пропущенная буква стоила полмиллиона долларов. Это наглядный пример того, что потеря информации может привести к значительным последствиям».
На самом деле предложение в полмиллиона было шуточным, бутылку в итоге купили за $4300. Что все равно на порядок отличается от того, что выручил первый владелец. Случайное искажение информации привело к тому, что были потеряны вполне реальные деньги, но такие ситуации происходят сплошь и рядом. Вспомните, как на фондовом рынке скупают акции случайных компаний, названия которых созвучны тем, что действительно представляют интерес. Кажется, что это невозможно в наше время, но ситуация повторяющаяся, и избежать ее невозможно.
Вводя читателя в классификацию темных данных, Хэнд предлагает понимание того, как возникают ошибки. Например, существуют данные, про которые мы не догадываемся, что они отсутствуют. В Америке часто приводят в качестве подтверждения строительных умений предков бревенчатые хижины времен освоения Дикого Запада. Кажется, что сам факт существования этих строений доказывает умения строителей. Но мало кто задумывается, куда делись все остальные хижины, ведь они исчезли. До нашего времени сохранились только лучшие образцы, а 99% исчезло. И это те самые данные, про которые большинство не думает. У нас часто приводят в качестве примера городскую легенду о дельфинах, которые спасают людей, так как толкают их в сторону берега. Вот только те, кого дельфины, играя, толкали в открытое море, уже ничего не могут рассказать. Ошибка выжившего.
Другим примером искажения данных может являться их восприятие, когда общество впервые уделяет им внимание. Например, газеты не публикуют в криминальной хронике определенный тип преступлений, а затем это становится модным. И создается ошибочное впечатление, что это нечто новое и происходит рост таких преступлений. Но это в большинстве случаев не так, скорее мы впервые видим данные, они становятся для нас новыми.
Ошибки в изначальных данных случаются сплошь и рядом, их тоже нужно уметь распознавать. Человеческий фактор всегда выходит на первое место, уверен, что вы удивитесь, если увидите на своем банковском счету миллионы, которых там еще вчера не было. Ошибка не такая уж редкая, сотрудники разных компаний часто ошибаются в запятых, когда выставляют числа. Например, итальянская авиакомпания Alitalia в 2006 году продала билеты бизнес-класса из Торонто на Кипр по 39 долларов вместо 3900 долларов за штуку. Общий убыток составил 7.2 млн долларов.
Но можно перепутать не только запятые в цифрах, а правильные колонки. В 2005 году инвестиционная компания Mizuho Securities потеряла 300 млн долларов. Она предложила 610 тысяч акций J-com по стоимости в одну иену, хотя все должно было быть наоборот — стоимость акции составляла 610 тысяч иен. В книге приводятся десятки таких ошибок, которые стоили компаниям миллиардов. И это тоже про работу с данными, которые могут не просто отсутствовать, а быть искажены в силу ошибки, либо это может быть сделано осознанно.
Какие еще ошибки могут быть? Любые. Ошибка измерительных приборов или методики, что дает сбой. Намеренная фальсификация, которую можно найти с помощью математических методов. Один из примеров, который меня заставил улыбнуться, это рассылка в сотни научных журналов поддельной статьи, внутри которой не содержалось ничего конкретного, в итоге сотни публикаций без какой-либо проверки. Это хорошо иллюстрирует тот мир, в котором мы живем.
Знаете, это одна из книг, которые можно рекомендовать прочитать самому широкому кругу людей, от тех, кто занимается анализом данных профессионально (нового не найдете, но любопытные моменты встретите), до обычных людей, которые хотят чуть лучше понимать, как формируется мир информации вокруг всех нас. Одним словом, читать книгу нужно, она откровенно хороша и написана легким языком. Рекомендую.
Маловато конкретики в книге, стиль похож на слабенький научпоп. Почитать можно, но есть книги сильнее.
Сборник курьезных анекдотов?
Рецензировал статьи в приличных физических журналах. Ситуация такая, что проверить даже теоретическую работу нереально. Автор намеренно забывает написать пару тройку формул, указать значения параметров модели или ссылается на другую статью, где все есть, но в реале нет ничего. Кроме того, грантовое финансирование заставляет отклонять, любую научную статью, которая мешает поступлению денег, и публиковать свою статью для отчёта грантодарителю. Плюс физика стала узкоспециализированной. И во многих направлениях экспертами могут быть не более 10 челов на 5 миллиардов жителей Терры. В экспериментальной физике всё ещё сложнее. Там идёт нетривиальная модельная обработка данных со многими неизвестными. Прекрасный пример — это "открытие" базона Хиггса. Исходя из его массы его должны были ранее наблюдать на американском ускорителе в Брукхейвене. Но "нашли" только в ЦЕРНе и закрылись на реконструкцию с миллириардным бюджетом. После этого в Брукхейвене переобработали данные и всё подтвердили. По моему скромному мнению, примерно 50 процентов статей в приличных физических журналах являются теми самыми темными данными, что указаны в книги. В менее точных науках, как Биология, Медицина, Социология и тому подобных, такого мусора должно быть ещё больше. В реале нужно проводить независимое расследование (лучше пару тройку) для подтверждения результатов. Мой совет относится с осторожностью к любым цифрам, которые нет возможности проверить
Кстати, к примеру об американских хижинах.
У нас есть аналогичный пример Систематической ошибки выжившего, когда мы считаем, что 'сталинки' с 3м потолками лучше панельных 'хрущевок'. Однако, капитальное жилье это % 10 сталинок. Остальное это бараки, и даже землянки, в которых сначала жили строители завода, а потом годами и первые рабочие.
ldhn, И, разумеется, вы сейчас легко сходу назовёте пару-тройку таковых? 🤨
MOPO3, при чём здесь сравнение жилья повышенной комфортности (читай не для всех, по этой причине его изначально и не строят много) с массовым жильём и систематическая ошибка выжившего? 🤯
У вас какая-то странная точка зрения на причинно-следственные связи.
MOPO3, При чем тут вообще доля и характер массового и немассового жилья? Есть сталинка дошедшая до наших дней и есть хрущевка. Сталинка лучше. Анализ завершен.
119270, Совет дельный, но большинство цифр, на которые мы опираемся в повседневной жизни мы сами проверить не в состоянии.
Эльдар, главное при отсутсвии данных не начать их выдумывать.
Ну помните, Лизу с айфоном?
Незнакомые ей неравнодушные люди готовы были ей реально помочь, пока не оказалось, что Вы все это выдумали, "ради красного словца"!
Господа, Вы же читаете его опусы и видите, что человек который профессионально занимается техническими обзорами, чудовищно невежественен в данной сфере в силу:
а) отсутствия профильного академического образования
б) категорического отрицания признавать свои ошибки
и) нежелания самостоятельно изучать тему, которой кстати, зарабатывает на жизнь.
Зато горазд со вселенской же глупостью раздавать всем профильные советы на право и налево.
Как пример попыткам залететь в тренд со экономическими статьями.
Он же не может различить прибыль и доход, постоянно путает цену и стоимость товара.
Вспомните его серию статей про производство продукции на заводах, где он последовательно в каждой последующей статье переобувался на лету — то есть и производственник он от слова "никакой", хотя себя пытался позиционировать чуть ли не гуру по китайским заводам (прочитав перед этим книжку а ля "Сделано в Китае").
Или же, когда он предлагал посчитать экономию на комплектующих айфона (в разных сериях), ориентируясь на (sic!!!) итоговую цену товара на полке!
Он даже не осознал совершенный факап, и даже отписал мне опровержение в следующей статье, мол это я глупый, при производстве считающий цену комплектующих при их (оптовой) закупке.
Т.е. он даже не понимает как и из чего формируется стоимость товара, и что включено в цену товара на полке.
Что уже как бы говорит о его общем уровне.
Как итог — для него проще удалить неприятный, компрометирующий его крайне скудные познания комментарий, а комментатора заблокировать.
119270, Приличные физические журналы? Ха! Там хотя бы есть сложность предмета, говоря о высоких материях можно ожидаемо ошибиться. В книжках по программированию для чайников примеры кода содержат ошибки. А самая жесть — это когда с книжкой идет диск, на котором исходники учебных программ, и вот в этих исходниках ошибки. Сразу понимаешь, что никто никогда эту программу и не пытался запустить, а автор программировал мелом на доске
Думал, что приведутся примеры (не в книге — ее я не читал, в этой рецензии на книгу) какие-то примеры, когда такие данные статистическими (аналитическими?) методами были выявлены до того, как смогли нанести ущерб
Типа: "аналитика настолько крутая вещь, что мы подаем на вход левые данные, а своими методами сразу это обнаруживаем". Ну примерно как big data работает и прочий machine learning
а тут примеры только разных опечаток. так-то можно вспомнить и про зонд на Венеру и знак минуса (я про Mariner 1)
timmkins, Мне больше понравились думай как инженер и плохо сделано в Китае, это навскидку. Если говорить конкретно про направление обработки данных, то это искусство системного мышления и Визуализируй, рассказывай используй (примерно так называется)
Иван Петров, Вот почему то вспоминается Российский пример весной. С тиньковым и курсами валют. Намудрили с курсами так что при обмене по цепочке — клиент в прибыли. Техподдержка сказала что курсы корректные. Вот только свои убытки Тиньков предпочли переложить на клиентов и подали в суд за неосновательное обогащение почему то