Сигнал и шум. Почему одни прогнозы сбываются, а другие — нет
Содержание
Nate Silver
The Signal and the Noise
Why so many predictions fail — but some don’t
Перевод с английского П. Миронова
Сильвер Н.
Сигнал и шум : Почему одни прогнозы сбываются, а другие — нет / Нейт Сильвер ; пер. с англ. П. Миронова. — М. : КоЛибри, Азбука-Аттикус, 2015.
ISBN 978-5-389-09938-8
16+
Мы считаем, что наш мир во многом логичен и предсказуем, а потому делаем прогнозы, высчитываем вероятность землетрясений, эпидемий, экономических кризисов, пытаемся угадать результаты торгов на бирже и спортивных матчей. В этом безбрежном океане данных важно уметь правильно распознать настоящий сигнал и не отвлекаться на бесполезный информационный шум.
О том, как этому научиться, рассказывает Нейт Сильвер, политический визионер и гуру статистики, разработавший систему прогнозов, позволившую дважды максимально точно предсказать результаты президентских выборов почти во всех штатах Америки. Его книга во многом близка исследованиям Нассима Талеба и столь же значима для всех, кто имеет дело с большими объемами данных и просчитывает различные варианты развития событий. И если Талеб говорит о законах зарождения «черных лебедей», Сильвер исследует модели и способы, позволяющие поймать этих птиц в расставленные нами сети. Он обобщает опыт экспертов-практиков, изучает различные модели и подходы, позволяющие делать более точные прогнозы. Как и Даниэль Канеман, автор бестселлера «Думай медленно… Решай быстро», наблюдая за поведением и мышлением людей, оценивающих неопределенные события, Сильвер утверждает: да, компьютеры незаменимы при работе с огромными массивами данных, но для максимальной точности результатов необходим гибкий человеческий ум и опыт, ведь прогнозирование — это планирование в условиях неопределенности.
© Nate Silver, 2012
© Миронов П., перевод на русский язык, 2014
© Оформление, издание на русском языке.
ООО «Издательская Группа «Азбука-Аттикус», 2015
КоЛибри®
Посвящается маме и папе
Введение
В этой книге рассказывается о работе с информацией, о технологиях и научном прогрессе. О конкуренции, свободных рынках и эволюции идей. О том, что делает нас умнее любого компьютера, и о человеческих ошибках. О том, как мы постепенно, шаг за шагом, учимся воспринимать объективный мир и почему иногда делаем шаги назад.
Эта книга — о предсказаниях и прогнозах, оказывающихся в точке пересечения всех этих идей, и о том, почему одни из них сбываются, а другие — нет. Я надеюсь, что благодаря ей мы сможем немного лучше разобраться в том, как планировать свое будущее, и (возможно) будем реже повторять прежние ошибки.
Чем больше информации, тем больше проблем
По сути, революция в области информационных технологий совершилась благодаря печатному прессу, а вовсе не микрочипу. Изобретение Иоганна Гутенберга, сделанное им в 1440 г., позволило информации стать доступной широким массам людей, а возникший в результате этого взрыв новых идей привел к неожиданным последствиям и непредсказуемым эффектам. В том числе и к начавшейся в 1775 г. промышленной революции1, в результате которой цивилизация достаточно быстро перешла от состояния практически полного отсутствия научного или экономического прогресса к привычным для нашего времени и происходящим с огромной скоростью переменам. Изобретение печатного пресса способствовало развитию событий, которые в конечном итоге привели к эпохе Просвещения в Европе и основанию республики в Америке.
Однако появление печатного пресса способствовало еще и развязыванию священных религиозных войн, которые не прекращались на протяжении столетий. Как только человечество поверило в то, что оно способно предсказывать и даже выбирать собственную судьбу, началась самая кровавая эпоха в истории человечества2.
Книги существовали и до Гутенберга, однако их мало изготавливали и мало читали. Они выступали, скорее, в роли предмета роскоши для благородных семейств и создавались переписчиками, способными одновременно делать лишь одну копию3. Ставка за копирование манускрипта составляла примерно один флорин (золотая монета, стоимость которой на сегодняшний день эквивалентна примерно 200 долл. США) за пять страниц4, то есть производство книги, подобной той, что вы читаете сейчас, могло обойтись примерно в 20 тыс. долл. Зачастую в книгах содержалось немало ошибок, поскольку при копировании их число увеличивалось и они видоизменялись с каждой новой версией книги.
Все это невероятно усложняло процесс накопления знаний. Требовались поистине героические усилия, чтобы объем знаний не начал уменьшаться, поскольку книги часто приходили в негодность быстрее, чем их успевали воспроизводить. До нашего времени дошли лишь разные издания Библии, а также небольшое количество канонических текстов Платона и Аристотеля. Однако целые пласты человеческого знания и мудрости утрачены в веках5, поскольку не были зафиксированы в письменном виде.
Погоня за знанием казалась почти бесполезной, если не напрасной, с самого начала. Как сказано в прекрасных строках Экклезиаста, нет «ничего нового под солнцем» — не потому, что все уже открыто, но еще и потому, что все, что мы знаем, будет забыто6.
Печатный пресс изменил эту ситуацию бесповоротно, раз и навсегда. Почти моментально затраты на создание книги снизились примерно в 300 раз7. Книга, стоимость изготовления которой совсем незадолго до этого составляла 20 тыс. долл. (в нынешних ценах), теперь могла стоить всего 70 долл. Печатные прессы из Германии быстро распространились по всей Европе, и к 1470 г. они уже были в Риме, Севилье, Париже и Базеле, а еще через 10 лет — почти во всех остальных крупных европейских городах8. Производство книг стало увеличиваться в геометрической прогрессии и выросло в течение первых 100 лет после изобретения печатного пресса почти в 30 раз9. Хранилище человеческого знания стало увеличиваться в размерах, и довольно быстро (рис. В. 1).
Однако в тот период, как и в первые годы существования Всемирной паутины, качество информации было довольно неоднозначным. Хотя появление печатного станка сразу же принесло свою пользу, скажем, позволив изготавливать более качественные географические карты10, список изданных бестселлеров моментально возглавили еретические религиозные и псевдонаучные тексты11. Ошибки воспроизводились в массовых масштабах, например в так называемой «Греховной Библии», содержавшей чуть ли не самую злосчастную ошибку в истории, одна из заповедей звучала как «прелюбодействуй»12. Кроме того, доступ к огромному количеству новых идей порождал смятение в умах. Объем информации рос значительно быстрее, чем понимание людьми того, что с ней делать, или их способность отличить верную информацию от неверной13. Как ни парадоксально, но результатом увеличения объема общедоступного знания стал рост изоляции между нациями и конфессиями. Обладая слишком большим объемом информации, мы инстинктивно склонны относиться к ней избирательно, отбирать то, что нам нравится, и игнорировать все остальное, превращая в союзников тех, кто разделяет наше мнение, и относясь ко всем остальным как к врагам.
С наибольшим энтузиазмом восприняли печатный станок те, кто использовал его, чтобы проповедовать свои взгляды. «95 тезисов» (Ninety-five Theses) Мартина Лютера сами по себе были не настолько радикальными, близкие изложенным в книге идеи обсуждались до этого множество раз. По мнению Элизабет Эйзенштейн, на этот раз революционный элемент состоял в том, что «тезисы Лютера не остались приколоченными к церковной двери»14. Вместо этого они были размножены как минимум 300 тыс. раз с помощью печатного станка Гутенберга15 — невероятно большим тиражом даже по современным стандартам.
Раскол, возникший в результате протестантской Реформации Лютера, вскоре вверг Европу в войну. В период с 1524 по 1648 г. произошли Крестьянская война в Германии, Шмалькальденская война, Нидерландская революция, Тридцатилетняя война, религиозные войны во Франции, ирландские конфедеративные войны, гражданские войны в Шотландии и Англии — причем многие из них одновременно. Не стоит забывать и об испанской инквизиции, деятельность которой началась в 1480 г., или о войне Священной Лиги 1508–1516 гг., хотя они были в меньшей степени связаны с распространением протестантизма. В ходе одной лишь Тридцатилетней войны погибло не менее трети населения Германии16, и XVII век мог по степени своей кровавости сравниться разве что с началом века XX17.
Однако даже в этих условиях печатный станок постепенно способствовал развитию науки и образования. Галилей начал делиться своими (просмотренными цензурой) идеями, а Шекспир — публиковать свои пьесы.
Пьесы Шекспира, как и многих других авторов, часто обращаются к теме судьбы. Особый их трагизм связан с разрывом между тем, чего могли бы достичь персонажи, и тем, что может уготовить им судьба. Во времена Шекспира идея контроля своей судьбы казалась вполне естественной частью человеческого сознания, однако понимания, как это можно сделать, не было. Напротив, тот, кто хотел испытать свою судьбу, обычно находил лишь смерть18.
Наиболее ярко эти идеи нашли свое отражение в пьесе «Юлий Цезарь». В первой половине пьесы Цезарь получает всевозможные предупредительные сигналы, которые сам называет «знамениями»19 («остерегись ид мартовских»), о том, что его коронация превратится в бойню. Разумеется, Цезарь игнорирует эти знаки, гордо настаивая на том, что они указывают на смерть кого-то другого, или же трактует эти знаки в высшей степени избирательно. А затем Цезаря убивают.
«Но ведь по-своему толкуют люди явленья, смысла их не понимая», — предупреждает нас Шекспир устами Цицерона — и это вполне хороший совет любому человеку, стремящемуся разобраться с недавно обретенным обилием информации. Отличить сигнал от шума не всегда просто. Зачастую данные рассказывают нам именно ту историю, которую мы хотим услышать, и обычно мы уверены, что у истории должен быть счастливый конец.
И все же, если трагедия «Юлий Цезарь» и была посвящена древней идее предсказания, связанной с фатализмом, гаданием и суеверием, в ней прозвучала и более современная и значительно более радикальная мысль о том, что мы должны интерпретировать эти знаки так, чтобы получать какие-нибудь преимущества. «Порой своей судьбою люди правят. Не звезды, милый Брут, а сами мы виновны в том, что сделались рабами», — говорит Кассий, надеясь убедить Брута принять участие в заговоре против Цезаря.
Идея человека — хозяина своей судьбы — быстро набрала популярность. Слова предсказание (prediction) и прогноз (forecast) в наши дни используются чуть ли не как синонимы, однако во времена Шекспира они обозначали разные вещи. Предсказаниями занимались прорицатели, а прогноз напоминал идеи Кассия.
Слово прогноз (forecast) в английском языке имеет германские корни20, а слово predict (предсказывать) пришло из латыни21. Прогнозирование отражало скорее новый мирской протестантский взгляд на мир, приземленность, а не ту отрешенность от мира сего, что была характерна для Священной Римской империи. Создание прогноза обычно предполагало работу в условиях неопределенности. Оно основывалось на благоразумии, мудрости и трудолюбии и больше напоминало процесс, который мы в наши дни часто связываем с понятием предвидения22.
Теологические последствия этой идеи достаточно сложны23. Однако они не были довольно значимыми для тех, кто надеялся обрести благо в земном мире. Эти качества оставались тесно сплетены с протестантской рабочей этикой, которую Макс Вебер воспринимал как основу зарождения капитализма и промышленной революции24. Подобное определение прогнозирования непосредственно связано с понятием прогресса. Вся информация, содержавшаяся в массе книг, должна была помочь так планировать свою жизнь, чтобы получить прибыль.
Протестанты, пережившие столетия священных войн, учились использовать накопленное ими знание с целью изменения общества. Промышленная революция началась в протестантских странах и в странах со свободной прессой, в которых и религиозные, и научные идеи могли распространяться без оглядки на цензуру25.
Важность промышленной революции сложно переоценить. На протяжении практически всей человеческой истории экономический рост составлял около 0,1 % в год. Этого было достаточно для обеспечения постепенного прироста населения, но не для роста уровня жизни на душу населения26. А затем внезапно, почти на пустом месте возник прогресс (рис. В. 2). Экономический рост начал происходить значительно быстрее, чем темпы роста населения (так продолжается и по сей день, если не обращать внимания на краткосрочный глобальный финансовый кризис)27.
Как оказалось, взрывообразный рост информации, возникший благодаря появлению печатного станка, принес нам массу хорошего. Однако для того, чтобы все это благо реализовалось, потребовалось 330 лет — и миллионы погибших на полях сражений по всей Европе.
1 В различных источниках приводятся разные даты начала Промышленной революции: от середины XVIII до начала XIX в. Я довольно произвольно выбрал 1775 г., поскольку именно в этот год Джеймсом Уаттом был изобретен паровой двигатель… и вообще это приятное круглое число.
2 Steven Pinker, The Better Angels of Our Nature: Why Violence Has Declined (New York: Viking, Kindle edition, 2011); locations 3279–3282.
3 В основном манускрипты писали и переписывали в монастырях. Так как в Бельгии было много монастырей, то у этой страны один из самых высоких показателей количества манускриптов на душу населения. Избавившись от необходимости создавать манускрипты, некоторые из монастырей изменили характер своей деятельности и начали варить отличное траппистское пиво. Вот вам пример еще одного непредвиденного последствия изобретения Гутенберга: хотя и косвенным образом, но оно несет долю ответственности за повышение качества пива в мире.
4 Albania De la Mare, Vespasiano da Bisticci Historian and Bookseller (London: London University, 2007), p. 207.
5 Elizabeth Eisenstein, The Printing Revolution in Early Modern Europe (Cambridge, England: Cambridge University Press, 1993), p. 16.
6 Что было, то и будет, и что творилось, то творится, И нет ничего нового под солнцем. Бывает, скажут о чем-то: смотри, это новость! А уже было оно в веках, что прошли до нас. Не помнят о прежнем — так и о том, что будет, — О нем не вспомнят те, кто будет позднее.
Экклезифые 1: 9-11
7 De la Mare, Vespasiano da Bisticci Historian and Bookseller, p. 207.
8 Eisenstein, The Printing Revolution in Early Modern Europe, p. 17.
9 Eltjo Burnigh and Jan Luiten Van Zanden, «Charting the ”Rise of the West”: Manuscripts and Printed Books in Europe, a Long-Term Perspective from the Sixth Through Eighteenth Centuries», Journal of Economic History, vol. 69, issue 2; June 2009.
10 «Recognizing and Naming America», The Library of Congress, Washington, DC. http:// www.loc.gov/rr/geogmap/waldexh.html.
11 Eisenstein, The Printing Revolution in Early Modern Europe, p. 209.
12 Louis Edward Inglebart, Press Freedoms: A Descriptive Calendar of Concepts, Interpretations, Events, and Court Actions, from 4000 B.C. to the Present (Westport, CT: Greenwood Publishing, 1987).
13 Renato Rosadlo, «The Cultural Impact of the Printed Word: A Review Article», in Andrew Shyrock, ed. Comparative Studies in Society and History, vol. 23, 1981, pp. 508–513. http://journals.cambridge.org/action/displayJournal?jid=CSS.
14 Eisenstein, The Printing Revolution in Early Modern Europe, p. 168.
15 Arthur Geoffrey Dickens, Reformation and Society in Sixteenth Century Europe (New York: Harcourt, Brace & World, 1970), p. 51. http://www.goodreads.com/book/show/3286085-reformation-and-society-in-sixteenth-century-europe.
16 Pinker, The Better Angels of Our Nature, Kindle locations 3279–3282.
17 «War and Violence on Decline in Modern Times», National Public Radio (transcript), December 7, 2011.http://www.npr.org/2011/12/07/143285836/war-and-violence-on-the-decline-in-modern-times.
18 Simon Augustine Blackmore, The Riddles of Hamlet (Stratford, England: Stratford and Company, 1917). http://www.shakespeare-online.com/plays/hamlet/divineprovidence.html.
19 Как можно избежать Судьбы, нам предназначенной богами? Нет, Цезарь выйдет; знамения эти даны не только Цезарю, а всем.
У. Шекспир Юлий Цезарь. Акт II, сцена II. У. Шекспир
20 Douglas Harper, Online Etymology Dictionary. http://www.etymonline.com/index.php?term=forecast.
21 www.etymonline.com/index.php?term=predict.
22 В одном довольно представительном тексте XVII в. слово «прогноз» использовалось в следующем контексте: Представители разных областей коммерции изучают… где лучше покупать и что лучше всего продавать, и прогнозируют в своих мыслях, какие пути и способы лучше всего помогут им достичь успеха в их занятиях. John Kettlewell, Five Discourses on So Many Very Important Points of Practical Religion (A. and J. Churchill, 1696); http://books.google.com/books?id=ADo3AAAAMAAJ&dq.
23 Не в последнюю очередь потому, что кальвинисты и протестанты верили в судьбу и предначертание.
24 Max Weber, The Protestant Ethic and the Spirit of Capitalism (Abingdon, Oxon, England: Routledge Classics, 2001). Издана на русском языке: Вебер М. Протестантская этика и дух капитализма. — М.: Прогресс, 1990.
25 Eisenstein, The Printing Revolution in Early Modern Europe, p. 269.
26 J. Bradford DeLong, Estimating World GDP, One Million B. C. — Present (Berkeley, CA: University of California Press, 1988). http://econ161.berkeley.edu/TCEH/1998_Draft/World_GDP/Estimating_World_GDP.html.
27 Рис. 1.2 основан на расчетах Делонга, однако данные пересчитаны в доллары США по состоянию на 2010 г. с долларов на 1990 г. (как в оригинале).
Парадокс продуктивности
Всякий раз, когда информационный рост происходит быстрее, чем развивается наше понимание того, как именно обрабатывать получаемые данные, нас поджидает опасность. Последние 40 лет человеческой истории показывают, что для превращения информации в полезное знание может потребоваться немалое время и что если мы не будем достаточно осторожны, то легко сможем сделать шаг назад.
Понятие «информационная эпоха» вряд ли можно считать таким уж новым. Оно получило определенное распространение уже в конце 1970-х годов. Другой похожий термин — «компьютерная эра» — использовался даже несколько раньше, примерно с 1970 г.28. В то время компьютеры уже начали более широко применяться в лабораториях и других научных учреждениях, хотя еще и не стали привычным предметом бытовой техники. В этот раз нам не понадобились 300 лет для того, чтобы рост в области информационных технологий начал приносить человеческому обществу весомые преимущества. Однако нам все равно потребовалось от 20 до 30 лет.
1970-е гг. были (выражаясь словами Пола Кругмана29) «звездным часом множества теорий, созданных вокруг невероятно небольших объемов данных». Мы начали использовать компьютеры для создания моделей мира, однако нам потребовалось время, чтобы понять, насколько неточными и основанными на предположениях они были. Мы не сразу осознали, что точность, на которую способны компьютеры, не может заменить правильность прогнозов. В эту эпоху мы выдвигали множество смелых предположений в целом ряде областей, начиная от экономики и заканчивая эпидемиологией, и очень часто эти предположения оказывались ошибочными. Например, в 1971 г. было заявлено о том, что в течение следующего десятилетия мы научимся достаточно точно предсказывать землетрясения30, однако прошло 40 лет, а мы так и не приблизились к решению этой проблемы.
На самом деле компьютерный бум 1970-х и 1980-х гг. привел к временному снижению экономической и научной производительности. Экономисты назвали это «парадоксом продуктивности». «Влияние компьютерной эпохи можно было увидеть во всем, за исключением статистики продуктивности», — писал экономист Роберт Солоу в 1987 г.31. В период между 1969 и 1982 гг. Соединенные Штаты столкнулись с четырьмя явными рецессиями32. Конец 1980-х гг. был более сильным периодом в экономическом плане для США, но не для многих других стран мира.
Научный прогресс значительно сложнее поддается оценке, чем экономический33. Однако одним из его индикаторов может служить количество выданных патентов, особенно в области инвестиций в исследовательскую деятельность. Если после внедрения нового изобретения происходит снижение цен на тот или иной продукт, то это значит, что мы мудро используем имеющуюся информацию и успешно превращаем ее в знание. Если же цены начинают расти, это дает основания считать, что мы видим сигналы в шуме и напрасно тратим время, двигаясь в неверном направлении.
В 1960-х гг. в Соединенных Штатах было потрачено около 1,5 млн долл. (с учетом инфляции34) на каждую патентную заявку35, поданную американским изобретателем. Однако на заре информационной эпохи эта цифра скорее росла, а не снижалась, а пиковое значение, достигнутое в 1986 г., составило примерно 3 млн долл. (рис. В. 3)36.
По мере того как мы начали более реалистично оценивать пользу от применения новых технологий, ситуация стала вновь улучшаться в 1990-е гг. Мы реже оказывались в тупиковых ситуациях; компьютеры сделали нашу повседневную жизнь лучше и стали помогать нашей экономике. Зачастую то, что выглядело прогрессивным в будущем, в скором времени приводило к регрессу. То, что кажется предсказуемым в долгосрочной перспективе, способно нарушить наши самые продуманные планы в настоящем.
28 Google Books Ngram Viewer. http://books.google.com/ngrams/graph?content=information+age%2C+computer+age&year_start=1800&year_end=2000&corpus=0&smoothing=3.
29 Пол Робин Кругман — американский экономист и публицист, профессор экономики Принстонского университета, лауреат Нобелевской премии по экономике (2008). (Здесь и далее, если не сказано иное, — Прим. ред.)
30 Susan Hough, Predicting the Unpredictable: The Tumultuous Science of Earthquake Prediction (Princeton: Princeton University Press, Kindle edition, 2009), locations 862–869.
31 Robert M. Solow, «We’d Better Watch Out», New York Times Book Review, July 12, 1987. http://www.standupeconomist.com/pdf/misc/solow-computer-productivity.pdf.
32 «U.S. Business Cycle Expansions and Contractions», National Bureau of Economic Research, http://www.nber.org/cycles.html.
33 Хотя, как мы позднее объясним в книге, экономическая статистика гораздо менее точна, чем принято считать.
34 Цифры приведены к долларам по состоянию на 2005 г.
35 Для расчета этого показателя я использую количество патентных заявок, а не выданных патентов, поскольку выдача патентов может затянуться из-за бюрократических проволочек. Единственным серьезным достижением межпартийных собраний 112 Конгресса стало принятие в сентябре 2011 г. законопроекта «America Invents Act», получившего поддержку в Сенате большинством голосов (89–9) и позволившего ускорить рассмотрение патентных заявок.
36 Данные по расходам США на исследования и разработки приведены в «U.S. and International Research and Development: Funds and Alliances», National Science Foundation.
Обещания и подводные камни «Больших данных»
В наши времена модным стал термин «Большие данные»37. По расчетам компании IBM, мы ежедневно создаем 2,5 квинтильона байтов данных, а 90 % информации, имеющейся в нашем распоряжении, было получено за последние два года38.
Этот экспоненциальный рост информации, как и компьютеры в 1970-е гг., порой представляется нам лекарством от всех болезней. Крис Андерсон, редактор журнала Wired, писал в 2008 г., что сам по себе огромный объем данных способен заменить собой теорию и даже научный метод39.
Книга, которую я написал, стои2т на стороне науки и технологии, и я считаю подобную позицию вполне оптимистичной. Однако следует помнить, что мы склонны допускать массу ошибок. Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом. Как и Цезарь, мы можем трактовать их в свою пользу, что порой уводит нас слишком далеко от объективной реальности.
Управляемые данными предсказания способны обеспечить нам успех — или привести к неудаче. Шансы на неудачу возрастают, когда мы отрицаем собственную роль в процессе. Перед тем как потребовать большего от данных, мы должны потребовать больше от себя.
Если вы знаете мою предысторию, то такая точка зрения может показаться вам довольно странной. Многие слышали о том, что я умею работать с данными и статистически их обрабатывать. Я использую имеющуюся информацию для создания довольно успешных прогнозов. В 2003 г., когда мне уже порядком надоело консультировать клиентов, я занялся созданием системы, получившей название PECOTA, цель которой состояла в предсказании результатов игроков Главной бейсбольной Лиги. Она имела целый ряд инноваций (например, ее прогнозы носили вероятностный характер, и в них указывался диапазон возможных исходов для каждого игрока). Сравнив наши результаты с соответствующими результатами конкурирующих систем, мы обнаружили, что смогли их переиграть. В 2008 г. я создал веб-сайт FiveThirtyEight, призванный предсказать результаты надвигавшихся выборов. Прогнозы FiveThirtyEight правильно назвали победителя президентского голосования в 49 из 50 штатов, а также победителей голосования в 35 штатах по итогам выборов в Сенат.
После выборов со мной связалось несколько издателей, желавших заработать на издании пользовавшихся успехом книг типа «Moneyball» и «Фрикономика»40 (в которых были приведены истории «ботаников», завоевавших мир). Они хотели, чтобы и в моей книге рассказывалось бы о чем-то подобном, то есть о предсказаниях, основанных на данных в различных областях, начиная от бейсбола и заканчивая финансами и национальной безопасностью.
Однако, пообщавшись в течение четырех лет более чем с сотней экспертов в десятке областей, прочитав сотни журнальных статей и книг и пропутешествовав в ходе своего расследования от Лас-Вегаса до Копенгагена, я постепенно понял, что предсказания в условиях эры Больших данных оказываются не особенно успешными. Мне же повезло сразу на нескольких уровнях: во-первых, из-за того, что я достиг успеха, несмотря на огромное количество сделанных ошибок (о которых я поговорю позднее), и, во-вторых, из-за того, что я правильно выбирал свои битвы.
Бейсбол, например, — уникальный, исключительный случай. Можно сказать, что это особенно яркое и открывающее нам глаза исключение, и в книге объясняется, почему это так и почему через десяток лет после выхода «Moneyball» фанаты статистики и скауты сотрудничают между собой в условиях, близких к полной гармонии.
В книге приведены и некоторые другие примеры, вселяющие в нас надежду. Один из них — прогнозирование погоды, требующее и человеческих суждений, и компьютерных мощностей. Метеорологи имеют довольно плохую репутацию, однако им удалось достичь заметного прогресса в работе: они способны предсказать место появления центра урагана в три раза точнее, чем четверть века назад. Кроме этого, мне довелось встречаться с игроками в покер и людьми, делавшими ставки на спортивные события и переигрывавшими Лас-Вегас. Встречался я и с программистами, создавшими для компании IBM компьютер Deep Blue, который смог обыграть чемпиона мира по шахматам.
Однако все эти примеры прогресса в области прогнозирования с лихвой уравновешиваются массой примеров неудач.
Если бы мне нужно было назвать единственную определяющую черту американцев — то, что делает нас исключительными, — я бы назвал веру в идею Кассия, в то, что мы сами контролируем собственную судьбу. Наша страна была создана на заре промышленной революции религиозными бунтарями, считавшими, что свободный поток идей помогает распространять не только религиозные, но и научные и коммерческие убеждения. Значительная доля наших сильных и слабых черт — нашей изобретательности и нашего трудолюбия, нашего высокомерия и нашего нетерпения — проистекает из непоколебимой веры в идею о том, что мы сами выбираем собственный путь.
Однако новое тысячелетие началось для американцев отвратительно. Мы не ожидали атак 11 сентября. Основная проблема заключалась в нежелании увидеть информацию. Как и в случае с нападением на Перл-Харбор шестью десятилетиями ранее, у нас имелись все сигналы. Однако мы не сопоставили одни сигналы с другими. При отсутствии достойной теории о поведении террористов мы оказались слепы к данным, а атаки оказались для нас «неизвестным неизвестным».
Немало неудачных предсказаний было связано и с недавним глобальным финансовым кризисом. Наша наивная вера в модели и неспособность понять, насколько сильно они полагаются на довольно хрупкие предположения, уже привела к разрушительным результатам. Кроме этого, я обнаружил, что даже в более рутинных условиях мы неспособны спрогнозировать рецессии более чем за несколько месяцев — и совсем не потому, что не стараемся этого сделать.
Несмотря на значительный прогресс в контроле уровня инфляции, можно сказать, что во всех остальных важных вопросах творцы нашей экономической политики действуют вслепую.
Модели прогнозирования, опубликованные политологами в преддверии президентских выборов 2000 г., предсказали убедительную победу Ала Гора, причем с большим перевесом41.
Однако выборы выиграл Джордж У. Буш. Неверные прогнозы такого рода вряд ли можно считать аномальными — они довольно типичны для политических предсказаний. Многолетнее исследование, проведенное Филипом Э. Тэтлоком из Пенсильванского университета, показало, что даже после того, как политологи заявляли о полной невозможности определенного политического события, оно тем не менее происходило примерно в 15 % случаев (при этом результаты политологов зачастую оказываются лучше, чем выводы аналитиков, мелькающих в телевизионных шоу).
В последнее время, как и в 1970-х гг., предпринимался ряд попыток предсказать землетрясения, в основном с помощью математических методов, предполагающих управление данными.
Однако в результате некоторые предсказанные землетрясения так и не произошли, но были другие, к которым мы не смогли подготовиться. Конструкция ядерного реактора в Фукусиме предусматривала возможность выдерживать землетрясение магнитудой 8,6 балла, отчасти потому, что некоторые сейсмологи посчитали, что более сильные землетрясения просто невозможны. Однако в марте 2011 г. произошло самое ужасное в истории Японии землетрясение магнитудой 9,1 балла.
Существует целый ряд научных дисциплин, в которых предсказания часто оказываются неверными, и порой это обходится обществу очень дорого. Достаточно рассмотреть отрасль биомедицинских исследований. В 2005 г. уроженец Афин, медицинский исследователь по имени Джон П. Иоаннидис опубликовал довольно противоречивую работу под названием «Почему самые широко публикуемые выводы исследований неверны»42.
В работе изучались выводы, полученные другими исследователями, точнее, были приведены описания различных медицинских гипотез, выдвинутых в рамках лабораторных экспериментов. По мнению автора, большинство этих выводов показало бы свою несостоятельность в условиях реального мира. Не так давно компания Bayer Laboratories подтвердила гипотезу Иоаннидиса. При проведении собственных экспериментов компании не удалось повторить около двух третей результатов, о которых сообщалось в медицинских журналах43.
Большие данные действительно приведут к прогрессу, но лишь со временем. Насколько быстро это произойдет, и возможен ли дальнейший регресс, будет зависеть от нас самих.
37 Большие данные (Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки разнообразных структурированных и неструктурированных данных огромных объемов для получения воспринимаемых человеком результатов.
38 «What Is Big Data?», IBM. http://www-01.ibm.com/software/data/bigdata/.
39 Chris Anderson, «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete», Wired magazine, June 23, 2008. http://www.wired.com/science/discoveries/magazine/16–07/pb_theory.
40 Книги изданы на русском языке: Льюис М. Moneyball. Как математика изменила самую популярную спортивную лигу в мире. М.: Манн, Иванов и Фербер, 2013 (Moneyball: The Art of Winning an Unfair Game); Левитт С., Дабнер С. Фрикономика. М.: Манн, Иванов и Фербер, 2010 (Freaconomics).
41 Nate Silver, «Models Based on ”Fundamentals” Have Failed at Predicting Presidential Elections», FiveThirtyEight, New York Times, March 26, 2012. http://ivethirtyeight.blogs.nytimes.com/2012/03/26/models-based-on-fundamentals-have-failed-at-predicting-presidential-elections/.
42 John P. A. Ioannidis, «Why Most Published Research Findings Are False», PLOS Medicine, 2, 8 (August 2005), e124. http://www.plosmedicine.org/article/info: doi/10.1371/…