20 A. Gelman, S. Goel, D. Rivers, and D. Rothschild. The Mythical Swing Voter, Quarterly Journal of Political Science 11 (2016): 103–130 [https://doi.org/10.1561/100.00015031]. The New York Times критикует опрос Daybreak: N. Cohn. How One 19-Year-Old Illinois Man Is Distorting National Polling Averages, New York Times, October 12, 2016 [https://www.nytimes.com/2016/10/13/upshot/how-one-19-year-old-illinois-man-is-distorting-national-polling-averages.html]. Ответ Los Angeles Times, хотя и был озаглавлен как опровержение, более или менее подтвердил эти проблемы: D. Lauter. No, One 19-Year-Old Trump Supporter Probably Isn’t Distorting the Polling Averages All by Himself, Los Angeles Times, October 13, 2016 [https://www.latimes.com/politics/la-na-pol-daybreak-poll-questions-20161013-snap-story.html].
21 По иронии судьбы опрос Daybreak в конечном итоге показал более точные общие процентные показатели Трампа и Клинтон, чем многие другие опросы. (Остановленные часы всегда точны, хотя они показывают точное время всего два раза в сутки!) Однако люди анализируют подобные опросы, чтобы выяснить, какие подгруппы поддерживают каждого кандидата, поэтому неточность в этих цифрах имеет значение.
22 Обсуждение метафоры телескопа в контексте научных исследований см. U. Simonsohn. Small Telescopes: Detectability and the Evaluation of Replication Results, Psychological Science 26 (2015): 559–569 [https://doi.org/10.1177/0956797614567341].
23 J. Simmons. MTurk vs. the Lab: Either Way We Need Big Samples, Data Colada, April 4, 2014 [http://datacolada.org/18].
24 Комментарии менеджеров касались первой игры дублера 8 мая 2022 года: Chris Woodward Jabs at Gleyber Torres’ Walk-Off HR, Calls Yankee Stadium A Little League Ballpark, ESPN, May 9, 2022 [https://www.espn.com/mlb/story/_/id/33886269/chris-woodward-jabs-gleyber-torres-walk-hr-calls-yankee-stadium-little-league-ballpark].
25 Если вы допускаете округление, вам понадобится не менее 67 матчей (66/67 = 0,98507, что округляется до 0,99). См.: J. Heathers. The GRIM Test – a Method for Evaluating Published Research, Medium, May 23, 2016 [https://jamesheathers.medium.com/the-grim-test-a-method-for-evaluating-published-research-9a4e5f05e870]; N. J. L. Brown and J. A. H. Heathers. The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology, Social Psychological and Personality Science 8 (2017): 363–369 [https://doi.org/10.1177/1948550616673876].
26 Ник Браун изложил общую версию этой идеи в наших беседах с ним: количество возможных двузначных десятичных дробей, которые вы можете получить из выборки размером менее 100, равно размеру этой выборки. Таким образом, если 29 человек сообщили о своем счастье по шкале от 1 до 7, то после запятой будет 29 допустимых двузначных комбинаций.
27 Сам по себе GRIM-тест не может однозначно доказать, что исследователь совершил мошенничество. Однако обнаружение большого количества грубых ошибок в статье подорвало бы обоснованность любых выводов. Если отчетность настолько небрежна, что цифры часто приводятся неверно, у нас мало оснований полагать, что ученые были осторожны при проведении исследования. Например, Браун и его коллеги Тим ван дер Зи и Джордан Анайя также обнаружили множество ошибок в работах бывшего профессора Корнеллского университета Брайана Вансинка, о котором мы упоминали ранее. В одной из выявленных тестом работ Вансинк попросил десять человек использовать шкалу оценок от 1 до 9, чтобы сказать, насколько физически некомфортно они себя чувствовали после того, как съели три куска пиццы. Он сообщил о средней оценке в 2,25 балла, что на первый взгляд кажется разумным (с точностью до двух знаков после запятой!), но среднее значение из десяти целых баллов должно иметь 0 в качестве второго знака после запятой. Это может быть 2,20 или 2,30, но не 2,25. Избыточная точность сделала результаты, о которых сообщил Вансинк, невозможными – точно так же, как и многие другие данные в той же статье. См.: T. van der Zee, J. Anaya, and N. J. L. Brown. Statistical Heartburn: An Attempt to Digest Four Pizza Publications from the Cornell Food and Brand Lab, BMC Nutrition 3 (2017): 54 [https://doi.org/10.1186/s40795-017-0167-x]; N. Brown. Strange Patterns in Some Results from the Food and Brand Lab, Nick Brown’s Blog, March 22, 2017 [http://steamtraen.blogspot.com/2017/03/strange-patterns-in-some-results-from.html].
28 Отчеты департамента транспорта [https://www.transit.dot.gov/research-innovation/status-nations-highways-bridges-and-transit-condition-and-performance]. Анализ Сандквиста: E. Sundquist. New Travel Demand Projections Are Due from U.S. DOT: Will They Be Accurate this Time? State Smart Transportation Initiative, December 16, 2013 [https://ssti.us/2013/12/16/new-travel-demand-projections-are-due-from-u-s-dot-will-they-be-accurate-this-time/]. Additional discussion: A. Gelman. The Commissar for Traffic Presents the Latest Five-Year Plan, Statistical Modeling, Causal Inference, and Social Science, January 21, 2014 [https://statmodeling.stat.columbia.edu/2014/01/21/commissar-traffic-presents-latest-five-year-plan/]; C. Williams-Derry. Traffic Forecast Follies: The US DOT Refuses to Learn from Recent Travel Trends, Sightline Institute, December 23, 2013 [https://www.sightline.org/2013/12/23/traffic-forecast-follies/].
29 История мировых рекордов: Women’s 100 Metres World Record Progression [https://en.wikipedia.org/wiki/Women%27s100metresworldrecord progression]; Men’s 100 Metres World Record Progression [https://en.wikipedia.org/wiki/Men%27s100metresworldrecordprogression]. Обратите внимание на улучшение точности определения времени, а также скорости бега. Предсказание времени забега: A. Tatem et al. Momentous Sprint at the 2156 Olympics? Nature 431 (2004): 525 [https://doi.org/10.1038/431525a]. В статье не приводилось уравнения для линии наилучшего соответствия этим данным, но среднегодовые улучшения могут быть получены из некоторых прогнозируемых сроков, указанных в ней. В комментарии к оригинальной статье отмечалось, что произойдет при экстраполяции на 2636 год: K. Rice. Sprint Research Runs into a Credibility Gap, Nature 432 (2004): 147 [https://doi.org/10.1038/432147b]. Такого рода ошибки экстраполяции, по-видимому, распространены в спорте. В более свежей публикации о рекордном времени в триатлоне Ironman была построена линейная модель на основе семи рекордов, установленных с 1987 года. Затем было отмечено, что «если вы продолжите эту прямую линию, то обнаружите, что текущая тенденция предсказывает появление рекорда ниже 7 часов в 2049 году». Конечно, если вы экстраполируете ту же линейную тенденцию дальше, вы можете предсказать, что к 2494 году кто-то закончит Ironman раньше, чем начнет его. См.: A. Hutchinson. The Science Says a Sub-SevenHour Ironman Is (Sort of) Possible, Triathlete, May 30, 2022 [https://www.triathlete.com/training/the-science-says-a-sub-seven-hour-ironman-is-sort-of-possible/].
30 M. Yglesias. The Trump Administration’s Cubic Model of Coronavirus Deaths, Explained, Vox, May 8, 2020 [https://www.vox.com/2020/5/8/21250641/kevin-hassett-cubic-model-smoothing].
31 Возможно, неслучайно Хассетт был соавтором книги, опубликованной в 1999 году, в которой предсказывалось, что промышленный индекс Доу-Джонса достигнет 36 000 к 2004 году: J. K. Glassman and K. L. Hassett. Dow 36,000: The New Strategy for Profiting from the Coming Rise in the Stock Market. New York: Three Rivers Press, 1999. Он достиг этого уровня в 2021 году – отличный пример прогноза, который был очень правильным, но дико неточным.
32 По данным Trends in Number of COVID-19 Cases and Deaths in the US Reported to CDC, by State/Territory, COVID Tracker, Centers for Disease Control and Prevention [https://covid.cdc.gov/covid-data-tracker/#trends_dailydeaths].
33 Дэн написал подробный анализ первоначальных мер реагирования на пандемию в Иллинойском университете в Урбана-Шампейне: