Голая статистика Чарльз Уилан саммари

Голая статистика — Чарльз Уилан,  самая интересная книга о самой скучной науке. Экономист Чарльз Уилан приподнимает завесу тайны над загадочной наукой статистикой, объясняя, как с ее помощью делаются выводы.

Экономист Чарльз Уилан, автор бестселлера “Голая экономика”, в своей новой книге преподносит статистику как нечто большее, чем набор формул, таблиц и кривых.

Его книга – не учебник, хотя в ней и даются основы этой науки. Манера по­вест­во­ва­ния Уилана больше всего напоминает выступление на конференции TED.

Сдабривая примеры изрядной долей юмора, он стремится донести красоту ста­ти­сти­че­ских данных до тех, кому она до сих пор неведома. Это доступное, написанное простым языком пособие пред­на­зна­че­но для обычных деловых людей, а не финансистов или биржевых трейдеров.

Книга станет ценным источником информации и для тех, кого обычно пугает обилие цифр и формул: впрочем, этой категории читателей, скорее всего, придется пропустить отдельные разделы.

Ну а для тех, кто цифры, наоборот, любит, преду­смот­ре­ны приложения с формулами и примерами расчетов.

Из краткого содержания книги вы узнаете:

  • Почему важно понимать ста­ти­сти­че­ские данные;
  • Как отличать полезную информацию от информации, вводящей в заблуждение;
  • Какими основными ста­ти­сти­че­ски­ми ин­стру­мен­та­ми и методами пользуются ис­сле­до­ва­те­ли;
  • Что может и чего не может статистика.

Основные идеи

  • Многие считают статистику очень скучной дисциплиной, хотя с энтузиазмом обсуждают рейтинги вузов и по­ли­ти­че­ские прогнозы, иными словами – ту же статистику.
  • Цифры сами по себе не могут представить общую картину. Их ин­тер­пре­ти­ру­ют ис­сле­до­ва­те­ли, вооруженные ста­ти­сти­че­ски­ми методами.
  • Статистика помогает не только описать ситуацию, но и создать механизмы прак­ти­че­ско­го применения полученных данных, например в случае ре­ко­мен­да­ций, которые продавец дает покупателям.
  • Статистика исследует вероятность наступления опре­де­лен­ных событий. Это необходимо при оценке ин­ве­сти­ци­он­ных рисков и кре­ди­то­спо­соб­но­сти, вероятности наступления страхового случая.
  • Любые ста­ти­сти­че­ские данные приобретают смысл только в контексте.
  • Один из самых важных принципов статистики звучит так: “Мусор на входе – мусор на выходе”. Без надежных данных не получить за­слу­жи­ва­ю­щие доверия результаты.
  • Корреляция – не при­чин­но-след­ствен­ная связь. Если между двумя событиями наблюдается корреляция, то это еще не значит, что одно из них вызывает другое.
  • Ста­ти­сти­че­ские данные можно умело подогнать под нужные выводы.
  • То, что событие ма­ло­ве­ро­ят­но, не означает, что оно невозможно.
  • Самые тщательно проведенные измерения и расчеты не должны про­ти­во­ре­чить здравому смыслу.

Краткое содержание Голая статистика Чарльз Уилан

Что нам дает статистика

Статистика – удобный инструмент, помогающий об­ра­ба­ты­вать данные и пред­став­лять сложную информацию в виде простых и понятных цифр. Этот инструмент ис­поль­зу­ет­ся в самых разных ситуациях.

Статистика помогает делать выводы и принимать решения, получать ответы на важные вопросы, в том числе в социальной сфере – например, если нужно сравнить уровень социального неравенства по странам и выяснить, как в них рас­пре­де­ля­ет­ся богатство.

Благодаря статистике мы получаем возможность находить прак­ти­че­ское применение об­ра­бо­тан­ной информации. Именно на ста­ти­сти­че­ских данных основаны ре­ко­мен­да­ции Netflix, аме­ри­кан­ско­го поставщика фильмов и сериалов на основе потокового видео.

Алгоритм этих ре­ко­мен­да­ций несложен: клиенту, по­смот­рев­ше­му фильм А, скорее всего, понравится фильм Б, потому что он понравился большинству поль­зо­ва­те­лей, по­смот­рев­ших фильм А.

“Есть три вида лжи: ложь, наглая ложь и статистика” (Марк Твен).

Статистика дает возможность находить более эффективные решения различных задач – от поиска пре­ступ­ни­ков до продажи детских подгузников. Она позволяет оценивать эф­фек­тив­ность инноваций, будь то новый ле­кар­ствен­ный препарат или новая социальная программа.

Статистика помогает оценить риск инвестиций и определить размер страховых взносов. Ста­ти­сти­че­ские данные со­про­вож­да­ют нас повсюду.

Студент, который считает статистику скучным предметом, с энтузиазмом обсуждает ко­эф­фи­ци­ен­ты эф­фек­тив­но­сти бейс­бо­ли­стов, средние баллы и кривые эк­за­ме­на­ци­он­ных результатов, иными словами – ту же статистику.

“Статистика подобна мощному оружию, полезному в случае его правильного применения и по­тен­ци­аль­но раз­ру­ши­тель­но­му в неумелых руках”.

Если в бар зашел Билл Гейтс

Опи­са­тель­ная статистика позволяет нам обозначить проблему или явление, дать им обобщенное описание. Однако чтобы описание со­от­вет­ство­ва­ло дей­стви­тель­но­сти, необходимо правильно выбирать показатели.

Предположим, мы хотим описать уровень дохода посетителей бара. Мы можем ис­поль­зо­вать среднее значение. Если каждый из сидящих за стойкой 10 мужчин за­ра­ба­ты­ва­ет по 35 000 долларов в год, то именно столько составит их средний доход.

Но картина полностью изменится, если к посетителям бара неожиданно при­со­еди­нит­ся Билл Гейтс. Тогда уровень их дохода сразу взлетит к 91 миллиону, что явно не со­от­вет­ству­ет дей­стви­тель­но­сти.

Поэтому в случае, когда появляются значения, очень сильно от­кло­ня­ю­щи­е­ся от среднего (“отщепенцы”), правильнее ис­поль­зо­вать медианный показатель. Он делит посетителей бара по их доходам на две равные группы.

“Если представить, что посетители бара расселись за его стойкой в порядке возрастания их доходов, то доход посетителя, сидящего на шестом стуле, будет срединным для данной группы людей”.

И даже если за стойку на двенадцатый стул сядет Уоррен Баффет, срединный (медианный) доход посетителей все равно будет равняться 35 000.

Ста­ти­сти­че­ские значения могут быть абсолютными и от­но­си­тель­ны­ми. Допустим, из 60 возможных баллов теста ученик третьего класса набрал 43. Это абсолютное значение, которое в данном случае несет в себе не много информации.

Другое дело, если сравнить достижения этого ученика с до­сти­же­ни­я­ми всех учеников его штата, посмотрев, как рас­пре­де­ля­ют­ся результаты. От­но­си­тель­ное значение сразу дает понять, что уровень знаний этого учащегося выше, чем у большинства детей того же возраста в данном штате. Для правильного понимания ста­ти­сти­че­ских данных важен контекст.

“Ирония судьбы заключается в том, что чем большим количеством данных мы располагаем, тем труднее выделить в них главное. Поэтому мы вынуждены прибегать к упрощениям”.

Статистика может описывать данные на языке индексов. Индекс кон­со­ли­ди­ру­ет в едином показателе большое число разнородных данных. Так, HDI, индекс че­ло­ве­че­ско­го развития ООН, включает в себя помимо дохода среднюю про­дол­жи­тель­ность жизни и уровень образования. С помощью индексов намного легче проводить сравнения.

“Кто-то из гнусных побуждений может обыграть даже самые невинные факты и численные показатели ради весьма со­мни­тель­ных выводов, не имеющих ничего общего с реальной ситуацией”.

Почему не стоит доверять рейтингам

Любое утверждение способно ввести в заблуждение, не будучи при этом лживым. Несмотря на то что в основе статистики лежит математика, которая является предельно точной наукой, статистика не всегда правильно отражает сложные явления.

Ста­ти­сти­че­ские данные можно намеренно ис­поль­зо­вать так, чтобы неверно представить ситуацию. В качестве примера можно привести “рекламную войну” между двумя операторами мобильной связи – Verizon и AT&T.

Компании выбрали разные единицы анализа – площадь зоны покрытия и количество населения. У AT&T зона покрытия меньше, но зато она приходится на наиболее гу­сто­на­се­лен­ные районы. В результате Verizon утверждает, что ее услуги являются более ка­че­ствен­ны­ми, потому что она имеет большую зону покрытия.

AT&T утверждает то же самое, но на основании того, что ее услугами пользуется 97% американцев. Чтобы не попасть на удочку подобных манипуляций, необходимо четко понимать суть ис­поль­зу­е­мых ста­ти­сти­че­ских данных и показателей.

По­пу­ляр­ность того или иного рейтинга или ста­ти­сти­че­ско­го показателя еще не значит, что он дей­стви­тель­но важен и что ему стоит доверять. Журнал U.S. News & World Report ежегодно публикует рейтинги вузов, которых с нетерпением ждут многие абитуриенты и их родители.

Эти рейтинги скла­ды­ва­ют­ся из ряда показателей. Наибольшим весом обладает такой показатель, как “научная репутация”. Однако она опре­де­ля­ет­ся не на основе измеримых данных, а с помощью опроса “пред­ста­ви­те­лей научного сообщества”.

Малкольм Гладуэлл приводит пример подобного опроса: более сотни опрошенных юристов внесли в список лучших юридических вузов Пен­силь­ван­ский университет. И все было бы ничего, если бы в этом уни­вер­си­те­те был юридический факультет.

“Если вы формируете на основе какой-либо со­во­куп­но­сти большие (по объему) случайные выборки, то их средние значения будут рас­пре­де­ле­ны по нормальному закону вблизи среднего значения со­от­вет­ству­ю­щей со­во­куп­но­сти”.

Как количество телевизоров влияет на школьную успе­ва­е­мость

Корреляция – не то же самое, что при­чин­но-след­ствен­ная связь. Она позволяет отследить па­рал­лель­ные изменения двух явлений.

Например, существует корреляция между такими явлениями, как повышение температуры воздуха летом и объемы продаж мороженого. Но изменение одной переменной может приводить, а может и не приводить к изменению другой.

“Ис­поль­зо­ва­ние большей по объему выборки снижает стандартную ошибку. Именно за счет этого крупные об­ще­на­ци­о­наль­ные опросы позволяют получить необычайно точные результаты”.

Так, ис­сле­до­ва­ние может показать, что учащиеся, в доме которых больше телевизоров, лучше сдают экзамены фе­де­раль­но­го уровня. Получается, что количество телевизоров влияет на успе­ва­е­мость.

На самом деле на нее влияет доход семьи. Можно пред­по­ло­жить, что семьи, которые могут позволить себе купить несколько телевизоров, могут позволить себе нанять хороших репетиторов.

Во власти ве­ро­ят­но­стей

Теория вероятности описывает действия с неопре­де­лен­ным результатом, будь то под­бра­сы­ва­ние монетки, инвестиции в фондовый рынок, игра в рулетку. Как в случае с азартными играми, так и с некоторыми ин­ве­сти­ци­я­ми высокий риск может означать зна­чи­тель­ный выигрыш.

“Корреляция не пред­по­ла­га­ет при­чин­но-след­ствен­ной связи: по­ло­жи­тель­ная или от­ри­ца­тель­ная корреляция между двумя переменными вовсе не обязательно означает, что изменения одной переменной вызывают изменения другой”.

Вероятность какого-то события может быть очень мала, но в опре­де­лен­ных случаях это и будет по­ло­жи­тель­ным фактором. Именно потому, что низка вероятность угона каждого отдельно взятого автомобиля, страховые взносы перекрывают страховые выплаты.

Для определения вероятности наступления того или иного события ис­поль­зу­ет­ся “пре­дик­тив­ный”, или прогнозный, анализ. Так, если человек имеет хорошую кредитную историю, то вероятность того, что он и в дальнейшем останется доб­ро­со­вест­ным заемщиком, достаточно велика.

То, что событие ма­ло­ве­ро­ят­но, не означает, что оно невозможно. Может быть, вы лично и не выиграете в лотерею ни разу в жизни, но ведь кому-то выигрыш обязательно достанется.

“Зависимость между двумя переменными подобна отпечаткам пальцев, оставленным на месте пре­ступ­ле­ния. Она указывает на преступника, но одних лишь отпечатков недо­ста­точ­но, чтобы осудить человека”.

Без­от­вет­ствен­ность на Уолл-стрит

Ста­ти­сти­че­ские построения могут быть ис­поль­зо­ва­ны совершенно без­от­вет­ствен­но. Достаточно вспомнить модель “рисковой стоимости” Уолл-стрит. В основе этой модели лежал постулат, что каждая инвестиция имеет опре­де­лен­ный спектр возможных результатов.

Задачей модели было высчитать вероятность роста или падения акций. Однако эта “черно-белая” модель в “сером” мире имела три недостатка. Во-первых, она не принимала во внимание непред­ска­зу­е­мость финансовых рынков.

Кажущаяся точность прогнозов, сделанных с помощью этой модели, стала одним из факторов, вызвавших финансовый кризис 2008 года. Во-вторых, она в должной степени не учитывала контекст событий: результаты прошлых периодов просто экс­тра­по­ли­ро­ва­лись на будущее.

Но на финансовых рынках такой подход не работает. В-третьих, те, кто использовал модель “рисковой стоимости”, полностью иг­но­ри­ро­ва­ли тот факт, что пускай и с очень небольшой ве­ро­ят­но­стью, но катастрофа все-таки может произойти.

Пред­по­ла­гать без достаточных оснований, что между кор­ре­ли­ру­ю­щи­ми событиями есть при­чин­но-след­ствен­ная связь, опасно. Не менее опасно полагать, что все события случайны. Аналитики должны проверять любые результаты, полученные на основе корреляции.

“Статистика не может быть более совершенной, чем люди, которые ее используют”.

Как избежать ненадежных результатов

Нельзя получить надежные результаты без надежных данных. Отсюда один из важнейших принципов статистики: “Мусор на входе – мусор на выходе”. Типичная проблема сбора данных – неправильно сделанная выборка.

Правильная выборка должна быть случайной, а ее размер должен правильно со­от­но­сить­ся с размером исследуемой аудитории.

Например, если ис­сле­до­ва­те­ли опрашивают по­тре­би­те­лей не связанного с авиа­пе­ре­воз­ка­ми продукта в аэропорту, то полученные результаты будут искажены, так как выборка включит лишь тех, кто может позволить себе летать самолетом.

К типичным искажениям относятся также намеренный отбор опре­де­лен­ных данных для публикации и данные, основанные на ложных вос­по­ми­на­ни­ях, которые пре­под­но­сят­ся ре­спон­ден­та­ми в качестве фактов. Практически все ста­ти­сти­че­ские факты и показатели подвержены тем или иным искажениям.

“Сами по себе формулы не подскажут нам наилучшие способы их ис­поль­зо­ва­ния. Иными словами, математика не может заменить суждение”.

Ста­ти­сти­че­ские выводы

Статистика позволяет делать важные выводы исходя из от­но­си­тель­но небольшого объема данных.

Такие обобщения возможны благодаря центральной предельной теореме: из нее следует, что большая и качественно сделанная выборка будет похожа на со­во­куп­ность, из которой эта выборка была извлечена.

Ваши данные, полученные с помощью такой выборки, вряд ли будут содержать зна­чи­тель­ное число нетипичных значений, или “отщепенцев”. Примером применения теоремы может служить про­гно­зи­ро­ва­ние результатов выборов на основе опроса тысячи избирателей.

Статистика ничего не утверждает с полной опре­де­лен­но­стью. Ее задача не в этом. Ис­сле­до­ва­те­ли проводят анализ, опираясь на здравый смысл, ка­че­ствен­ные исходные данные и проверенную методологию.

Процесс, благодаря которому на основе опре­де­лен­ных данных делаются заключения, называется ста­ти­сти­че­ским выводом. Делая ста­ти­сти­че­ские выводы, ис­сле­до­ва­те­ли оценивают вероятность истинности того, что напрямую доказать невозможно.

Статистика может указать верное направление, но доказать гипотезу можно только с помощью экс­пе­ри­мен­тов и наблюдения.

“В каждой главе книги я пытаюсь ответить на основной вопрос, который безуспешно задавал в школе своему пре­по­да­ва­те­лю математики: зачем все это нужно лично мне?”

Почему не стоит доверять опросам

Результаты опросов могут иметь большую ценность. Как утверждает глава компании Gallup Фрэнк Ньюпор, “опрос 1000 человек позволяет с высокой степенью точности оценить настроения в обществе в целом”.

Однако опросу можно доверять, только если выборка сделана абсолютно правильно. Большое значение также имеет то, как сфор­му­ли­ро­ва­ны вопросы.

Например, выражения “снижение налогового бремени” и “урезание налогов” описывают, по сути, один и тот же процесс. Но избиратели более по­ло­жи­тель­но реагируют на фор­му­ли­ров­ку “снижение налогового бремени”.

Точно так же более сильный отклик вызывает “глобальное потепление”, нежели нейтральное “изменение климата”. Этим пользуются политики, когда им нужно подготовить опрос, который показал бы их пред­вы­бор­ную программу с более выгодной стороны.

Также следует учесть, что далеко не всегда участники опроса говорят правду. Например, они могут умышленно или неумышленно пре­уве­ли­чить свои возможности.

“Парадокс статистики в том, что она вездесуща – начиная с так называемых средних показателей и заканчивая го­ло­со­ва­ни­ем на выборах президента, – но при этом пользуется репутацией неин­те­рес­ной и ма­ло­по­нят­ной”.

Для измерения результатов того или иного воздействия в статистике применяются “программы ста­ти­сти­че­ско­го оценивания”. Под воз­дей­стви­ем под­ра­зу­ме­ва­ет­ся как воздействие в буквальном смысле – например, хи­рур­ги­че­ское вме­ша­тель­ство, так и некое решение – например, о поступлении в колледж.

Такие программы под­ра­зу­ме­ва­ют ис­поль­зо­ва­ние различных ин­стру­мен­тов, в том числе управляемых и натурных экс­пе­ри­мен­тов. По сути, они позволяют проследить причину и следствия.

Ошибки ре­грес­сив­но­го анализа

Как ис­сле­до­ва­те­лям удается определить подлинную причину того или иного явления?

Например, как им удалось выяснить, что в большей степени рискуют умереть от стресса вовсе не топ-ме­не­дже­ры, которым постоянно приходится принимать от­вет­ствен­ные решения, а рядовые сотрудники, которые не имеют возможности кон­тро­ли­ро­вать сроки и способ выполнения своей работы?

Ис­сле­до­ва­те­лям помогает ре­грес­сив­ный анализ. Этот инструмент позволяет вычленить ту переменную, которая приводит к опре­де­лен­но­му исходу.

“Опираясь на статистику, легко лгать, но без статистики очень трудно выяснить истину” (Андрейс Дункельс, шведский математик и писатель).

Большинство результатов ис­сле­до­ва­ний, которые публикуются в прессе, получены с помощью ре­грес­сив­но­го анализа. Этот инструмент может дать точные ответы на очень сложные вопросы.

Но иногда выводы могут оказаться неверными. Поэтому ре­грес­сив­ный анализ, как и опрос об­ще­ствен­но­го мнения, требует очень тщательного и умелого подхода.

В 1990-х годах на основе ста­ти­сти­че­ских ис­сле­до­ва­ний был сделан вывод, что содержащие эстроген добавки оказывают по­ло­жи­тель­ное влияние на са­мо­чув­ствие пожилых женщин.

Но проведенные в 2000-х годах клинические ис­сле­до­ва­ния показали, что прием этих добавок со­про­вож­да­ет­ся до­пол­ни­тель­ны­ми рисками, которые сводят на нет их пользу.

Получается, что статистика направила медицину по ложному пути. И это несмотря на то что ис­сле­до­ва­ни­я­ми, которые дали зеленый свет эстрогенным добавкам, занимались Гарвардская школа об­ще­ствен­но­го здра­во­охра­не­ния и Гарвардская медицинская школа.

Статистика позволяет ана­ли­зи­ро­вать риски, получать ответы на важные вопросы и принимать более обос­но­ван­ные решения.

Но главное правило ста­ти­сти­че­ско­го анализа, которое необходимо усвоить, состоит в том, что даже самые точные измерения и подсчеты не должны про­ти­во­ре­чить здравому смыслу.

Голая статистика Чарльз Уилан, приобрести книгу