Просчитать будущее Эрик Сигель саммари

Просчитать будущее Эрик Сигель, кто кликнет, купит, соврет или умрет. Кредитные рейтинги – это только начало. Скоро крупные компании и государственные ведомства научатся предвидеть любой ваш шаг.

Прогнозная аналитика поражает своими воз­мож­но­стя­ми и од­но­вре­мен­но вызывает дрожь. Этот подраздел теории вы­чис­ли­тель­ных систем, включающий анализ больших данных и статистику, позволяет предсказать, чтó вы захотите купить, как про­го­ло­су­е­те на выборах и когда, вероятнее всего, умрете.

Автор книги, признанный специалист по прогнозной аналитике, выступает горячим про­па­ган­ди­стом этой дисциплины и всячески стремится рассеять опасения по поводу того, что она угрожает непри­кос­но­вен­но­сти частной жизни.

Однако это не умаляет ценности увле­ка­тель­ной книги, в которой сложнейшие вопросы и абстрактные теории описываются доступным языком.

Сигель не только приводит невы­ду­ман­ные ситуации, с которыми столкнулись известные компании, такие как Target, Hewlett-Packard и Chase, но и рас­ска­зы­ва­ет о собственном опыте работы кон­суль­тан­том по ПА.

Из краткого содержания книги вы узнаете:

  • Чем обусловлен стре­ми­тель­ный рост по­пу­ляр­но­сти прогнозной аналитики;
  • Какого вида прогнозы составляют различные компании и организации;
  • Как строить деревья решений.

Основные идеи

  • Прогнозная аналитика (ПА) применяется везде: в бизнесе, про­мыш­лен­но­сти, здра­во­охра­не­нии, го­су­дар­ствен­ном управлении и охране пра­во­по­ряд­ка.
  • Прогнозный анализ данных позволяет пред­ска­зы­вать просрочку платежей по кредитам, болезни, ДТП и пред­по­чте­ния покупателей.
  • Точный прогноз невозможен, но в любом случае ПА намного точнее, чем простое угадывание и даже мнение эксперта.
  • В любой прогнозной модели низкое качество данных ведет к получению ненадежных результатов.
  • ПА добывает из данных знания, позволяющие принимать более точные и бес­при­страст­ные решения, не ори­ен­ти­ру­ясь на опыт или интуицию.
  • В тра­ди­ци­он­ном про­гно­зи­ро­ва­нии делаются масштабные прогнозы на большую перспективу, а ПА занимается про­гно­зи­ро­ва­ни­ем поведения на уровне отдельных людей.
  • Первым применением ПА стал анализ кредитных рейтингов, начатый еще в 1940-х годах.
  • Про­гно­сти­че­ские модели состоят из деревьев решений, которые позволяют выявить тот или иной риск с помощью простых вопросов с ответами “да-нет”.
  • Многим по­тре­би­те­лям не по душе массовый сбор данных. 25% всех личных профилей на Facebook содержат ложную информацию – так поль­зо­ва­те­ли пытаются обмануть алгоритмы анализа больших данных.
  • Чем выше кон­фи­ден­ци­аль­ность данных, тем больше их про­гно­сти­че­ская ценность.

Краткое содержание Просчитать будущее Эрик Сигель

Про­гно­зи­ро­ва­ние на основе анализа больших данных

Представим, что настал 2022 год. Применение прогнозной аналитики стало частью жизни. Начать хотя бы с утренней поездки на работу. Вы садитесь в автомобиль, и прогнозная модель считывает био­мет­ри­че­скую информацию, проверяя, что вы – это вы.

Сервис Spotify подбирает подходящую музыку, ори­ен­ти­ру­ясь на ваши музыкальные пред­по­чте­ния. Во время поездки ваш “тех­но­сек­ре­тарь по социальным сетям” зачитывает вам ленты новостей из Facebook, объявления о вакансиях из CareerBuilder и сообщения с сайта знакомств Match.​com, которые, по его прогнозам, вас за­ин­те­ре­су­ют.

Сервис Siri под­ска­зы­ва­ет маршрут и сообщает, где об­ра­зо­ва­лись пробки. Стоит вам слишком надолго оторвать взгляд от дороги, и во­ди­тель­ское кресло под вами начинает вибрировать, призывая со­сре­до­то­чить­ся.

При воз­ник­но­ве­нии какой-либо другой опасности – например, приближении автомобиля с невни­ма­тель­ным водителем или появлении ребенка на проезжей части – в машине раздается звуковой сигнал.

Вдобавок ко всему этому ди­а­гно­сти­че­ская система автомобиля ведет мониторинг работы двигателя и состояния подвески и выдает пре­ду­пре­жде­ние о скорой ме­ха­ни­че­ской поломке.

Такое вза­и­мо­дей­ствие человека и автомобиля – самые явные примеры применения ПА. В других случаях прогнозы работают “за кулисами” действия. На покупку этой машины банк выдал вам кредит, потому что у вас хороший кредитный рейтинг.

Компания, за­стра­хо­вав­шая этот автомобиль, с помощью датчиков собирает для своей прогнозной модели информацию о вашей манере вождения. Сверяясь с моделью, она определяет, сколько для вас будет стоить страховка.

Ваши автомобиль и телефон про­гно­зи­ру­ют воз­ник­но­ве­ние рисков в области защиты данных и принимают меры к их устранению, а системы про­гно­зи­ро­ва­ния в го­су­дар­ствен­ных учреждениях тем временем пред­ска­зы­ва­ют такие угрозы, как обрушение мостов.

“Прибегая к помощи прогнозных аналитиков, организации удерживают детей в школах, обес­пе­чи­ва­ют приток новых клиентов и предот­вра­ща­ют совершение пре­ступ­ле­ний”.

Такая картина может показаться научной фантастикой, и тем не менее эти способы применения ПА уже существуют или активно раз­ра­ба­ты­ва­ют­ся. Поток данных, ге­не­ри­ру­е­мых смартфонами, “умными” часами и веб-очками, непрерывно уве­ли­чи­ва­ет­ся.

Влияние прогнозной аналитики и больших данных на жизнь постепенно еще больше усилится.

“Данные пред­став­ля­ют собой бесценное собрание опыта, на котором можно учиться”.

Вез­де­сущ­ность данных

Методы ПА активно применяются в бизнесе, про­мыш­лен­но­сти, здра­во­охра­не­нии, го­су­дар­ствен­ном управлении и охране пра­во­по­ряд­ка. Ис­поль­зо­ва­ние ин­стру­мен­тов про­гно­зи­ро­ва­ния нередко становится главным фактором успеха.

Так, наиболее успешные отделы продаж применяют методы ПА в четыре раза чаще, чем наименее успешные. По­пу­ляр­ность ПА стре­ми­тель­но растет. По оценке McKinsey, на рынке труда в США вскоре возникнет дефицит аналитиков, из­ме­ря­ю­щий­ся цифрой 140 000 человек.

Сегодня перед нашими глазами происходит настоящий “Большой взрыв” в области больших данных – сырья для ПА. Множество устройств фиксируют каждый ваш шаг, будь то заявка на кредит, сообщения в Facebook, посещения врача или покупки на Amazon, и вся эта информация на­прав­ля­ет­ся в хранилища данных, размеры которых стре­ми­тель­но растут.

Ежесуточно объем данных в мире уве­ли­чи­ва­ет­ся примерно на 2,5 квинтильона байт. Это значит, что у аналитиков имеется ко­лос­саль­ный задел для работы и по­бе­ди­те­ля­ми окажутся компании, умеющие ана­ли­зи­ро­вать данные.

“ПА является ведущим на­прав­ле­ни­ем в рамках растущей тенденции по принятию решений, «основанных на данных», опирающихся не на «чутье», а на объективные эм­пи­ри­че­ские факты”.

Области применения прогнозной аналитики

ПА помогает компаниями искать бла­го­при­ят­ные возможности для бизнеса и за­бла­го­вре­мен­но выявлять риски, связанные, например, с несчастными случаями или кражами. Приведем несколько примеров того, как компании используют ПА:

  • По­ку­па­тель­ское поведение. Гол­ли­вуд­ские киностудии анализируют сценарии фильмов, пытаясь предсказать, хорошо ли будут продаваться билеты. Банки и кон­ди­тер­ские фабрики проводят мар­ке­тин­го­вые кампании, ори­ен­ти­ру­ясь на недавние покупки своих клиентов. Энергетики про­гно­зи­ру­ют спрос на элек­три­че­ство, а Уолл-стрит – стоимость акций.
  • Потеря лояльности сотрудников и клиентов.Всегда полезно знать, кто из сотрудников уволится и какие клиенты уйдут к конкурентам. С помощью ПА компании могут кон­тро­ли­ро­вать риски, связанные с уходом недовольных сотрудников или покупателей. В Hewlett-Packard для каждого из 300 с лишним тысяч сотрудников оценивается “риск ухода”. Сотовые компании вычисляют, кто из клиентов прекратит поль­зо­вать­ся их услугами. В FedEx научились пред­ска­зы­вать уход клиентов с точностью более 65%. Ад­ми­ни­стра­ции учебных заведений оценивают, кто из студентов с большой ве­ро­ят­но­стью может бросить учебу.
  • Несчастные случаи и неплатежи по кредитам. Страховые компании анализируют данные, выясняя, кто из водителей, вероятнее всего, попадет в ДТП. Банки и кол­лек­тор­ские агентства рас­счи­ты­ва­ют, какие заемщики с наибольшей ве­ро­ят­но­стью окажутся непла­те­же­спо­соб­ны­ми, а кто из должников все-таки сумеет рас­пла­тить­ся.
  • Болезни.Клиники и компании ме­ди­цин­ско­го страхования все чаще занимаются про­гно­зи­ро­ва­ни­ем того, кому из больных потребуется гос­пи­та­ли­за­ция, сколько они проведут на больничной койке и как долго проживут. Новейшая диагностика позволяет точно про­гно­зи­ро­вать воз­ник­но­ве­ние рака, расстройств психики и даже преж­де­вре­мен­ные роды.
  • Пре­ступ­ле­ния.В Citizens Bank вос­поль­зо­ва­лись ПА для обнаружения поддельных чеков, в результате чего убытки от этого вида мо­шен­ни­че­ства уменьшились на 20%. Hewlett-Packard сэкономила миллионы долларов, научившись выявлять фиктивные гарантийные претензии. В Чикаго и Мемфисе полиция патрулирует районы, где пред­по­ла­га­ет­ся всплеск пре­ступ­но­сти. А налоговые службы с помощью ПА выявляют махинации с налогами.

“Логическая схема дерева решений аналогична простой ком­пью­тер­ной программе, поэтому, выращивая его, компьютер в буквальном смысле про­грам­ми­ру­ет сам себя”.

Могущество несо­вер­шен­ных прогнозов

Прогнозная аналитика – это технология, которая на основе изучения прошлого опыта (то есть данных) позволяет пред­ска­зы­вать будущее поведение людей с целью принятия наиболее оптимальных решений.

Она далека от со­вер­шен­ства, и тем не менее результаты ее применения по точности намного превосходят любой другой вид оценки, даже сделанной экспертом.

Рассмотрим пример компании, которая обычно проводит прямую почтовую рассылку с откликом 1%. В этой компании решили выяснить с помощью методов ПА, какие потребители с большей ве­ро­ят­но­стью отреагируют на ее мар­ке­тин­го­вые усилия.

По результатам анализа были отобраны адресаты с показателем отклика 3%. На первый взгляд, применение ПА завершилось провалом: 97% рекламных писем оказались в мусорной корзине.

С другой стороны, эф­фек­тив­ность мар­ке­тин­го­вой кампании благодаря ПА выросла втрое. Одно из золотых правил ПА гласит: “Малым достигается многое”.

По сообщению одной страховой компании, снижение ко­эф­фи­ци­ен­та убыточности всего на полпроцента в результате применения ПА позволило ей сэкономить около 50 миллионов долларов.

“По мере того как дерево решений становится все больше и сложнее, растет и его прогнозная эф­фек­тив­ность, хотя и более медленно, по принципу убывающей отдачи”.

До эпохи больших данных ру­ко­во­ди­те­ли принимали решения, опираясь на личный опыт, интуицию и знания. Такая практика оправданна, однако не спасает от разного рода искажений.

Данные обес­пе­чи­ва­ют намного более взвешенный и точный подход к принятию решений. Имея точный прогноз, вы сэкономите деньги, не отправив рекламные сообщения людям, которым они заведомо неинтересны, и не выдадите кредит непла­те­же­спо­соб­но­му заемщику.

Прогнозная аналитика отличается от тра­ди­ци­он­но­го про­гно­зи­ро­ва­ния, нацеленного на составление общих масштабных прогнозов: она пред­ска­зы­ва­ет поведение отдельных людей.

Иными словами, специалисты по про­гно­зи­ро­ва­нию пытаются предсказать, кто из кандидатов в президенты победит, например, в штате Огайо, а ПА старается выяснить, кто именно из избирателей в этом штате проголосует за конкретного кандидата.

“Дерево решений растет на плодородной почве данных и постоянно делит группы индивидов на множество подгрупп”.

Вторжение в частную жизнь?

На основе анализа своих данных розничная компания Target научилась определять, кто из по­ку­па­тель­ниц ждет ребенка. В качестве источника сведений Target ис­поль­зо­ва­ла собственный он­лайн-сер­вис.

Чтобы приобретать товары для но­во­рож­ден­ных, будущие мамы ре­ги­стри­ру­ют­ся на сайте Target, указывая при этом пред­по­ла­га­е­мую дату родов.

Поскольку аккаунты на сайте заводят далеко не все по­ку­па­тель­ни­цы – будущие матери, компания решила с помощью ПА выявить таких клиентов, рассчитывая предлагать им товары, которые могли бы их за­ин­те­ре­со­вать.

Прогнозную модель в Target построили, объединив данные своего он­лайн-сер­ви­са для будущих мам с данными из других источников и про­ана­ли­зи­ро­вав общие за­ко­но­мер­но­сти.

Аналитики компании обнаружили, что беременные женщины склонны покупать опре­де­лен­ные товары, многие из которых не имеют, казалось бы, никакого отношения к уходу за младенцем.

Модель позволила выявить на 30% больше по­ку­па­тель­ниц, которых по­тен­ци­аль­но могли бы за­ин­те­ре­со­вать товары для будущих матерей.

“При всех ко­лос­саль­ных объемах информации о прошлом как убедиться в том, что мы можем доверять пред­ла­га­е­мо­му нам машинами видению непо­зна­ва­е­мо­го будущего?”

Специалисты по про­гно­зи­ро­ва­нию скажут, что выполненный в Target анализ увенчался несомненным успехом: на основе анализа собственных данных компания увеличила продажи.

Но когда история об этом стала известна широкой публике, такая работа с данными подверглась резкой критике. В феврале 2012 года The New York Times Magazine опубликовал статью журналиста Чарльза Дахигга “Как компании узнают ваши секреты”.

В ней Дахигг делает вывод, что ПА грубо покушается на непри­кос­но­вен­ность частной жизни, а ее методы позволяют алчным компаниям ма­ни­пу­ли­ро­вать без­за­щит­ны­ми по­тре­би­те­ля­ми.

Дахигг, в частности, описал ситуацию, когда отец узнал о бе­ре­мен­но­сти до­че­ри-под­рост­ка, изучив рекламные материалы, присланные ей из магазина Target. Этот случай вошел и в ставшую бест­сел­ле­ром книгу Дахигга “Сила привычки”.

После этого в СМИ поднялась буря негодования по поводу негативной стороны ПА, хотя Дахигг в своей книге ничего не упоминает о том, что Target предо­ста­ви­ла сведения об этой анонимной де­воч­ке-под­рост­ке третьим сторонам.

Реакция СМИ неуди­ви­тель­на: когда при анализе данных за­тра­ги­ва­ют­ся такие интимные вопросы, как бе­ре­мен­ность, сразу возникают опасения, связанные с защитой кон­фи­ден­ци­аль­но­сти. Вместе с тем чем выше кон­фи­ден­ци­аль­ность данных, тем больше их про­гно­сти­че­ская ценность.

“Хотя само про­гно­зи­ро­ва­ние может быть сложнейшей задачей, чтобы рассчитать выгоду, которую приносит его эффективное ис­поль­зо­ва­ние, достаточно простейших ариф­ме­ти­че­ских действий”.

Результаты применения ПА дей­стви­тель­но могут поставить человека в неловкую ситуацию. Так, если вы недавно покупали в аптеке средство от вздутия живота, то при следующем посещении вам могут предложить купон со скидкой на лекарство от метеоризма.

По­тре­би­те­лям не нравится такого рода сбор данных. Об этом сви­де­тель­ству­ет хотя бы такой факт: 25% всех личных профилей на Facebook содержат ложную информацию – так поль­зо­ва­те­ли пытаются обмануть алгоритмы анализа больших данных.

“Построенная на фундаменте ком­пью­тер­ных наук и статистики и активно развиваемая благодаря на­уч­но-ис­сле­до­ва­тель­ским программам прогнозная аналитика пре­вра­ти­лась в са­мо­сто­я­тель­ную дисциплину”.

Обучение на исходной информации

Прогнозная аналитика опирается на алгоритмы машинного обучения. Составление прогнозных моделей начинается со сбора “обучающих данных” – исходной информации (например, списка будущих мам на сайте Target и купленных ими товаров), на которой модель обучается пред­ска­зы­вать поведение в будущем.

По мере добавления новых данных модели учатся выявлять при­чин­но-след­ствен­ные связи. Но при этом какой бы хорошей ни была модель, ввод в нее нека­че­ствен­ных данных даст нека­че­ствен­ные результаты.

“Гораздо лучше иметь хотя бы смутное пред­став­ле­ние о том, что произойдет в будущем, чем пребывать в полной неиз­вест­но­сти”.

Какие сведения, к примеру, собирала Hewlett-Packard для оценки сотрудников по шкале “риска ухода”? Были про­ана­ли­зи­ро­ва­ны данные за два года о заработной плате, аттестации, выданных сотрудникам заданиях и о том, кто именно уволился за этот период.

Руководство HP решило выяснить заранее, какие сотрудники, вероятнее всего, уйдут. С точки зрения ра­бо­то­да­те­ля такое применение анализа данных полностью оправданно: оно дает возможность под­го­то­вить­ся к уходу сотрудника или принять меры к удержанию ценных кадров.

Однако самим сотрудникам подобный рейтинг едва ли придется по душе. Что если лояльному работнику по какой-либо причине припишут высокий “риск ухода”?

В HP прекрасно понимают, что составление рейтинга лояльности – дело деликатное, поэтому компания при­дер­жи­ва­ет­ся “политики предельной осто­рож­но­сти”: доступ к отчетам имеют лишь несколько ру­ко­во­ди­те­лей, сотрудники перечислены в них не под своими именами, а под номерами.

Было установлено, что долгий стаж работы в HP коррелирует с высокой зарплатой и высокой частотой ротации должностей. Но при этом частые продвижения по службе, например, почти никак не отразились на лояльности работников из отдела расчетов воз­на­граж­де­ния менеджеров по продажам.

Даже наоборот: те работники, которых чаще других повышают, уволятся с большей ве­ро­ят­но­стью – видимо, протестуя против слишком незна­чи­тель­но­го роста зарплаты. Оценка сотрудников по шкале “риска ухода” позволила HP сэкономить около 300 миллионов долларов за счет снижения текучести кадров.

“Ряд факторов будет спо­соб­ство­вать еще более активному развитию этой тенденции: ин­тен­си­фи­ка­ция накопления данных, появление все более мощных компьютеров, развитие ана­ли­ти­че­ской науки и более широкая осве­дом­лен­ность о прогнозных технологиях”.

Кредитные рейтинги

Впервые кредитные рейтинги начали составлять в начале 1940-х годов – собственно, благодаря им и утвердилась концепция прогнозной аналитики.

Когда стало ясно, что кредитные рейтинги дей­стви­тель­но помогают снижать риски по­тре­би­тель­ско­го кре­ди­то­ва­ния, банки стали составлять их для всего портфеля кредитов. Так, в 1996 году, после серии слияний, банк Chase получил в свое рас­по­ря­же­ние огромный кредитный портфель, состоявший из миллионов ипотечных кредитов.

Для управления ими в Chase разработали концепцию “микрориска” и “макрориска”. Каждый кредит по отдельности – это микрориск. Просрочка с оплатой или досрочное погашение отдельного кредита никак не отразятся на таком огромном банке.

Однако если проблемными окажется большое количество мелких кредитов, то возникнет макрориск, который создаст реальную угрозу для при­быль­но­сти банка.

“Микрориски имеют значение. Оставленные без контроля, они способны нарастать, как снежный ком. Лучший метод борьбы с ними – научиться про­гно­зи­ро­вать”.

Деревья решений

Прогнозные модели состоят из деревьев решений, позволяющих выявить риск с помощью по­сле­до­ва­тель­но­сти простых вопросов, рас­счи­тан­ных на ответ “да-нет”. Так, в Chase ана­ли­зи­ро­вал­ся риск досрочного погашения кредитов, из-за которого банк меньше за­ра­ба­ты­ва­ет на процентах.

Выяснилось, что 19,2% заемщиков, процентная ставка по кредиту у которых была выше 7,94%, с большой ве­ро­ят­но­стью погашали его досрочно, тогда как при ставке ниже 7,94% риск досрочного погашения составлял всего 3,8%. Аналитики Chase начали строить дерево решений с вопроса: “Процентная ставка: меньше 7,94%?”

После ответа на этот вопрос следовал вопрос о годовом доходе заемщика, за ним – вопрос о сумме кредита. Чем больше данных ис­поль­зу­ет­ся для построения дерева решений, тем точнее выводы.

Например, специалисты Chase пришли к выводу, что если сумма ипотеки находится в диапазоне между 67 750 и 182 926 долларами, то заемщик вернет кредит досрочно в 25,6% случаев. Деревья решений “просты, элегантны и точны” и “почти не требуют математики”.

Данные для них не обязательно должны иметь ко­ли­че­ствен­ный вид (как в случае с суммами кредитов и процентными ставками). Однако нужно иметь в виду, что по достижении опре­де­лен­но­го предела отдача от дерева решений перестает расти. Точность результатов повышается очень мало, но при этом сложность структуры “дерева” резко возрастает.

Просчитать будущее Эрик Сигель, приобрести книгу