Большие данные: как то, что мы делаем в интернете, влияет на политику и экономику?
Сегодня большинство приложений запрашивают у пользователя доступ к личным данным после установки, а сайты в интернете — разрешение на использование cookie-файлов. Многие люди просто соглашаются с просьбой-требованием ресурса, не задумываясь о том, как эти данные будут использованы в дальнейшем. Рассказываем, что такое большие данные (или Big Data) и психография, как цифровой след людей используют в политике и маркетинге и как с его помощью можно манипулировать пользователями.
Что такое большие данные?
Хотя сама концепция использование сверхмассивных объемов информации не была новой (своего рода Big Data пытались анализировать уже в 60-70-х годах XX века, когда появились первые центры обработки данных (ЦОД), по-настоящему ценность разношерстного и непрерывного потока информации осознали в период расцвета социальных сетей и интернета. К 2005 году представителям бизнес-сферы стало понятно, что один из самых простых способов узнать все, что нужно о потенциальном потребителе — проанализировать его поведение в Facebook, YouTube и других онлайн-сервисах. В то же время начали появляться первые платформы для хранения и анализа информации, специализирующиеся на обработке больших данных.
Сам термин «большие данные» появился в 2008 году — его предложил редактор журнала Nature Клиффорд Линч, чтобы обозначать любые массовые неоднородные данные, поток которых превышает 150 гб в сутки. Сегодня большие данные — это общее обозначение структурированных и неструктурированных данных огромных объемов, которые постоянно поступают и обновляются с большой скоростью.
Другими словами, Big Data — это более крупные и сложные для анализа массивы информации, добытые по большей части из новых источников, в том числе социальных сетей. Причем их набор настолько большой, что традиционные программы по обработке информации не справляются с ними: для этого необходимы более системные и мощные алгоритмы.
Эксперты выделяют следующие свойства больших данных:
Объем. Количество информации — ключевая характеристика больших данных. Интересно, что заранее оценить предполагаемую ценность этой информации нельзя: необходимо верно сформулировать запрос, чтобы получить выгоды от тысяч терабайтов, а в некоторых случаях и сотен петабайтов информации.
Скорость. В контексте больших данных под этим фактором подразумевается скорость приема данных, а также дальнейших действий на их основе. Некоторые программы и продукты, которые используют Big Data в работе, работают в режиме реального времени. Это означает, что они практически мгновенно оценивают текущую «информационную ситуацию» и адаптируются под нее.
Разнообразие. Это означает, что массивы информации, которые относят к большим данным, принадлежат к разным типам. В отличие от традиционных данных, которые имеют системный характер, Big Data поступают в неструктурированном виде (смесь аудио, видео, текста и многого другого), поэтому требуют дополнительной обработки для дальнейшего анализа.
Ценность. Большие данные — ценный ресурс. При грамотном подходе с их помощью можно увеличить продажи или предсказать реакцию общественности на то или иное высказывание. Однако без грамотного анализа получить практическую пользу от этой информации и полностью раскрыть ее ценность не получится.
Достоверность. Большие данные, как и результаты их анализа, должны соответствовать действительности.
Изменчивость. У потоков информации, из которых формируют Big Data, бывают свои пики и спады. В некоторые дни объем данных может быть больше, а в другие — больше. Причем чем нестабильнее размеры поступающей информации, тем сложнее ее анализировать.
Как используют большие данные?
Большие данные могут пригодиться практически в любой области, например, с их помощью можно разрабатывать информационные продукты. Зачастую Big Data используют такие медиагиганты, как Netflix, чтобы прогнозировать потребительский спрос и выпускать картины, который с наибольшей вероятностью заинтересуют широкую аудиторию. Также такую информацию можно использовать, чтобы избежать перепроизводства тех или иных товаров, оптимизировать бизнес-процессы и повысить эффективность финансовых решений.
Сегодня большие данные становятся все более популярны в сфере искусственного интеллекта — их применяют для машинного обучения нейросетей. Главная черта такого подхода к усовершенствованию ИИ — не прямое решение задач, а обучение за счет применения решений множества сходных задач. Другими словами, достаточно загрузить в программу массив Big Data, чтобы она проанализировала его и усвоила тысячи и тысячи нюансов, например, человеческого общения в переписке, одновременно. Это позволяет избежать долгого программирования и оптимизировать процесс обучения.
Однако один из самых интересных и необычных способов использования больших данных — составление психографии. Это особый способ описания и сегментации потребителей на основе психологических атрибутов: особенностей поведения, черт личности, убеждений, мнений, интересов, системы ценностей и так далее. Причем составить подробный психологический портрет человека можно попросту проанализировав его цифровой след и особенности поведения в сети.
Благодаря этому программы могут предсказывать, как именно человек отреагирует на то или иное информационное сообщение или рекламное предложение. Это позволяет создать построенную специально для человека инфосреду с идеально заточенными под конкретного пользователя «крючками», так называемым микротаргетингом. Очевидно, что такой подход помогает повысить продажи или оградить человека от неинтересной ему информации, однако этим дело не ограничивается. Психография — еще и мощнейший инструмент манипуляции, который может повлиять практически на все, что угодно. Например, на выборы.
Как большие данные могут изменить политику страны?
Самый яркий пример использования Big Data для манипуляции аудиторией — выборы в США в 2016 году, когда победу одержал кандидат от Республиканской партии Дональд Трамп. Позже выяснилось, что его избирательный штаб пользовался услугами британской компании под названием Cambridge Analytica (СА): сумма контракта составила более $5 млн. И хотя на первый взгляд может показаться, что в этом нет ничего предосудительного, специфика работы CA поставила под вопрос легитимность победы Трампа на выборах.
Cambridge Analytica занимается тем, что собирает данные о пользователях в интернете и социальных сетях для дальнейшего анализа. Другими словами, CA — профессионалы в вопросах работы с большими данными. Это позволило предположить, что Дональд Трамп победил вовсе не из-за того, что ему отдало предпочтение большинство штатов, а из-за грамотно настроенной агитационной рекламы в сети.
Воспользовавшись услугами Cambridge Analytica, команда Трампа настроила микротаргетинг, показывая избирателям узкоспециализированные обращения. Именно это позволило республиканцам выстроить крайне эффективную агитацию и добиться победы.
Споры о том, можно ли считать такой подход справедливым, ведутся до сих пор. Однако этот случай хорошо подсветил влияние больших данных и показал необходимость более ответственного использования и распространения личных данных в интернете и социальных сетях.