Что такое Big Data? И почему на этом держится весь интернет? Объясняет эксперт на примере лего
10 марта в России отмечается День архивов. Представьте, что вы заходите в библиотеку — огромный архив с бесконечным, казалось бы, количеством книг. Каждую из них можно взять, почитать и поставить на место. Если представить, что сеть ВКонтакте — тоже библиотека, то каких размеров она должна быть? Настолько колоссальных, что вы вряд ли сможете себе это представить. Но размер не помеха для людей, чья работа — оперировать подобными данными. Мы поговорили со старшим инженером по разработке программного обеспечения Тимуром Мухитдиновым и выяснили, что такое большие данные, почему все о них говорят и зачем они нужны.
Что такое Big Data?
Big Data — это обобщающее название подходов к работе с данными, которые собираются из различных источников в течение длительного времени. Этих данных так много, что выгрузить их в память целиком не может ни один компьютер, а последовательная обработка всего объема этих данных (по частям) может занимать дни, месяцы или даже годы.
Вот пример: представьте, что у вас есть 20 разных наборов лего. При этом наборы перемешаны друг с другом и лежат все в разных коробках. Вам задали вопрос: есть ли у вас все кирпичики из набора «Звезды Смерти»? Чтобы ответить на него, один человек потратит уйму времени, но 30 человек, которые по 50 раз собрали этот набор, работая параллельно, справятся с этой задачей очень быстро.
Аналогичными задачами может быть подсчет кирпичиков лего красного цвета или разделение кирпичиков по формам.
Почему все об этом говорят? Технология стала популярной только сейчас?
Термин Big Data возник в конце 1990-х годов, когда появилась потребность в обработке и хранении больших объемов данных, которые стали поступать в IT-организации, научно-исследовательские лаборатории, торговые компании, банки и социальные медиа.
Толчком в развитии стало появление системы Hadoop (2005 год). Она предоставляет инструментарий для хранения и обработки больших объемов данных, что позволило строить бизнес на базе Big Data даже небольшим частным компаниям. В 2010-м начали активно развиваться машинное обучение, искусственный интеллект и облачные вычисления. Эти системы вместе с технологией потоковой обработки данных произвели прорыв в бизнесе.
В 2019 году компания IDC сообщила, что объем данных в мире удваивается каждые два года. За 2022-й было произведено больше данных, чем за всю историю человечества до 2017-го. Данные стали глобальным рынком услуг, которым пользуются без преувеличения все современные компании. Это и создает высокую потребность, а следовательно и ажиотаж
一 Тимур Мухитдинов, старший инженер по разработке программного обеспеченияНапример, сантехник из Воронежа, размещая рекламу своих услуг в интернете, становится пользователем таких компаний, ведь ему нужно, чтобы его видели воронежцы, которые ищут строительные материалы (данные: ключевые слова, переходы по ссылкам в браузере), или живут в домах старой постройки (данные: геолокация, фотографии в соцсетях), или пожаловались в разговоре по телефону на сломанный кран...
Иногда кажется, что за вами следят. Но в действительности, инструменты обработки данных ничего о вас не знают. Они лишь классифицируют вас — определяют принадлежность к таргет-группам. Реклама, которую вы видите, показана всей группе, к которой вы принадлежите, а не только вам.
Чем Big Data отличаются от обычных архивов с данными?
Один из спорных вопросов — какой объем данных считается «большим». На него нет точного ответа, поскольку речь не о физическом объеме дискового пространства, занимаемом данными, а о том, на котором статистические методы становятся более надежными. Статистика является важным методом анализа данных: помогает выявлять закономерности, определять тенденции, строить прогнозы и принимать решения на основе этих расчетов.
Стоит понимать, что обычный архив даже очень большого размера нельзя назвать Big Data. Но этот архив может стать источником данных для Big Data. Например, человек не сможет прочитать видеофайл (это буквально набор нулей и единиц), но есть программы, воспроизводящие видео. Человек сможет «обработать» содержимое файла с помощью глаз и этой программы. Аналогично и другие инструменты обработки данных требуют преобразование формата под тот, с которым умеет работать этот инструмент.
В промышленном применении Big Data могут быть описаны термином VVV — это три основные характеристики.
1. Volume — характеристика, отражающая объем обрабатываемых данных. В случае с лего, объемом является количество кирпичиков и их характеристики (форма, цвет, размеры, принадлежность к набору).
2. Velocity — скорость создания новых данных. В примере с лего — это выпуск компанией новых наборов. При этом старые наборы теряют свою актуальность (например, они нам надоели и мы их прячем в чулан). Другой аспект — требование к скорости предоставления результата. В реальном мире объем новых данных может превышать скорость их обработки, а результат вычислений важен здесь и сейчас.
3. Variety — разнообразие данных. Здесь речь об источниках данных, их форматах и представлении. Например, в медицине данные могут быть собраны из разных источников: результаты анализов, история болезни, данные о пациенте (возраст, пол, вредные привычки), генетические данные и прочее.
В чем плюсы и минусы технологии? Чем она хороша, а чем небезопасна?
Технология Big Data имеет ряд недостатков:
1. Высокая стоимость – сбор, хранение и обработка данных требуют высокие аппаратные мощности, высококвалифицированный персонал и специализированные технологии и инструменты.
2. Проблемы конфиденциальности – данные могут содержать конфиденциальную информацию. Это создает дополнительные трудности при предоставлении услуг на основе Big Data третьим лицам.
3. Проблемы качества данных – данные, поступающие из разных источников, могут быть загрязнены (содержат ошибки, случайные отклонения поведения пользователей), что искажает результаты.
4. Сложность агрегации разнородных данных и интерпретации результатов.
Но все эти недостатки перекрываются достоинствами:
1. Решения принятые на основе использования Big Data имеют очень высокий процент точности, позволяют оптимизировать прибыль, увеличивают эффективность работы и улучшают качество услуг.
2. Использование Big Data позволяет находить скрытые закономерности и тенденции в данных, которые не могут быть обнаружены с помощью других способов: предсказание погоды, анализ поведения пользователей в социальных сетях, прогнозирование банковских рисков, диагностика редких наследственных заболеваний, идентификация рака на ранних стадиях, изучение космического пространства и многих других.