Перенесёмся в начало 2000-х, когда бум доткомов конца 90-х прогорел, оставив после себя небольшую группу выживших. Некоторые из этих компаний, такие как Yahoo, Google и Amazon, превратятся в мощные технологические компании. Первоначально эти компании продолжали полагаться на традиционные монолитные реляционные базы данных и хранилища данных 1990-х годов, доводя эти системы до предела. Поскольку эти системы вышли из строя, потребовались обновлённые подходы для обработки растущего объёма данных. Новое поколение систем должно быть экономически эффективным, масштабируемым, доступным и надежным.
Одновременно с бурным ростом объёма данных стандартное оборудование, такое как серверы, оперативная память, диски и флэш-накопители, также стало дешёвым и повсеместным. Ряд инноваций позволил осуществлять распределённые вычисления и хранение данных в огромных вычислительных кластерах в огромных масштабах. Эти инновации положили начало децентрализации и разрушению традиционно монолитных сервисов. Началась эра «больших данных».
Оксфордский словарь английского языка определяет большие данные как «чрезвычайно большие наборы данных, которые можно анализировать с помощью вычислений, чтобы выявить закономерности, тенденции и ассоциации, особенно связанные с человеческим поведением и взаимодействиями». Ещё одно известное и краткое описание больших данных — это три V данных: velocity, variety, и volume (скорость, разнообразие и объём).
В 2003 году Google опубликовал статью о файловой системе Google, а вскоре после этого, в 2004 году, — статью о MapReduce — сверхмасштабируемой парадигме обработки данных. По правде говоря, большие данные и раньше имели предшественников в хранилищах данных MPP и управлении данными для экспериментальных физических проектов, но публикации Google стали «большим взрывом» для технологий обработки данных и культурных корней инженерии данных, какой мы её знаем сегодня. Вы узнаете больше о системах MPP и MapReduce в главах 3 и 8 соответственно.
Документация Google вдохновили инженеров Yahoo на разработку, а затем и на открытие исходного кода Apache Hadoop в 2006 году. Трудно переоценить влияние Hadoop. Инженеры-программисты, интересующиеся крупномасштабными проблемами данных, были привлечены возможностями этой новой технологической экосистемы с открытым исходным кодом. Когда компании всех размеров и типов увидели, что их данные выросли до многих терабайт и даже петабайт, родилась эра инженеров больших данных.
Примерно в то же время Amazon приходилось идти в ногу со своими растущими потребностями в данных и создавать эластичные вычислительные среды (Amazon Elastic Compute Cloud, или EC2), бесконечно масштабируемые системы хранения (Amazon Simple Storage Service, или S3), высокомасштабируемые базы данных NoSQL (Amazon DynamoDB) и многие другие блоки данных. Amazon решила предлагать эти услуги для внутреннего и внешнего потребления через Amazon Web Services (AWS), став первым популярным общедоступным облаком. AWS создала сверхгибкий рынок ресурсов с оплатой по факту использования, виртуализируя и перепродавая огромные пулы стандартного оборудования. Вместо покупки оборудования для центра обработки данных, разработчики могут просто арендовать вычислительные ресурсы и хранилище у AWS.
Поскольку AWS стал высокодоходным инструментом роста для Amazon, вскоре за ним последовали и другие публичные облака (public cloud), такие как Google Cloud, Microsoft Azure и DigitalOcean. Публичное облако, возможно, является одной из самых значительных инноваций 21-го века и породило революцию в способах разработки и развёртывания программного обеспечения и приложений для обработки данных.
Первые инструменты больших данных и публичное облако заложили основу современной экосистемы данных. Современная среда данных — и технология обработки данных, какой мы её знаем сейчас — не существовала бы без этих инноваций.