Среди самых популярных архитектур, появившихся в эпоху больших данных, — озеро данных (data lake). Вместо того чтобы накладывать жесткие структурные ограничения на данные, почему бы просто не сбросить все свои данные — структурированные и неструктурированные — в одно место? Озеро данных обещало стать демократизирующей силой, освободив бизнес, чтобы он мог пить из фонтана безграничных данных. Озеро данных первого поколения, «озеро данных 1.0», внесло весомый вклад, но в целом не смогло выполнить свое обещание.
Data lake 1.0 начинался с HDFS. По мере роста популярности облака эти озёра данных перешли в облачное хранилище объектов с чрезвычайно низкой стоимостью хранения и практически безграничной ёмкостью. Вместо того чтобы полагаться на монолитное хранилище данных, где хранение и вычисления тесно связаны, озеро данных позволяет хранить огромное количество данных любого размера и типа. Когда эти данные необходимо запросить или преобразовать, у вас есть доступ к практически неограниченной вычислительной мощности; развернув кластер по требованию, вы можете выбрать любимую технологию обработки данных для текущей задачи — MapReduce, Spark, Ray, Presto, Hive и т. д.
Несмотря на обещания и шумиху, озеро данных 1.0 имело серьёзные недостатки. Озеро данных стало свалкой; такие термины, как «болото данных», «темные данные» и «WORN» были придуманы, когда изначально многообещающие проекты по работе с данными потерпели неудачу. Данные выросли до неуправляемых размеров, при этом было мало инструментов для управления схемами, каталогизации данных и обнаружения. Кроме того, первоначальная концепция озера данных была по сути только для записи, что создало огромные проблемы с появлением таких правил, как GDPR, которые требовали целенаправленного удаления записей пользователей.
Обработка данных также была сложной задачей. Относительно банальные преобразования данных, такие как объединения, были огромной головной болью для кодирования в виде заданий MapReduce. Более поздние фреймворки, такие как Pig и Hive, несколько улучшили ситуацию с обработкой данных, но мало что сделали для решения основных проблем управления данными. Простые операции языка манипулирования данными (DML), распространенные в SQL — удаление или обновление строк — были болезненными для реализации, как правило, достигались путём создания совершенно новых таблиц. В то время как инженеры больших данных излучали особое презрение к своим коллегам из области хранилищ данных, последние могли указать, что хранилища данных предоставляют базовые возможности управления данными из коробки, и что SQL является эффективным инструментом для написания сложных, производительных запросов и преобразований.
Озеро данных 1.0 также не выполнило ещё одно основное обещание движения больших данных. Программное обеспечение с открытым исходным кодом в экосистеме Apache рекламировалось как средство избежать многомиллионных контрактов для фирменных систем MPP. Дешёвое готовое оборудование заменило бы индивидуальные решения поставщиков. В действительности затраты на большие данные резко возросли, поскольку сложность управления кластерами Hadoop вынудила компании нанимать большие команды инженеров с высокими зарплатами. Компании часто предпочитали приобретать лицензионные, настроенные версии Hadoop у поставщиков, чтобы избежать оголенных проводов и острых краев сырой кодовой базы Apache и приобрести набор инструментов для создания инструментов, чтобы сделать Hadoop более удобным для пользователя. Даже компании, которые избегали управления кластерами Hadoop с помощью облачного хранилища, должны были тратить большие средства на специалистов для написания заданий MapReduce.
Мы должны быть осторожны, чтобы не недооценивать полезность и мощь озер данных первого поколения. Многие организации обнаружили значительную ценность в озёрах данных, особенно огромные, сильно ориентированные на данные технологические компании Кремниевой долины, такие как Netflix и Facebook. У этих компаний были ресурсы для создания успешных практик работы с данными и создания собственных инструментов и улучшений на основе Hadoop. Но для многих организаций озера данных превратились во внутренний суперфонд отходов, разочарований и растущих расходов.