Давайте кратко опишем каждую категорию метаданных.
Бизнес-метаданные (Business metadata) относятся к способу использования данных в бизнесе, включая определения бизнеса и данных, правила и логику данных, как и где используются данные, а также владельца(ев) данных.
Инженер данных использует бизнес-метаданные для ответа на нетехнические вопросы о том, кто, что, где и как. Например, инженеру по данным может быть поручено создать конвейер данных для анализа продаж клиентов. Но что такое клиент? Это тот, кто купил за последние 90 дней? Или тот, кто купил в любое время действия бизнеса? Инженер данных будет использовать правильные данные для ссылки на бизнес-метаданные (словарь данных или каталог данных), чтобы узнать определение «клиента». Бизнес-метаданные предоставляют инженеру данных правильный контекст и определения для правильного использования данных.
Технические метаданные (Technical metadata) описывают данные, созданные и используемые системами на протяжении жизненного цикла инженерии данных. Они включают модель и схему данных, происхождение данных, сопоставление полей и рабочие процессы конвейера. Инженер данных использует технические метаданные для создания, подключения и мониторинга различных систем на протяжении жизненного цикла инженерии данных.
Вот некоторые распространенные типы технических метаданных, которые будет использовать инженер данных:
• Метаданные конвейера (часто создаваемые в системах оркестрации);
• Линия данных;
• Схема.
Оркестрация — это центральный хаб, который координирует рабочий процесс в различных системах. Метаданные конвейера (Pipeline metadata), собранные в системах оркестрации, содержат сведения о графике рабочего процесса, зависимостях системы и данных, конфигурации, сведения о подключении и многое другое.
Метаданные линии данных (Data-lineage metadata) отслеживают происхождение и изменения данных, а также их зависимости с течением времени. По мере того, как данные проходят через жизненный цикл инженерии данных, они развиваются посредством преобразований и комбинаций с другими данными. Линия данных обеспечивает аудиторский след эволюции данных по мере их перемещения через различные системы и рабочие процессы.
Метаданные схемы (Schema metadata) описывают структуру данных, хранящихся в системе, такой как база данных, хранилище данных, озеро данных или файловая система; это одно из ключевых отличий между различными системами хранения. Например, объектные хранилища не управляют метаданными схемы; вместо этого они должны управляться в метахранилище. С другой стороны, облачные хранилища данных управляют метаданными схемы внутри.
Это всего лишь несколько примеров технических метаданных, о которых должен знать инженер данных. Это не полный список, и мы рассматриваем дополнительные аспекты технических метаданных на протяжении всей книги.
Операционные метаданные (Operational metadata) описывают операционные результаты различных систем и включают статистику о процессах, идентификаторы заданий, журналы выполнения приложений, данные, используемые в процессе, и журналы ошибок. Инженер данных использует операционные метаданные для определения того, был ли процесс успешным или неудачным, а данные вовлечены в процесс.
Системы оркестрации могут предоставить ограниченную картину операционных метаданных, но последние всё ещё имеют тенденцию быть разбросанными по многим системам. Потребность в более качественных операционных метаданных и лучшем управлении метаданными является основной мотивацией для систем оркестрации и управления метаданными следующего поколения.
Справочные метаданные (Reference metadata) — это данные, используемые для классификации других данных. Их также называют данными поиска. Стандартными примерами справочных данных являются внутренние коды, географические коды, единицы измерения и внутренние календарные стандарты. Обратите внимание, что большая часть справочных данных полностью управляется внутренне, но такие элементы, как географические коды, могут поступать из стандартных внешних ссылок. Справочные данные по сути являются стандартом для интерпретации других данных, поэтому если они изменяются, это изменение происходит медленно с течением времени.