Мировые тренды data lineage: кто есть кто в 2026
Глобальная экосистема инструментов управления потоками данных: три группы, три кольца близости к задаче. Снимок Q2 2026 — публичные данные: документация, релизы, GitHub, финансирование, пресс-релизы вендоров.
Рынок переопределился: из «Data Catalog» в «AI Context Layer»
6 из 7 ключевых западных поставщиков сделали AI-pivot к Q2 2026. Три нарратива:
- «Context Layer for AI» — Atlan, DataHub: мы кормим ваши AI-агенты контекстом о данных
- «AI for your data ops» — Secoda, dbt, Alation: наш AI автоматизирует документацию и пайплайны
- «Trust your AI» — Monte Carlo: мы наблюдаем за вашими агентами в проде
OpenMetadata — единственный, кто не последовал тренду: «open and unified metadata platform» без AI-нарратива.
Два подхода к сбору lineage
Любой инструмент lineage опирается на один из двух методов — или совмещает оба. Понимание разницы важно при выборе.
Читает SQL-файлы без запуска
- + Работает с legacy-кодом: хранимые процедуры, PL/SQL, ETL-скрипты
- + Не требует запуска инфраструктуры — анализ из репозитория
- + Column-level lineage из статики
- − Динамический SQL, EXECUTE IMMEDIATE — непрозрачны
- − Нет runtime-контекста: зависимости от переменных неизвестны
Инструменты с глубоким парсером: Manta (поглощена IBM), Seiðr
Перехватывает потоки данных при выполнении
- + Точная картина: lineage как есть в проде, включая ветки и условия
- + Нативна для Airflow, Spark, dbt через стандарт OpenLineage
- + Автоматический сбор без ручного аннотирования
- − Только для активных пайплайнов — архивный код не видит
- − Требует агентов / интеграций в production-инфраструктуре
Стандарт: OpenLineage (LF AI & Data, graduated). Референсный бэкенд: Marquez
Практика: для команд с legacy SQL-кодом нужен парсер; для cloud-native пайплайнов достаточно OpenLineage-сбора. Для полной картины — оба метода вместе.
Группы
Кольца — близость к задаче
Рейтинги
Где доступны: Gartner Magic Quadrant (Data & Analytics Governance) и Forrester Wave. Размер точки — масштаб присутствия на рынке.
Тренды ключевых игроков
Что делает каждый игрок прямо сейчас — направление без сравнений.
∑2.44× Analyst LeaderContext Agents авто-генерируют ~87% production-ready описаний (690K+ за апрель 2026 на 50+ клиентах). Context Engineering Studio — bootstrap/test/ship бизнес-понимания. Единственная платформа, признанная лидером во всех четырёх: Gartner Metadata 2025 + Governance 2026 + Forrester Waves 2024/2025.
∑2.0AI-first catalog · ближайший DNAAuto-docs 5/5 — лидер рынка по автодокументации. AI автоматически документирует lineage + генерирует описания. Conversational discovery: «спроси текстом → ответ с lineage context». Не browse-каталог, а AI-платформа поверх данных.
∑2.2transform + native lineageLineage lenses — наложение execution status + column-level evolution + query history на DAG. End-to-end граф от source до dashboard/AI endpoint. Project recommendations: test coverage, doc health по всему проекту.
↓ Разборы остальных игроков — в следующем выпуске
Поглощения и уход игроков: 2024–2026
Самостоятельная ниша lineage-специалистов консолидируется:
- Manta (лучший PL/SQL-парсер) → поглощена IBM, растворяется в watsonx.data Intelligence. Как отдельный продукт недоступна.
- Octopai (BI lineage: Tableau / Power BI / SSRS) → поглощена Cloudera, ноябрь 2024
- CastorDoc (каталог на основе AI) → поглощена Coalesce как модуль Catalog, март 2025
- Secoda → поглощена Atlassian, декабрь 2025
- Amundsen ⚠ — заброшен: 27+ месяцев без значимых коммитов, мейнтейнер покинул проект. Для боевых систем не рекомендуется.
Риск выбора: покупая нишевый инструмент, велика вероятность что через 1–2 года он станет legacy-модулем платформы с другими приоритетами.
Китайский рынок: параллельная экосистема
Китай формирует собственный стек управления данными — закрытый от западных поставщиков, ориентированный на суверенитет данных и отечественные облака.
- Alibaba Cloud DataWorks — наиболее зрелый продукт; встроенный lineage (血缘分析), column-level, глубокая интеграция с MaxCompute и Hologres
- Huawei DataArts Studio — ставка на on-prem и госсектор; сертификации под стандарты КНР; сильные позиции в телекоме и финансах
- Tencent Wedata (织数) — lineage в экосистеме Tencent Cloud; менее документирован за пределами Китая
- ByteDance DataLeap — внутренний инструмент, не продаётся; показывает масштаб потребности в China Big Tech
Схожий трек: акцент на on-prem, локальные LLM вместо OpenAI (DeepSeek), требования суверенитета данных — та же логика, другая юрисдикция.
Все инструменты — ссылки
| Инструмент | Группа | Сайт | Документация |
|---|---|---|---|
| 🇨🇳 Китай — параллельная экосистема | |||
| Alibaba DataWorks | Китай | alibabacloud.com | DataWorks docs |
| Huawei DataArts Studio | Китай | huaweicloud.com | DataArts docs |
| Tencent Wedata | Китай | cloud.tencent.com | — |
| 🟢 OSS | |||
| DataHub OSS | OSS | datahub.com | docs.datahub.com |
| OpenMetadata | OSS | open-metadata.org | docs.open-metadata.org |
| Marquez | OSS | marquezproject.ai | marquez docs |
| Apache Atlas | OSS | atlas.apache.org | atlas docs |
| Amundsen ⚠ | OSS | amundsen.io | amundsen docs |
| 🎯 Нишевые специалисты | |||
| Manta → IBM | Поглощён | ibm.com/manta | — |
| Octopai → Cloudera | Поглощён | cloudera.com | — |
| Acceldata | Наблюдение 👁 | acceldata.io | — |
| 🌍 Международные | |||
| Collibra ★ | Эталон | collibra.com | productresources |
| Atlan | Эталон | atlan.com | docs.atlan.com |
| Acryl Cloud | Эталон | datahub.com/cloud | DataHub Cloud |
| Secoda → Atlassian | Поглощён | secoda.co | docs.secoda.co |
| Alation | Эталон | alation.com | docs.alation.com |
| Monte Carlo | Эталон | montecarlodata.com | docs.getmontecarlo.com |
| dbt Cloud | Эталон | getdbt.com | docs.getdbt.com |
| Bigeye | Эталон | bigeye.com | docs.bigeye.com |
Снимок Q2 2026 · Данные: публичная документация, GitHub, пресс-релизы вендоров