Статьи

Исследования и статьи команды Seiðr Studio

Как найти дубликаты SQL-запросов: пять алгоритмов

30 000 SQL-запросов из двух диалектов. text_hash, ast_hash, merkle_hash, rabin64, simhash64 — измеренные результаты и выводы.

25 июня 2026·12 мин

Данные и ИИ

Data lineage в эпоху ИИ: почему AI governance начинается с происхождения

ИИ-модели принимают решения на основе данных. Но без data lineage невозможно проверить, откуда взялись эти данные.

25 июня 2026·14 мин

Хранилища данных

Методологии хранилищ данных: Inmon, Kimball, Data Vault, Anchor

Четыре методологии DWH — и почему data lineage нужен в каждой из них.

25 июня 2026·10 мин

Данные и безопасность

Куда утекают чувствительные данные: контроль потоков

Персональные данные попадают в аналитические таблицы через цепочку SQL-трансформаций. Как отследить путь PII через весь DWH.

25 июня 2026·12 мин

Данные и безопасность

Канарейки в схеме: как проверить, что изоляция в RAG работает

Канареечные токены в именах таблиц позволяют зафиксировать, когда модель получает доступ к чужой схеме.

25 июня 2026·6 мин

Данные и безопасность

Схема тоже чувствительна: как RAG раскрывает структуру данных

RAG-системы передают схему базы в контекст LLM. Но схема — это карта данных организации. Когда это становится уязвимостью.

25 июня 2026·7 мин

Данные и ИИ

Забывающие базы данных: почему устаревают знания о схеме

ИИ-ассистент, обученный на схеме три месяца назад, уже не знает её. Как модели «забывают» структуру базы.

25 июня 2026·9 мин

Данные и инженерия

Импакт-анализ SQL: что сломается при изменении таблицы

Как узнать, какие процедуры перестанут работать при изменении таблицы — не угадывая, а через граф зависимостей.

25 июня 2026·8 мин

Данные и ИИ

Зачем языковой модели AST: структура SQL вместо текста

LLM видит SQL как текст. Но для точного анализа зависимостей нужна структура — AST. Почему это улучшает качество ответов.

25 июня 2026·9 мин

Данные и ИИ

Похоже ≠ то же: сходство против идентичности в данных

Два SQL-запроса могут выглядеть одинаково, но быть разными. Чем сходство отличается от идентичности.

25 июня 2026·10 мин

Данные и ИИ

Как машина читает SQL: AST, парсеры и почему CTE ломает разбор

Машина не «понимает» SQL так, как человек. AST, парсеры, токены — и почему WITH-клауза становится ловушкой.

25 июня 2026·9 мин

Данные и ИИ

Золотой стандарт: как проверяют, что ИИ ответил правильно

Как оценить качество SQL, которые генерирует ИИ? Золотой стандарт, execution accuracy и проблемы автоматической оценки.

25 июня 2026·9 мин

Данные и ИИ

Почему одна и та же таблица называется по-разному

Одни и те же данные в разных системах называются по-разному — и это ломает ИИ-ассистентов.

25 июня 2026·8 мин

Данные и ИИ

Как устроен экзамен для ИИ: бенчмарки NL2SQL

Чтобы понять, насколько хорошо модель пишет SQL, её нужно измерить. Как устроены NL2SQL-бенчмарки.

25 июня 2026·9 мин

Основы

Что такое data lineage и анализ зависимостей данных

Отчёт показывает неправильную цифру — и начинается многочасовой поиск по цепочке SQL-запросов. Data lineage решает это автоматически.

25 июня 2026·8 мин