Как найти дубликаты SQL-запросов: пять алгоритмов
30 000 SQL-запросов из двух диалектов. text_hash, ast_hash, merkle_hash, rabin64, simhash64 — измеренные результаты и выводы.
Исследования и статьи команды Seiðr Studio
30 000 SQL-запросов из двух диалектов. text_hash, ast_hash, merkle_hash, rabin64, simhash64 — измеренные результаты и выводы.
ИИ-модели принимают решения на основе данных. Но без data lineage невозможно проверить, откуда взялись эти данные.
Четыре методологии DWH — и почему data lineage нужен в каждой из них.
Персональные данные попадают в аналитические таблицы через цепочку SQL-трансформаций. Как отследить путь PII через весь DWH.
Канареечные токены в именах таблиц позволяют зафиксировать, когда модель получает доступ к чужой схеме.
RAG-системы передают схему базы в контекст LLM. Но схема — это карта данных организации. Когда это становится уязвимостью.
ИИ-ассистент, обученный на схеме три месяца назад, уже не знает её. Как модели «забывают» структуру базы.
Как узнать, какие процедуры перестанут работать при изменении таблицы — не угадывая, а через граф зависимостей.
LLM видит SQL как текст. Но для точного анализа зависимостей нужна структура — AST. Почему это улучшает качество ответов.
Два SQL-запроса могут выглядеть одинаково, но быть разными. Чем сходство отличается от идентичности.
Машина не «понимает» SQL так, как человек. AST, парсеры, токены — и почему WITH-клауза становится ловушкой.
Как оценить качество SQL, которые генерирует ИИ? Золотой стандарт, execution accuracy и проблемы автоматической оценки.
Одни и те же данные в разных системах называются по-разному — и это ломает ИИ-ассистентов.
Чтобы понять, насколько хорошо модель пишет SQL, её нужно измерить. Как устроены NL2SQL-бенчмарки.
Отчёт показывает неправильную цифру — и начинается многочасовой поиск по цепочке SQL-запросов. Data lineage решает это автоматически.