семантический слой


Kanal geosi va tili: ko‘rsatilmagan, ko‘rsatilmagan
Toifa: ko‘rsatilmagan


дата-продукты / BI / AI data-агенты

Связанные каналы

Kanal geosi va tili
ko‘rsatilmagan, ko‘rsatilmagan
Toifa
ko‘rsatilmagan
Statistika
Postlar filtri


Семантический слой и talk to your data

Когда LLM плотно вошли в нашу жизнь, в дата-мире возникло много энтузиазма относительно того, что наконец-то аналитики будут не нужны можно будет писать запросы на естественном языке. И правда появилось много инноваций в этой области от стартапов и вендоров, которые стараются заставить базы данных общаться не через SQL, а на английском. Примитивный вариант – трансляция натурального языка в SQL-код.

Однако тут есть свои детали – взять тот же простой вопрос на человеческом языке: "сколько активных пользователей из Азии было в моем приложении?"

Без дополнительного контекста LLM не сможет написать что-либо полезное и будет галлюцинировать. Даже внутри одной компании, может быть разная трактовка "активности", считать ли анонимные сессии за пользователей; и к какому региону отнести Турцию.

Озадачившись проблемой с интерпретацией метрик, в дата-мире зазвучали такие слова, как headless BI, metric storage или семантический слой (которые, в общем-то все про одно и то же). Эволюцию в этом мире задала компания Looker, которая представила миру первую семантическую модель LookML в основе своего BI. LookML позволял абстрагировать сложные SQL-запросы в удобный и многократно используемый формат.

На более предметном уровне, семантический слой – это протокол для описания OLAP кубов и отношений между ними. Эта концепция обеспечивает гибкость и согласованность данных, взаимодействуя с несколькими инструментами BI и DS.

Концепция случайно оказалась востребована в зарождающемся мире GenAI, где LLM испытывают сложность с согласованностью. Любой чат-бот или агент, должен как-то синхронизироваться с хранилищем данных.

LLM были обучены на языке как таковом - существительных, прилагательных и т.д. А семантические слои предоставляют LLM объекты, эквивалентные этим элементам языка: сущности для существительных, измерения/атрибуты для прилагательных и меры для количественного описания. У LLM есть выбор объектов в семантическом слое и их атрибутов, чтобы отвечать на вопросы.Так что возможно уже скоро модели данных будут создаваться не для людей, а для LLM.

И вся эта преамбула подталкивает к последним новостям из стартап-дата мира. Cube, компания, основанная россиянами, недавно анонсировала новый раунд на $25 миллионов. Основатели компании считают, что это поможет масштабировать OSS-решения на корпоративный сегмент и конкурировать с другими вендорами, такими, как DBT и AtScale. Но про это поговорим уже в следующих постах.

Этим постом отметим зарождение канала. В этом канале мы решили писать про новые инновации в области дата-продуктов, про то, как соединить мир данных и LLM, и про эволюцию самого семантического слоя.

1 ta oxirgi post ko‘rsatilgan.