#longread #LLM #Fourier
Похоже, что я наконец докопался до
физической сути математики, стоящей за кодированием позиций токенов (Positional Encoding) при расчёте смысла и контекста в LLM! Сначала, конечно, я вообще узнал про метод positional encoding-а.
Попытаюсь описать своими словами...
Т.к. "
смысл" предложения зависит не только от слов, в него входящих, но и последовательности (
позиций) слов, то перед обработкой LM (модель) отдельно кодирует
и инфу о позициях слов/токенов (чтобы не потерять её в при обработке) в виде синусоид! (т.к. сумма синусоид - тоже синусоида: то, что так любят машины -
единообразие в расчетах). А где синусоиды и волны, там Фурье, разложение по частотам и пр. известные алгоритмы работы с сигналами.
Радиолюбители и все, кто работает с изображениями, звуком или мат. статистикой, знают и про вейвлетный анализ, и спектральный, и кепстральные коэффициенты и т.п.
Вот не ожидал, что за LLM стоит именно Фурье (не за всем, а именно в одном из важных этапов)!
P.S. я не AI-разработчик, не математик, потому для меня это
открытие, хотя для AI-теоретика это рутина - уж прастити 🤷♂️
Conclusion
By mapping positions to sinusoidal functions at varying frequencies, positional encoding in LLMs not only imbues the model with a mathematical tool akin to those found in wave mechanics and signal processing but also enriches the input embeddings with a distinct spectrum-like positional signature that is vital for the model’s performance.... This approach ensures sophisticated handling of sequence data, leveraging principles resembling those in physics to enhance computational linguistics.