Крутая статья от Microsoft: Differential TransformerТрансформеры склонны аллоцировать внимание на нерелевантный контекст (в статье это называют
шумом), и это приводит к проблемам с извлечением информации и, как следствие, к галлюцинациям и потерям в точности. Это известная проблема.
Microsoft предложили изящное решение: вместо одной attention мапы они создают две, дублируя keys и queries, а затем легким движением руки...
вычитают их друг из друга, тем самым нивелируя шум в attention scores.
Такой подход сразу повышает аттеншен к релевантным деталям: эксперименты показали, что трансформеры с таким diff вниманием лучше обычных справляются с задачами на длинном контексте (вроде известной задачи иголки в стоге сена). Кроме того подход еще и уменьшает количество выбросов в активациях модели, что упрощает ее квантование.
Статья полностью –
здесь