Репост из: Data Secrets
Крутая статья от Microsoft: Differential Transformer
Трансформеры склонны аллоцировать внимание на нерелевантный контекст (в статье это называют шумом), и это приводит к проблемам с извлечением информации и, как следствие, к галлюцинациям и потерям в точности. Это известная проблема.
Microsoft предложили изящное решение: вместо одной attention мапы они создают две, дублируя keys и queries, а затем легким движением руки... вычитают их друг из друга, тем самым нивелируя шум в attention scores.
Такой подход сразу повышает аттеншен к релевантным деталям: эксперименты показали, что трансформеры с таким diff вниманием лучше обычных справляются с задачами на длинном контексте (вроде известной задачи иголки в стоге сена). Кроме того подход еще и уменьшает количество выбросов в активациях модели, что упрощает ее квантование.
Статья полностью – здесь
Трансформеры склонны аллоцировать внимание на нерелевантный контекст (в статье это называют шумом), и это приводит к проблемам с извлечением информации и, как следствие, к галлюцинациям и потерям в точности. Это известная проблема.
Microsoft предложили изящное решение: вместо одной attention мапы они создают две, дублируя keys и queries, а затем легким движением руки... вычитают их друг из друга, тем самым нивелируя шум в attention scores.
Такой подход сразу повышает аттеншен к релевантным деталям: эксперименты показали, что трансформеры с таким diff вниманием лучше обычных справляются с задачами на длинном контексте (вроде известной задачи иголки в стоге сена). Кроме того подход еще и уменьшает количество выбросов в активациях модели, что упрощает ее квантование.
Статья полностью – здесь