Репост из: Data Secrets
Зацените, на что мы случайно наткнулись на гитхабе: мемориальная доска бенчмарков "Killed by LLM"
Проект создан пару недель назад неким Робом Копелем и представляет из себя кладбище бенчмарков, которые были пройдены модельками. Бенчмарк считается убитым, если больше не способен служить индикатором передовых достижений. То есть, даже если эти тесты остаются важными и значимыми, высокий скор какой-то новой модели на них больше не означает, что мы вышли на новый уровень возможностей ИИ.
Среди погибших в этом году числятся ARC-AGI, MATH, Human Eval и др. Вот, что пишет автор в ридми:
Вот он, идеальный новогодний пет-проект. Следим за тем, как мемориал будет расти в 2025:
r0bk.github.io/killedbyllm/
Проект создан пару недель назад неким Робом Копелем и представляет из себя кладбище бенчмарков, которые были пройдены модельками. Бенчмарк считается убитым, если больше не способен служить индикатором передовых достижений. То есть, даже если эти тесты остаются важными и значимыми, высокий скор какой-то новой модели на них больше не означает, что мы вышли на новый уровень возможностей ИИ.
Среди погибших в этом году числятся ARC-AGI, MATH, Human Eval и др. Вот, что пишет автор в ридми:
Этот проект создан, чтобы немного развлечь нас и напомнить о впечатляющем прогрессе, которого мы достигли — большей части из этого я даже не надеялся увидеть при своей жизни.
Вот он, идеальный новогодний пет-проект. Следим за тем, как мемориал будет расти в 2025:
r0bk.github.io/killedbyllm/