Data Secrets dan repost
Разработчики PyTorch выкатили прикольный гайд про то, как организовать инференс LLM вообще без CUDA-ядер
Они предлагают заменить все ядра CUDA на рукописные Triton ядра в миксе с torch.compile. Это нужно для совместимости с ГПУ от AMD, Intel и др, а не только с Nvidia + для большей гибкости и низкоуровневости.
В статье подробно описывается, как и что нужно сделать, и в итоге показано, что с помощью некоторых дополнительных оптимизаций и танцев с бубном таким способом можно добиться ~80% производительности CUDA.
Получился интересный, но, к слову, достаточно ироничный гайд, учитывая трудности Nvidia на сегодняшний день 😀
Они предлагают заменить все ядра CUDA на рукописные Triton ядра в миксе с torch.compile. Это нужно для совместимости с ГПУ от AMD, Intel и др, а не только с Nvidia + для большей гибкости и низкоуровневости.
В статье подробно описывается, как и что нужно сделать, и в итоге показано, что с помощью некоторых дополнительных оптимизаций и танцев с бубном таким способом можно добиться ~80% производительности CUDA.
Получился интересный, но, к слову, достаточно ироничный гайд, учитывая трудности Nvidia на сегодняшний день 😀