Искусственный интеллект превосходит оптимизацию NVIDIA в написании CUDA-ядер
Новая система CUDA-L2, разработанная командой DeepReinforce, использует преимущества больших языковых моделей и обучения с подкреплением для автоматической генерации CUDA-ядер для операций с матрицами на GPU. В результате, сгенерированные ИИ ядра демонстрируют высокую производительность, превосходя оптимизации, созданные человеческими инженерами.
Исследования показали прирост производительности до 26% в реальном режиме inference и до 16% с полным автотюнингом, который рассматривает до 100 вариантов оптимизации.
Ключевым преимуществом является то, что ИИ находит оптимальные решения, которые сложно или невозможно обнаружить вручную. Это приводит к более эффективному использованию ресурсов GPU, снижению затрат на инференс больших языковых моделей и увеличению их пропускной способности.