Срочно (31.03.26): SlideFormer: новый подход к тонкой настройке больших языковых моделей на одном GPU - новости smi.mobi (31.03.26)

SlideFormer: новый подход к тонкой настройке больших языковых моделей на одном GPU

Автоматически добавлена на сайт: вчера в 22:27



Тонкая настройка больших языковых моделей (LLM) становится всё более важной для адаптации к конкретным задачам, но её высокая требовательность к памяти превышает возможности большинства современных GPU. Разработчики из Гонконгского университета науки и технологий (Hong Kong University of Science and Technology, HKUST) представили SlideFormer — систему, которая позволяет выполнять тонкую настройку моделей с более чем 123 миллиардами параметров на одном GPU, таком как Nvidia RTX 4090. SlideFormer предлагает решения для преодоления ограничений памяти и повышения производительности. Решение использует архитектуру скользящих слоёв, которая позволяет GPU работать как окно, совмещая вычисления на GPU с обновлениями на CPU и многоуровневым вводом-выводом. Система снижает пиковое использование памяти за счёт предварительно выделенных GPU-кэшей и буферов на CPU, что уменьшает фрагментацию и перераспределение памяти. Интеграция методов ввода-вывода и оптимизированных вычислительных ядер Triton устраняет узкие места в вычислениях. Иллюстрация: Nano Banana Это решение позволяет SlideFormer достигать следующих результатов: увеличение пропускной способности от 1,40 до 6,27 раз по сравнению с существующими решениями, такими как ZeRO-Offload и ColossalAI, снижение использования памяти GPU более чем на 50% и уменьшение потребления памяти CPU на 40%. Например, SlideFormer позволяет тонко настраивать модели с 123 миллиардами параметров на одном RTX 4090, а также обрабатывать пакеты данных в 8 раз больше. На высокопроизводительном ПК с 256 ГБ оперативной памяти система может обрабатывать модели до 24 миллиардов параметров без потери производительности. SlideFormer открывает новые возможности для демократизации тонкой настройки LLM, позволяя пользователям и небольшим организациям использовать мощь больших моделей без необходимости в дорогих кластерных решениях.
Читать полностью в источнике:
https://www.ixbt.com/news/2026/03/30/slideformer-novyj-podhod-k-tonkoj-nastrojke-bolshih-jazykovyh-modelej-na-odnom-gpu.html
Главные новости IXBit
Наш канал в Телеграм!
ДЛЯ ОЦЕНКИ НОВОСТИ ВОЙДИТЕ НА САЙТ
Комментарии 0
Пока нет комментариев
Введите свои данные, чтобы написать сообщение:

Вернуться ко всем новостям
Поддержать наш проект для развития сайта
ЗДЕСЬ МОЖЕТ БЫТЬ ВАША РЕКЛАМА