Добавить
Уведомления

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

Jet-Nemotron: Эффективная языковая модель с постобработкой после нейронного поиска архитектуры В данной статье представлена Jet-Nemotron, новое семейство эффективных языковых моделей, разработанное NVIDIA. Jet-Nemotron достигает сопоставимой или превосходящей точности по сравнению с существующими моделями с полным вниманием, при этом значительно улучшая пропускную способность генерации. В нем используется новая схема Post Neural Architecture Search (PostNAS) для эффективного проектирования моделей. PostNAS начинается с предварительно обученной модели с полным вниманием и замораживает ее веса MLP, исследуя различные конструкции блоков внимания. Конвейер включает в себя размещение и устранение слоев полного внимания, выбор блока линейного внимания, разработку нового блока внимания и аппаратный поиск гиперпараметров. Модель Jet-Nemotron-2B демонстрирует улучшенную производительность по сравнению с другими моделями по таким бенчмаркам, как MMLU и MMLU-Pro. Он также обеспечивает значительное ускорение генерации и предварительного заполнения, что делает его высокоэффективной альтернативой моделям с полным вниманием. #ЯзыковаяМодель #ПоискНейроннойАрхитектуры #ЭффективныйИИ #JetNemotron #PostNAS #ИИ #NVIDIA #ГлубокоеОбучение документ - http://arxiv.org/pdf/2508.15884v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
1 просмотр
2 месяца назад
27 августа 2025 г.
12+
1 просмотр
2 месяца назад
27 августа 2025 г.

Jet-Nemotron: Эффективная языковая модель с постобработкой после нейронного поиска архитектуры В данной статье представлена Jet-Nemotron, новое семейство эффективных языковых моделей, разработанное NVIDIA. Jet-Nemotron достигает сопоставимой или превосходящей точности по сравнению с существующими моделями с полным вниманием, при этом значительно улучшая пропускную способность генерации. В нем используется новая схема Post Neural Architecture Search (PostNAS) для эффективного проектирования моделей. PostNAS начинается с предварительно обученной модели с полным вниманием и замораживает ее веса MLP, исследуя различные конструкции блоков внимания. Конвейер включает в себя размещение и устранение слоев полного внимания, выбор блока линейного внимания, разработку нового блока внимания и аппаратный поиск гиперпараметров. Модель Jet-Nemotron-2B демонстрирует улучшенную производительность по сравнению с другими моделями по таким бенчмаркам, как MMLU и MMLU-Pro. Он также обеспечивает значительное ускорение генерации и предварительного заполнения, что делает его высокоэффективной альтернативой моделям с полным вниманием. #ЯзыковаяМодель #ПоискНейроннойАрхитектуры #ЭффективныйИИ #JetNemotron #PostNAS #ИИ #NVIDIA #ГлубокоеОбучение документ - http://arxiv.org/pdf/2508.15884v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии