Fantastic Pretraining Optimizers and Where to Find Them
Фантастические оптимизаторы предварительного обучения и где их найти В данной работе исследуется производительность различных оптимизаторов глубокого обучения при предварительном обучении больших языковых моделей, при этом решается проблема несправедливых сравнений в предыдущих исследованиях. Авторы выделяют две основные проблемы: неравномерная настройка гиперпараметров и ограниченные установки для оценки. Они проводят систематическое изучение десяти оптимизаторов для различных масштабов моделей и соотношений данных к модели. Исследование показывает, что для справедливых сравнений необходимы тщательная настройка гиперпараметров и оценка в конце обучения. Ускорение, обеспечиваемое матричными оптимизаторами, хотя и является многообещающим, уменьшается с увеличением размера модели. В исследовании подчеркивается важность независимой оптимизации гиперпараметров для каждого оптимизатора. В нем используется архитектура Llama 2 с различными размерами параметров и исследуются различные соотношения данных к модели для обеспечения всестороннего эталонного тестирования. #оптимизатор #предварительноеобучение #большиеязыковыемодели #гиперпараметр #глубокоеобучение #AdamW документ - http://arxiv.org/pdf/2509.02046v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Фантастические оптимизаторы предварительного обучения и где их найти В данной работе исследуется производительность различных оптимизаторов глубокого обучения при предварительном обучении больших языковых моделей, при этом решается проблема несправедливых сравнений в предыдущих исследованиях. Авторы выделяют две основные проблемы: неравномерная настройка гиперпараметров и ограниченные установки для оценки. Они проводят систематическое изучение десяти оптимизаторов для различных масштабов моделей и соотношений данных к модели. Исследование показывает, что для справедливых сравнений необходимы тщательная настройка гиперпараметров и оценка в конце обучения. Ускорение, обеспечиваемое матричными оптимизаторами, хотя и является многообещающим, уменьшается с увеличением размера модели. В исследовании подчеркивается важность независимой оптимизации гиперпараметров для каждого оптимизатора. В нем используется архитектура Llama 2 с различными размерами параметров и исследуются различные соотношения данных к модели для обеспечения всестороннего эталонного тестирования. #оптимизатор #предварительноеобучение #большиеязыковыемодели #гиперпараметр #глубокоеобучение #AdamW документ - http://arxiv.org/pdf/2509.02046v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
