Does Math Reasoning Improve General LLM Capabilities?
Улучшает ли математическое мышление общие возможности больших языковых моделей? Данное исследование изучает, приводят ли улучшения в математическом мышлении больших языковых моделей (LLM) к расширению общих возможностей. В исследовании оцениваются более 20 моделей, настроенных для логического мышления, в различных задачах, включая математику, научные вопросы и ответы, программирование, планирование агентов и следование инструкциям. Результаты показывают, что многие модели, преуспевающие в математике, не могут обобщить свои навыки на другие области. Контролируемые эксперименты с использованием Qwen3-14B показывают, что модели, настроенные с использованием обучения с подкреплением (RL), демонстрируют лучшую переносимость по сравнению с моделями, настроенными с использованием контролируемой точной настройки (SFT), которые часто забывают общие навыки. Анализ предполагает, что SFT вызывает дрейф представления и вывода, в то время как RL сохраняет структуру общей области. Исследование подчеркивает необходимость пересмотра стандартных методов постобработки, особенно SFT, для улучшения моделей логического мышления. #LLM #МатематическоеМышление #ТрансферноеОбучение #ОбучениесПодкреплением #КонтролируемаяТонкаяНастройка #Обобщение #ИИ #NLP документ - https://arxiv.org/pdf/2507.00432v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Улучшает ли математическое мышление общие возможности больших языковых моделей? Данное исследование изучает, приводят ли улучшения в математическом мышлении больших языковых моделей (LLM) к расширению общих возможностей. В исследовании оцениваются более 20 моделей, настроенных для логического мышления, в различных задачах, включая математику, научные вопросы и ответы, программирование, планирование агентов и следование инструкциям. Результаты показывают, что многие модели, преуспевающие в математике, не могут обобщить свои навыки на другие области. Контролируемые эксперименты с использованием Qwen3-14B показывают, что модели, настроенные с использованием обучения с подкреплением (RL), демонстрируют лучшую переносимость по сравнению с моделями, настроенными с использованием контролируемой точной настройки (SFT), которые часто забывают общие навыки. Анализ предполагает, что SFT вызывает дрейф представления и вывода, в то время как RL сохраняет структуру общей области. Исследование подчеркивает необходимость пересмотра стандартных методов постобработки, особенно SFT, для улучшения моделей логического мышления. #LLM #МатематическоеМышление #ТрансферноеОбучение #ОбучениесПодкреплением #КонтролируемаяТонкаяНастройка #Обобщение #ИИ #NLP документ - https://arxiv.org/pdf/2507.00432v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM