Reinforcement Learning Teachers of Test Time Scaling
Обучение с подкреплением учителей для масштабирования во время тестирования В этой статье представлен новый фреймворк, называемый учителями, обученными с подкреплением (RLT), разработанный для повышения эффективности дистилляции языковых моделей (LM). RLT обучаются предоставлять эффективные объяснения, «соединяя точки» между проблемой и ее решением, а не решая проблему с нуля. Эти учителя обучаются с использованием плотного вознаграждения, основанного на том, насколько хорошо их объяснения помогают модели-ученику понять решение. Этот подход превосходит существующие методы, основанные на более крупных LM и эвристической постобработке. Необработанные выходные данные 7B RLT достигают более высокой производительности в сложных задачах по сравнению с дистилляцией из гораздо более крупных LM. RLT демонстрируют эффективность при обучении более крупных учеников и в сценариях переноса без дополнительной подготовки на новые типы задач. Фреймворк решает проблемы разведки в обучении с подкреплением, фокусируясь на многократно используемых и специализированных учителях. Результаты предполагают потенциал для снижения затрат, связанных с рассуждениями с подкреплением и конвейерами дистилляции. #ОбучениеСПодкреплением #ЯзыковыеМодели #Дистилляция #RLУчителя #ИИ #МашинноеОбучение #Рассуждения документ - https://arxiv.org/pdf/2506.08388v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Обучение с подкреплением учителей для масштабирования во время тестирования В этой статье представлен новый фреймворк, называемый учителями, обученными с подкреплением (RLT), разработанный для повышения эффективности дистилляции языковых моделей (LM). RLT обучаются предоставлять эффективные объяснения, «соединяя точки» между проблемой и ее решением, а не решая проблему с нуля. Эти учителя обучаются с использованием плотного вознаграждения, основанного на том, насколько хорошо их объяснения помогают модели-ученику понять решение. Этот подход превосходит существующие методы, основанные на более крупных LM и эвристической постобработке. Необработанные выходные данные 7B RLT достигают более высокой производительности в сложных задачах по сравнению с дистилляцией из гораздо более крупных LM. RLT демонстрируют эффективность при обучении более крупных учеников и в сценариях переноса без дополнительной подготовки на новые типы задач. Фреймворк решает проблемы разведки в обучении с подкреплением, фокусируясь на многократно используемых и специализированных учителях. Результаты предполагают потенциал для снижения затрат, связанных с рассуждениями с подкреплением и конвейерами дистилляции. #ОбучениеСПодкреплением #ЯзыковыеМодели #Дистилляция #RLУчителя #ИИ #МашинноеОбучение #Рассуждения документ - https://arxiv.org/pdf/2506.08388v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM