Добавить
Уведомления

STEPWISER: Stepwise Generative Judges for Wiser Reasoning

STEPWISER: Пошаговые генеративные судьи для более разумных рассуждений В этой статье представлена STEPWISER, новый метод улучшения многошаговых рассуждений в больших языковых моделях (LLM). Предлагается генеративный судья, который рассуждает о шагах рассуждения модели политики, выдавая «токены мышления» перед вынесением окончательного вердикта. STEPWISER обучается с использованием обучения с подкреплением и направлен на устранение ограничений существующих моделей вознаграждения за процесс (PRM). Метод включает в себя технику самосегментации для создания связных блоков рассуждений, назначение целевых вознаграждений посредством относительных результатов и онлайн-обучение цепочек рассуждений по суждениям. Оценки показывают, что STEPWISER достигает лучшей точности суждений, улучшает модель политики во время обучения и улучшает поиск во время вывода. Критическим фактором является способность к мета-рассуждениям, полученная в результате обучения с подкреплением. Исследование сравнивает предложенный метод с другими моделями вознаграждения за процесс и дискриминантными PRM. #LLM #Рассуждения #ОбучениеСПодкреплением #МетаРассуждения #ИИ #STEPWISER #МоделиВознагражденияЗаПроцесс документ - http://arxiv.org/pdf/2508.19229v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
6 просмотров
2 месяца назад
28 августа 2025 г.
12+
6 просмотров
2 месяца назад
28 августа 2025 г.

STEPWISER: Пошаговые генеративные судьи для более разумных рассуждений В этой статье представлена STEPWISER, новый метод улучшения многошаговых рассуждений в больших языковых моделях (LLM). Предлагается генеративный судья, который рассуждает о шагах рассуждения модели политики, выдавая «токены мышления» перед вынесением окончательного вердикта. STEPWISER обучается с использованием обучения с подкреплением и направлен на устранение ограничений существующих моделей вознаграждения за процесс (PRM). Метод включает в себя технику самосегментации для создания связных блоков рассуждений, назначение целевых вознаграждений посредством относительных результатов и онлайн-обучение цепочек рассуждений по суждениям. Оценки показывают, что STEPWISER достигает лучшей точности суждений, улучшает модель политики во время обучения и улучшает поиск во время вывода. Критическим фактором является способность к мета-рассуждениям, полученная в результате обучения с подкреплением. Исследование сравнивает предложенный метод с другими моделями вознаграждения за процесс и дискриминантными PRM. #LLM #Рассуждения #ОбучениеСПодкреплением #МетаРассуждения #ИИ #STEPWISER #МоделиВознагражденияЗаПроцесс документ - http://arxiv.org/pdf/2508.19229v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии