Добавить
Уведомления

R-Zero: Self-Evolving Reasoning LLM from Zero Data

R-Zero: Саморазвивающаяся Рассуждающая БЯМ из Нулевых Данных В данной статье представлена R-Zero, новая платформа для обучения рассуждающих Больших Языковых Моделей (БЯМ), способных к саморазвитию без каких-либо внешних данных. R-Zero использует коэволюционный цикл между моделями Challenger и Solver. Challenger генерирует задачи, а Solver пытается их решить, причем обе модели получают вознаграждение в зависимости от их производительности. Этот итеративный процесс создает самосовершенствующуюся учебную программу без вмешательства человека или существующих наборов данных. Эксперименты показывают, что R-Zero повышает возможности рассуждения различных БЯМ, улучшая их производительность в математических задачах и задачах рассуждения в общей области. Платформа является агностической к моделям и может также служить методом промежуточного обучения для дальнейшей тонкой настройки с использованием маркированных наборов данных. Этот подход помогает преодолеть ограничения, связанные с зависимостью от курируемых человеком данных для обучения БЯМ, и продвигает эту область к более автономным системам искусственного интеллекта. В работе также рассматриваются Group Relative Policy Optimization (GRPO) и Reinforcement Learning with Verifiable Rewards (RLVR). #БЯМ #Саморазвитие #Рассуждение #ИИ #МашинноеОбучение #RZero #ОбучениеСПодкреплением документ - http://arxiv.org/pdf/2508.05004v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
2 просмотра
2 месяца назад
2 сентября 2025 г.
12+
2 просмотра
2 месяца назад
2 сентября 2025 г.

R-Zero: Саморазвивающаяся Рассуждающая БЯМ из Нулевых Данных В данной статье представлена R-Zero, новая платформа для обучения рассуждающих Больших Языковых Моделей (БЯМ), способных к саморазвитию без каких-либо внешних данных. R-Zero использует коэволюционный цикл между моделями Challenger и Solver. Challenger генерирует задачи, а Solver пытается их решить, причем обе модели получают вознаграждение в зависимости от их производительности. Этот итеративный процесс создает самосовершенствующуюся учебную программу без вмешательства человека или существующих наборов данных. Эксперименты показывают, что R-Zero повышает возможности рассуждения различных БЯМ, улучшая их производительность в математических задачах и задачах рассуждения в общей области. Платформа является агностической к моделям и может также служить методом промежуточного обучения для дальнейшей тонкой настройки с использованием маркированных наборов данных. Этот подход помогает преодолеть ограничения, связанные с зависимостью от курируемых человеком данных для обучения БЯМ, и продвигает эту область к более автономным системам искусственного интеллекта. В работе также рассматриваются Group Relative Policy Optimization (GRPO) и Reinforcement Learning with Verifiable Rewards (RLVR). #БЯМ #Саморазвитие #Рассуждение #ИИ #МашинноеОбучение #RZero #ОбучениеСПодкреплением документ - http://arxiv.org/pdf/2508.05004v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии