Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Skywork-Reward-V2: масштабирование курирования данных о предпочтениях посредством синергии человека и ИИ В данной статье представлена Skywork-Reward-V2, набор моделей вознаграждения, разработанных для улучшения производительности обучения с подкреплением на основе обратной связи от человека (RLHF). Авторы рассматривают ограничения существующих моделей вознаграждения, которые часто испытывают трудности с нюансированными человеческими предпочтениями из-за недостатков в наборах данных о предпочтениях. Чтобы решить эти проблемы, они представляют SynPref-40M, крупномасштабный набор данных о предпочтениях, курируемый с использованием новой синергетической конвейерной обработки человек-ИИ. Этот конвейер сочетает в себе качество аннотаций, предоставляемых людьми, с масштабируемостью ИИ, что обеспечивает эффективное курирование данных в большом масштабе. Skywork-Reward-V2, обученная на подмножестве SynPref-40M, демонстрирует передовые результаты по различным критериям, демонстрируя свою универсальность в согласовании с человеческими предпочтениями, объективной правильностью и безопасностью. Исследования абляции подчеркивают важность как масштаба данных, так и высококачественного курирования. Исследование подчеркивает потенциал улучшенных наборов данных о предпочтениях и преимущества сотрудничества человека и ИИ в повышении производительности модели вознаграждения. #RLHF #МоделиВознаграждения #ИИ #ЧеловекИИ #КурированиеДанных #ОбучениеПредпочтениям #SkyworkRewardV2 документ - https://arxiv.org/pdf/2507.01352v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Skywork-Reward-V2: масштабирование курирования данных о предпочтениях посредством синергии человека и ИИ В данной статье представлена Skywork-Reward-V2, набор моделей вознаграждения, разработанных для улучшения производительности обучения с подкреплением на основе обратной связи от человека (RLHF). Авторы рассматривают ограничения существующих моделей вознаграждения, которые часто испытывают трудности с нюансированными человеческими предпочтениями из-за недостатков в наборах данных о предпочтениях. Чтобы решить эти проблемы, они представляют SynPref-40M, крупномасштабный набор данных о предпочтениях, курируемый с использованием новой синергетической конвейерной обработки человек-ИИ. Этот конвейер сочетает в себе качество аннотаций, предоставляемых людьми, с масштабируемостью ИИ, что обеспечивает эффективное курирование данных в большом масштабе. Skywork-Reward-V2, обученная на подмножестве SynPref-40M, демонстрирует передовые результаты по различным критериям, демонстрируя свою универсальность в согласовании с человеческими предпочтениями, объективной правильностью и безопасностью. Исследования абляции подчеркивают важность как масштаба данных, так и высококачественного курирования. Исследование подчеркивает потенциал улучшенных наборов данных о предпочтениях и преимущества сотрудничества человека и ИИ в повышении производительности модели вознаграждения. #RLHF #МоделиВознаграждения #ИИ #ЧеловекИИ #КурированиеДанных #ОбучениеПредпочтениям #SkyworkRewardV2 документ - https://arxiv.org/pdf/2507.01352v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM