Добавить
Уведомления

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

DeepScholar-Bench: Актуальный бенчмарк и автоматизированная оценка для генеративного синтеза исследований В документе представлен DeepScholar-Bench, новый актуальный бенчмарк и автоматизированная система оценки для систем генеративного синтеза исследований. Эти системы стремятся автоматизировать исследования, извлекая информацию из интернета и синтезируя ее в цитируемые обзоры. Авторы подчеркивают ограничения существующих бенчмарков, таких как наборы данных с вопросами и ответами и наборы данных, курируемые экспертами, в отражении сложности и эволюционирующей природы синтеза исследований. DeepScholar-Bench решает эту проблему, извлекая запросы из последних статей ArXiv, сосредотачиваясь на создании разделов о связанных работах. Система оценивает системы по синтезу знаний, качеству поиска и проверяемости. Авторы также представляют DeepScholar-base, эталонный конвейер для генеративного синтеза исследований. Они проводят систематическую оценку различных систем, включая модели с открытым исходным кодом, поисковые ИИ и DeepResearch от OpenAI, обнаружив, что DeepScholar-base устанавливает сильную базовую линию. Результаты показывают, что DeepScholar-Bench не является насыщенным, что подчеркивает его важность для развития ИИ в синтезе исследований. Код и данные бенчмарка общедоступны. #DeepScholarBench #ГенеративныйСинтезИсследований #ИИ #Бенчмарк #Оценка #СинтезЗнаний #КачествоПоиска документ - http://arxiv.org/pdf/2508.20033v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
1 просмотр
2 месяца назад
2 сентября 2025 г.
12+
1 просмотр
2 месяца назад
2 сентября 2025 г.

DeepScholar-Bench: Актуальный бенчмарк и автоматизированная оценка для генеративного синтеза исследований В документе представлен DeepScholar-Bench, новый актуальный бенчмарк и автоматизированная система оценки для систем генеративного синтеза исследований. Эти системы стремятся автоматизировать исследования, извлекая информацию из интернета и синтезируя ее в цитируемые обзоры. Авторы подчеркивают ограничения существующих бенчмарков, таких как наборы данных с вопросами и ответами и наборы данных, курируемые экспертами, в отражении сложности и эволюционирующей природы синтеза исследований. DeepScholar-Bench решает эту проблему, извлекая запросы из последних статей ArXiv, сосредотачиваясь на создании разделов о связанных работах. Система оценивает системы по синтезу знаний, качеству поиска и проверяемости. Авторы также представляют DeepScholar-base, эталонный конвейер для генеративного синтеза исследований. Они проводят систематическую оценку различных систем, включая модели с открытым исходным кодом, поисковые ИИ и DeepResearch от OpenAI, обнаружив, что DeepScholar-base устанавливает сильную базовую линию. Результаты показывают, что DeepScholar-Bench не является насыщенным, что подчеркивает его важность для развития ИИ в синтезе исследований. Код и данные бенчмарка общедоступны. #DeepScholarBench #ГенеративныйСинтезИсследований #ИИ #Бенчмарк #Оценка #СинтезЗнаний #КачествоПоиска документ - http://arxiv.org/pdf/2508.20033v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии