Добавить
Уведомления

Understanding Tool-Integrated Reasoning

Понимание рассуждений, интегрированных с инструментами В этой статье исследуется, почему интеграция инструментов с большими языковыми моделями (LLM) улучшает их возможности рассуждения. Представлено формальное доказательство того, что рассуждения, интегрированные с инструментами (TIR), расширяют возможности LLM, увеличивая ее эмпирическую и осуществимую поддержку, преодолевая ограничения текстовых моделей. Исследование представляет оптимизацию политики формирования преимуществ (ASPO) для управления поведением модели без дестабилизации обучения. Эксперименты на математических тестах показывают, что TIR превосходит текстовые модели, даже в задачах, требующих абстрактного понимания. Исследование выявляет возникающие когнитивные паттерны, иллюстрирующие, как модели учатся использовать инструменты. ASPO улучшает использование инструментов за счет раннего вызова кода и интерактивных циклов. Работа предлагает принципиальное объяснение успеха TIR, смещая акцент с того факта, что инструменты работают, на понимание того, почему и как они позволяют более мощно рассуждать. #LLM #ИнтеграцияИнструментов #Рассуждение #ИИ #ОптимизацияПолитики #Python #ASPO документ - http://arxiv.org/pdf/2508.19201v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
6 просмотров
2 месяца назад
29 августа 2025 г.
12+
6 просмотров
2 месяца назад
29 августа 2025 г.

Понимание рассуждений, интегрированных с инструментами В этой статье исследуется, почему интеграция инструментов с большими языковыми моделями (LLM) улучшает их возможности рассуждения. Представлено формальное доказательство того, что рассуждения, интегрированные с инструментами (TIR), расширяют возможности LLM, увеличивая ее эмпирическую и осуществимую поддержку, преодолевая ограничения текстовых моделей. Исследование представляет оптимизацию политики формирования преимуществ (ASPO) для управления поведением модели без дестабилизации обучения. Эксперименты на математических тестах показывают, что TIR превосходит текстовые модели, даже в задачах, требующих абстрактного понимания. Исследование выявляет возникающие когнитивные паттерны, иллюстрирующие, как модели учатся использовать инструменты. ASPO улучшает использование инструментов за счет раннего вызова кода и интерактивных циклов. Работа предлагает принципиальное объяснение успеха TIR, смещая акцент с того факта, что инструменты работают, на понимание того, почему и как они позволяют более мощно рассуждать. #LLM #ИнтеграцияИнструментов #Рассуждение #ИИ #ОптимизацияПолитики #Python #ASPO документ - http://arxiv.org/pdf/2508.19201v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии