From memories to maps: Mechanisms of in context reinforcement learning in transformers
От воспоминаний к картам: Механизмы обучения с подкреплением в контексте в трансформерах Это исследование изучает, как трансформеры, благодаря своей архитектуре, похожей на память, выполняют обучение с подкреплением в контексте, имитируя быструю адаптацию, наблюдаемую у людей и животных. В исследовании обучается трансформер на множестве задач планирования, вдохновленных поведением грызунов, чтобы понять возникающие алгоритмы обучения. Результаты показывают, что модель использует обучение структуры и согласование между контекстами для обучения представлений. Вместо стандартных методов обучения с подкреплением, модель кэширует промежуточные вычисления в токенах памяти, к которым обращается во время принятия решений. Исследование подчеркивает память как вычислительный ресурс для гибкого поведения и предполагает связи с гиппокампально-энторинальной системой в мозге. Исследование предлагает механистическую гипотезу быстрой адаптации как в искусственном, так и в естественном интеллекте, демонстрируя, как эпизодическая память может действовать как вычислительное рабочее пространство. Стратегии модели-трансформера соответствуют ролям гиппокампа и энторинальной коры. В конечном счете, работа углубляет понимание вычислительной роли памяти в принятии решений. #ОбучениесПодкреплением #Трансформеры #ОбучениеВКонтексте #ЭпизодическаяПамять #ИИ документ - https://arxiv.org/pdf/2506.19686v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
От воспоминаний к картам: Механизмы обучения с подкреплением в контексте в трансформерах Это исследование изучает, как трансформеры, благодаря своей архитектуре, похожей на память, выполняют обучение с подкреплением в контексте, имитируя быструю адаптацию, наблюдаемую у людей и животных. В исследовании обучается трансформер на множестве задач планирования, вдохновленных поведением грызунов, чтобы понять возникающие алгоритмы обучения. Результаты показывают, что модель использует обучение структуры и согласование между контекстами для обучения представлений. Вместо стандартных методов обучения с подкреплением, модель кэширует промежуточные вычисления в токенах памяти, к которым обращается во время принятия решений. Исследование подчеркивает память как вычислительный ресурс для гибкого поведения и предполагает связи с гиппокампально-энторинальной системой в мозге. Исследование предлагает механистическую гипотезу быстрой адаптации как в искусственном, так и в естественном интеллекте, демонстрируя, как эпизодическая память может действовать как вычислительное рабочее пространство. Стратегии модели-трансформера соответствуют ролям гиппокампа и энторинальной коры. В конечном счете, работа углубляет понимание вычислительной роли памяти в принятии решений. #ОбучениесПодкреплением #Трансформеры #ОбучениеВКонтексте #ЭпизодическаяПамять #ИИ документ - https://arxiv.org/pdf/2506.19686v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM