Добавить
Уведомления

Large Vision Models Can Solve Mental Rotation Problems

Большие визуальные модели могут решать задачи мысленного вращения В этом исследовании рассматривается способность больших визуальных моделей, в частности Vision Transformers (ViT), решать задачи мысленного вращения, являющиеся ключевым аспектом пространственного мышления человека. Исследование систематически оценивает ViT, CLIP, DINOv2 и DINOv3 в различных задачах мысленного вращения, включая простые блочные структуры, сложные фигуры, текст и фотореалистичные объекты. Исследование изучает представления моделей слой за слоем, чтобы понять, где и как эти сети преуспевают. Основные выводы показывают, что самообучающиеся ViT превосходят ViT с учителем в захвате геометрической структуры. Кроме того, промежуточные слои, как правило, работают лучше, чем конечные слои в этих задачах. Сложность задачи возрастает с усложнением вращения и окклюзии, аналогично производительности человека. Исследование оценивает, кодируют ли эти модели неявно трехмерную структурную информацию и информацию о точке обзора, необходимую для различения объекта от его зеркального отображения при различных поворотах. #VisionTransformers #МысленноеВращение #ОбучениеПредставлениям #ИскусственныйИнтеллект #КогнитивнаяНаука документ - http://arxiv.org/pdf/2509.15271v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
4 просмотра
Месяц назад
24 сентября 2025 г.
12+
4 просмотра
Месяц назад
24 сентября 2025 г.

Большие визуальные модели могут решать задачи мысленного вращения В этом исследовании рассматривается способность больших визуальных моделей, в частности Vision Transformers (ViT), решать задачи мысленного вращения, являющиеся ключевым аспектом пространственного мышления человека. Исследование систематически оценивает ViT, CLIP, DINOv2 и DINOv3 в различных задачах мысленного вращения, включая простые блочные структуры, сложные фигуры, текст и фотореалистичные объекты. Исследование изучает представления моделей слой за слоем, чтобы понять, где и как эти сети преуспевают. Основные выводы показывают, что самообучающиеся ViT превосходят ViT с учителем в захвате геометрической структуры. Кроме того, промежуточные слои, как правило, работают лучше, чем конечные слои в этих задачах. Сложность задачи возрастает с усложнением вращения и окклюзии, аналогично производительности человека. Исследование оценивает, кодируют ли эти модели неявно трехмерную структурную информацию и информацию о точке обзора, необходимую для различения объекта от его зеркального отображения при различных поворотах. #VisionTransformers #МысленноеВращение #ОбучениеПредставлениям #ИскусственныйИнтеллект #КогнитивнаяНаука документ - http://arxiv.org/pdf/2509.15271v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии