Мультимодальные агенты в Yandex VLM |Даниил Лукичев
Даниил Лукичев, старший разработчик, служба компьютерного зрения Яндекс с докладом "Мультимодальные агенты в Yandex VLM" В докладе представлен пайплайн разработки мультимодального агента от команды YaVLM Яндекса, его учебный конвейер (претрейн → SFT → DPO) и режимы применения. Рассмотрим метрики и бенчмарки, их связь с реальными продуктовыми целями, а также существующие решения в областях Browser Agents, GUI multimodal и Computer Use. Ключевые практические уроки, повышающие качество, надежность и эффективность модели.
Даниил Лукичев, старший разработчик, служба компьютерного зрения Яндекс с докладом "Мультимодальные агенты в Yandex VLM" В докладе представлен пайплайн разработки мультимодального агента от команды YaVLM Яндекса, его учебный конвейер (претрейн → SFT → DPO) и режимы применения. Рассмотрим метрики и бенчмарки, их связь с реальными продуктовыми целями, а также существующие решения в областях Browser Agents, GUI multimodal и Computer Use. Ключевые практические уроки, повышающие качество, надежность и эффективность модели.