Добавить
Уведомления

Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents

Взлом каркасов агентов: Оценка безопасности базовых LLM в AI агентах В данной статье представлен новый фреймворк под названием «снимки угроз» для оценки безопасности больших языковых моделей (LLM), используемых в качестве базовых в AI-агентах. Он решает проблемы моделирования безопасности в AI-агентах из-за их недетерминированной природы и переплетения уязвимостей LLM с традиционными программными рисками. Фреймворк «снимки угроз» изолирует конкретные состояния, в которых проявляются уязвимости LLM, что позволяет систематически идентифицировать и классифицировать риски безопасности. Авторы разработали b3benchmark, бенчмарк безопасности, основанный на краудсорсинговых атаках, и оценили 31 популярную LLM. Результаты показывают, что расширенные возможности рассуждения улучшают безопасность, в то время как размер модели не коррелирует с ней. Бенчмарк, набор данных и код оценки выпущены для содействия более широкому внедрению и стимулирования улучшений безопасности в базовых LLM. Исследование фокусируется на различении уязвимостей, специфичных для LLM, от традиционных системных рисков в архитектурах AI-агентов. #безопасностьLLM #AIагенты #СнимкиУгроз #b3benchmark #ВраждебныеАтаки #ОценкаБезопасности #ЯзыковыеМодели документ - http://arxiv.org/pdf/2510.22620v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
1 подписчик
12+
3 просмотра
4 дня назад
31 октября 2025 г.
12+
3 просмотра
4 дня назад
31 октября 2025 г.

Взлом каркасов агентов: Оценка безопасности базовых LLM в AI агентах В данной статье представлен новый фреймворк под названием «снимки угроз» для оценки безопасности больших языковых моделей (LLM), используемых в качестве базовых в AI-агентах. Он решает проблемы моделирования безопасности в AI-агентах из-за их недетерминированной природы и переплетения уязвимостей LLM с традиционными программными рисками. Фреймворк «снимки угроз» изолирует конкретные состояния, в которых проявляются уязвимости LLM, что позволяет систематически идентифицировать и классифицировать риски безопасности. Авторы разработали b3benchmark, бенчмарк безопасности, основанный на краудсорсинговых атаках, и оценили 31 популярную LLM. Результаты показывают, что расширенные возможности рассуждения улучшают безопасность, в то время как размер модели не коррелирует с ней. Бенчмарк, набор данных и код оценки выпущены для содействия более широкому внедрению и стимулирования улучшений безопасности в базовых LLM. Исследование фокусируется на различении уязвимостей, специфичных для LLM, от традиционных системных рисков в архитектурах AI-агентов. #безопасностьLLM #AIагенты #СнимкиУгроз #b3benchmark #ВраждебныеАтаки #ОценкаБезопасности #ЯзыковыеМодели документ - http://arxiv.org/pdf/2510.22620v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии