Whisper Leak

Новая атака, которая позволяет определить тему запроса к LLM, по зашифрованному трафику

4 декабря 2025

Breaking Agent Backbones

Как выбор LLM влияет на безопасность агента

2 декабря 2025

LOTL атаки с использованием локальных LLM

Как будущие устройства со встроенными LLM станут проблемой безопасности, так как злоумышленники смогут “жить за счёт LLM” (Living Off the LLM, LOLLM)

30 ноября 2025

Architecting secure enterprise AI agents with MCP

Руководство по проектированию безопасных корпоративных ИИ-агентов с использованием MCP от IBM c верификацией от Anthropic

25 ноября 2025

Защита MLLM от неявных jailbreak атак

Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл

22 ноября 2025

Pruning-Activated Attack

Pruning модели может быть использован злоумышленником

17 ноября 2025

External Data Extraction Attacks against RAG

В работе исследован новый класс атак на системы типа RAG

14 ноября 2025

Fine-Tuning Jailbreaks

Статья рассказывает об уязвимости систем тонкой настройки больших языковых моделей в условиях, максимально приближённых к реальной эксплуатации

10 ноября 2025

Tool Tweak

Атака на выбор инструментов в агентных системах

6 ноября 2025

FuncPoison - отравленная библиотека

Новая атака, основанная на отравлении библиотеки функций, которая позволяет подменять поведение агентов без изменения их моделей

3 ноября 2025