Защита MLLM от неявных jailbreak атак

Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл

22 ноября 2025

External Data Extraction Attacks against RAG

В работе исследован новый класс атак на системы типа RAG

14 ноября 2025

Fine-Tuning Jailbreaks

Статья рассказывает об уязвимости систем тонкой настройки больших языковых моделей в условиях, максимально приближённых к реальной эксплуатации

10 ноября 2025