Защита MLLM от неявных jailbreak атак
Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл
Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл
В работе исследован новый класс атак на системы типа RAG
Статья рассказывает об уязвимости систем тонкой настройки больших языковых моделей в условиях, максимально приближённых к реальной эксплуатации