Срочно (29.08.25): Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей - новости smi.mobi (29.08.25)
Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей
Автоматически добавлена на сайт: 5 янв 2025, 00:23
Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы. Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky. «Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42. В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций. Источник: DALL-E Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight. Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем. Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов. «Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на