Срочно (29.08.25): Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей - новости smi.mobi (29.08.25)

Найти новости

Пользователям

Разделы и сервисы

Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Автоматически добавлена на сайт: 5 янв 2025, 00:23

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы. Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky. «Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42. В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций. Источник: DALL-E Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight. Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем. Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов. «Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на

Читать полностью в источнике:
https://www.ixbt.com/news/2025/01/04/novaja-tehnika-vzloma-llm-issledovateli-obnaruzhili-sposob-obhoda-sistem-bezopasnosti-bolshih-jazykovyh-modelej.html

Главные новости IXBit

Читать полностью в источнике Поделиться ссылкой

Наш канал в Телеграм!

ДЛЯ ОЦЕНКИ НОВОСТИ ВОЙДИТЕ НА САЙТ

Комментарии 0

Пока нет комментариев

Вернуться ко всем новостям

Поддержать наш проект для развития сайта