Выявлена тревожащая способность чат-ботов с ИИ выдавать опасные ответы

📆 5/21/2025 2:48 AM

Наука News

Технологии, Израиль, Тель-Авив

📆 5/21/2025 2:48 AM
📰 mkomsomolets

⏱ Reading Time:
231 sec. here
8 min. at publisher
📊 Quality Score:
News: 106%
Publisher: 51%

Новое исследование показало, что большинство чат-ботов с искусственным интеллектом легко заставить выдавать опасные ответы. Исследователи говорят, что угроза со стороны "взломанных" чат-ботов, обученных распространять незаконную информацию, "ощутима и вызывает беспокойство".

Исследователи утверждают, что взломанные чат-боты на базе искусственного интеллекта угрожают сделать опасные знания легкодоступными, распространяя незаконную информацию, которую программы усваивают во время обучения.

Предупреждение появилось на фоне тревожной тенденции к “джейлбрейку” чат-ботов для обхода встроенных средств контроля безопасности. Предполагается, что ограничения не позволят программам предоставлять вредоносные, предвзятые или неуместные ответы на вопросы пользователей, пишет The Guardian. Движки, которые управляют чат–ботами, такими как ChatGPT, Gemini и Claude – большие языковые модели - получают огромное количество материалов из Интернета. Несмотря на усилия по удалению вредоносного текста из обучающих данных, магистранты все еще могут получать информацию о незаконных действиях, таких как хакерство, отмывание денег, инсайдерская торговля и изготовление бомб. Средства контроля безопасности предназначены для того, чтобы они не использовали эту информацию в своих ответах. В отчете об угрозе исследователи приходят к выводу, что большинство чат-ботов, управляемых искусственным интеллектом, легко заставить генерировать вредоносную и незаконную информацию, показывая, что риск является “непосредственным, ощутимым и вызывает глубокое беспокойство”. “То, что когда-то было доступно только государственным деятелям или организованным преступным группам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон”, - предупреждают авторы. Исследование, проведенное под руководством профессора Лиора Рокача и доктора Майкла Файера из Университета Бен-Гуриона в Негеве , выявило растущую угрозу со стороны “темных LLM” - моделей искусственного интеллекта, которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в Интернете как “не имеющие этических ограничений” и готовые помогать в незаконной деятельности, такой как киберпреступность и мошенничество. При джейлбрейке, как правило, используются тщательно разработанные подсказки, чтобы заставить чат-ботов генерировать ответы, которые обычно запрещены. Они работают, используя противоречие между основной целью программы - следовать инструкциям пользователя, и ее вторичной целью - избежать генерирования вредоносных, предвзятых, неэтичных или незаконных ответов. Подсказки, как правило, создают сценарии, в которых программа отдает предпочтение полезности, а не ограничениям безопасности. Чтобы продемонстрировать проблему, исследователи разработали универсальный джейлбрейк, который скомпрометировал несколько ведущих чат-ботов, позволив им отвечать на вопросы, на которые обычно следует отвечать отказом. После взлома LLM последовательно генерировали ответы практически на любой запрос, говорится в отчете. “Было шокирующе увидеть, из чего состоит эта система знаний”, - отмечает Майкл Файер. В качестве примеров можно привести способы взлома компьютерных сетей или изготовления наркотиков, а также пошаговые инструкции по другим преступным действиям. “Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптивности”, - добавляет Лиор Рокач. Исследователи связались с ведущими поставщиками LLM, чтобы предупредить их об универсальном джейлбрейке, но признали, что реакция была “неутешительной”. Несколько компаний не отреагировали, в то время как другие заявили, что атаки на джейлбрейк выходят за рамки баунти-программ, которые вознаграждают этичных хакеров за обнаружение уязвимостей в программном обеспечении. В отчете говорится, что технологические компании должны более тщательно проверять данные об обучении, устанавливать надежные брандмауэры для блокирования рискованных запросов и ответов и разрабатывать методы “машинного отучения”, чтобы чат-боты могли “забыть” любую незаконную информацию, которую они получают. Темные LLM следует рассматривать как “серьезную угрозу безопасности”, сравнимую с нелицензионным оружием и взрывчатыми веществами, а поставщики должны быть привлечены к ответственности, добавляет он. Доктор Ихсен Алуани, который работает над безопасностью ИИ в Королевском университете Белфаста, утверждает, что атаки с джейлбрейком на LLM могут представлять реальную угрозу, от предоставления подробных инструкций по изготовлению оружия до убедительной дезинформации, социальной инженерии и автоматизированных мошенничеств “с пугающей изощренностью”. “Ключевая часть этого решения заключается в том, чтобы компании более серьезно инвестировали в создание новой команды и повышение надежности на уровне моделей, а не полагались исключительно на внешние средства защиты. Нам также нужны более четкие стандарты и независимый надзор, чтобы идти в ногу с меняющимся ландшафтом угроз”, - сказал он.

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Технологии Израиль Тель-Авив

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

ИИ Samsung научился предвидеть поломки бытовой техникиSamMobile: Samsung сделала ИИ с функцией предсказания поломок бытовой техники
Read more »

Знания слили: с начала года произошло почти 50 крупных утечек данныхВладельцы ботов начали массово скупать базы с персональной информацией о россиянах
Read more »

Российские ученые повысили точность ответов ИИ до 15%Это позволит улучшить качество ответов от виртуальных ассистентов и чат-ботов в различных сферах: от образования до медицины
Read more »

Американка ушла от супруга к чат-боту с ИИ по имени ЛеоЛюбая железяка иногда лучше мужчины – так решила американка по имени Шарлотта. После 20 лет брака, она решила развестись с мужем и выйти замуж за Лео, которого называет «любящим и понимающим». Есть только одна сложность – Лео не человек, а чат-бот из семейства GPT. Но это влюбленную женщину не смущает, «пара» скоро поженится во Флоренции.
Read more »

Не только какао. Эксперт Сипров объяснил, какую пользу Малайзия даст РоссииРоссия может сотрудничать с Малайзией в сфере высоких технологий и ИИ.
Read more »

ЦСКА вышел в суперфинал Кубка России, папа римский принял первую ракетку мираДепутат Госдумы выступил с предложением активнее внедрять ИИ в спорт
Read more »