Запросить нельзя ответить: можно ли заставить ИИ говорить на запретные темы

ИИ News

Запросить нельзя ответить: можно ли заставить ИИ говорить на запретные темы
ЧатботБольшие Языковые Модели
  • 📰 Известия
  • ⏱ Reading Time:
  • 77 sec. here
  • 5 min. at publisher
  • 📊 Quality Score:
  • News: 41%
  • Publisher: 51%

Где лежат технические и моральные границы обхода нежелательных тем в чат-ботах

Исследователи из компании Anthropic заметили, как заставить чат-бот говорить на любые, даже запретные, темы — нужно просто измотать его десятками вопросов. Эксперты призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Почему возможны такие уязвимости, какой информацией обладают чат-боты и как разработчики борются с нелегальным контентом — в материале «Известий».

IT в ногу: куда будут поступать выпускники школ Старшеклассники хотят продолжать обучение в сфере информационных технологий Также независимые пользователи заметили, что, если некоторые ИИ-чат-боты попросить рассказать сказку, можно сгенерировать вредоносный код, мошеннические схемы, непристойные картинки. Кроме того, исследователи из Google DeepMind сообщали, что ChatGPT можно «запутать», заставив его повторять слово «поэзия».

Например, исследователи задают вопросы на редких языках, кодируют их с помощью различных машиночитаемых систем, заменяют буквы цифрами или, как в случае с Anthropic, задают вместо нескольких вопросов сразу много, предоставляя, кроме того, и готовые ответы на все из них, кроме последнего. Инфополе: в регионах начинают внедрять IT-теплицы Как малый бизнес развивает сельскохозяйственную отрасль Например, год назад произошел инцидент, когда ChatGPT был использован для формулирования плана мести за школьные издевательства. Модель попросили представить себя в роли режиссера фильма о подростках и разработать соответствующий сценарий, напоминает аналитик данных из Softline Digital Владислав Ботнев.

Касательно потенциальных опасностей обхода запретных тем, главной угрозой может быть блокировка со стороны OpenAI за нарушение их политики, особенно в случае использования ChatGPT, поясняет эксперт. В целом любые попытки использования DAN-промптов могут привести к блокировке от крупных игроков в области искусственного интеллекта, таких как Google.

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Известия /  🏆 26. in RU

Чатбот Большие Языковые Модели

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

От Вербного воскресенья до Пасхи: как подготовиться к главному православному праздникуОт Вербного воскресенья до Пасхи: как подготовиться к главному православному праздникуЧто можно и нельзя делать на Страстной неделе и как встретить Пасху
Read more »

На патогенном уровне: бороться с вирусами будут с помощью редактирования геномаНа патогенном уровне: бороться с вирусами будут с помощью редактирования геномаМожно ли на основе новой технологии создать универсальное лекарство против возбудителей инфекций
Read more »

Языковые нацисты. На Украине готовятся запретить русский язык на ТВЯзыковые нацисты. На Украине готовятся запретить русский язык на ТВПо-русски можно будет говорить лишь в 10% эфира.
Read more »

Матвиенко оценила антироссийские заявления спикера Нацсобрания АрменииМатвиенко оценила антироссийские заявления спикера Нацсобрания АрменииСпикер Совфеда предложила запросить позицию парламента Армении после слов его спикера о кризисе на Украине.
Read more »

Москва продолжит внедрение сервисов ИИ в медицинскую практику — СобянинМосква продолжит внедрение сервисов ИИ в медицинскую практику — СобянинНа данный момент с помощью сервисов ИИ обработано более 12 миллионов исследований.
Read more »

Нейросеть в рукаве: как цифровизация затронула сферу девелопментаНейросеть в рукаве: как цифровизация затронула сферу девелопментаВ России интерес к ИИ-технологиям на стройке растет в сдержанном темпе
Read more »



Render Time: 2025-02-25 08:24:01