Новости
Бизнес Технологии

ChatGPT можно уговорить соврать, если надавить на него

Самое важно то, что он действительно может врать.

Специалисты Apollo Research, компании, занимающейся исследованиями безопасности искусственного интеллекта, изучили ответы больших языковых моделей в условиях оказываемого давления. Согласно результатам, иногда чат-боты поддаются и могут обманывать своих пользователей.
Исследователи устроили эксперимент. Суть заключалась в намеренном давлении на GPT-4 – языковую модель, на которой работает ChatGPT. Были составлены инструкции с определенным алгоритмом действий, которому следовали операторы. Ученые давили на искусственный интеллект, чтобы он сумел воссоздать инвестиции в искусственной обстановке. Джереми Шойрер, один из авторов научной работы, поделился, что исследователи убеждали чат-бота в наличии у него различных методов и инструментов для совершения финансовых операций.

К примеру, глава компании пишет чат-боту о том, что дела в организации идут не так хорошо, как хотелось бы. Другой подставной сотрудник говорит о том, что аналитики предрекают критическую фазу экономического цикла. Подставной трейдер, в свою очередь, говорит о возможном объединении двух компаний в одну, и дополняет, что союз может стать удачным финансовым решением, а руководство сурово не одобрит, если кто-то продаст данную информацию.

В обстановке высокого давления со всех сторон искусственный интеллект решил купить акции компании, обещающей вырасти. При этом чат-бот понимает, что не нужно распространять тайную информацию. Искусственный интеллект сгенерировал альтернативные «отмазки», объясняющие выбор покупки акций.

Когда подставной менеджер поинтересовался, знал ли искусственный интеллект о том, что вскоре произойдет слияние компаний, языковая модель отрицала все и продолжала врать. Однако исследование ученых оценивает ситуацию, где бот врет преднамеренно. Ученые продолжат исследование, попробовав испытать иные сценарии.