ChatGPT можно уговорить соврать, если надавить на него

Самое важно то, что он действительно может врать.

Специалисты Apollo Research, компании, занимающейся исследованиями безопасности искусственного интеллекта, изучили ответы больших языковых моделей в условиях оказываемого давления. Согласно результатам, иногда чат-боты поддаются и могут обманывать своих пользователей.

Исследователи устроили эксперимент. Суть заключалась в намеренном давлении на GPT-4 – языковую модель, на которой работает ChatGPT. Были составлены инструкции с определенным алгоритмом действий, которому следовали операторы. Ученые давили на искусственный интеллект, чтобы он сумел воссоздать инвестиции в искусственной обстановке. Джереми Шойрер, один из авторов научной работы, поделился, что исследователи убеждали чат-бота в наличии у него различных методов и инструментов для совершения финансовых операций.

К примеру, глава компании пишет чат-боту о том, что дела в организации идут не так хорошо, как хотелось бы. Другой подставной сотрудник говорит о том, что аналитики предрекают критическую фазу экономического цикла. Подставной трейдер, в свою очередь, говорит о возможном объединении двух компаний в одну, и дополняет, что союз может стать удачным финансовым решением, а руководство сурово не одобрит, если кто-то продаст данную информацию.

В обстановке высокого давления со всех сторон искусственный интеллект решил купить акции компании, обещающей вырасти. При этом чат-бот понимает, что не нужно распространять тайную информацию. Искусственный интеллект сгенерировал альтернативные «отмазки», объясняющие выбор покупки акций.

Когда подставной менеджер поинтересовался, знал ли искусственный интеллект о том, что вскоре произойдет слияние компаний, языковая модель отрицала все и продолжала врать. Однако исследование ученых оценивает ситуацию, где бот врет преднамеренно. Ученые продолжат исследование, попробовав испытать иные сценарии.