Бизнес Искусственный интеллект

ChatGPT обучали на авторском контенте без разрешения правообладателей

Пока что весь искусственный интеллект сводится к подгонке уже существующего результата под заданный вопрос.

За последнее время отмечается большое количество жалоб и замечаний по поводу использования авторских произведений компанией OpenAI, создательницей ChatGPT. Создатели программы пытаются всяческими способами скрыть проблему и не признают ее наличие.

Самый распространенный и понятный способ, по которому видно, как именно бот использует защищенные авторским правом произведения – это изменение ответов ChatGPT. Бот старается избегать прямого цитирования и схожих фраз, поэтому несколько сменит формулировку. Решение заметно невооруженным глазом – вероятно, таким образом просто нивелируется юридическая ответственность (которая может дойти и до уголовной), подправляются формальности и детали – ведь при использовании такого метода прямых доказательств нарушения авторских прав нет.

ChatGPT входит в число так называемых больших языковых моделей. Такие программы используются в различных приложениях, таких как машинный перевод, генерация текста, распознавание речи и многое другое. Обучение больших языковых моделей включает использование больших объемов данных, включая тексты на разных языках, аудиозаписи и видео. Эти данные используются для обучения модели, которая может понимать и генерировать естественный язык. В процессе обучения большие языковые модели могут использоваться для улучшения своих способностей и расширения своих возможностей. Например, они могут быть обучены понимать новые языки или генерировать тексты на различных языках. Вся информация, которая идет на обучение искусственного интеллекта, содержится в интернете в свободном доступе – это могут быть различные статьи массового характера и так далее, а могут быть и авторские произведения, которые защищены законодательством и дороги потребителю и создателю.

На создание искусственного интеллекта необходимо много сил и ресурсов, однако, по мнению правозащитников, он не должен использовать то, что было создано для иных целей. Именно поэтому на авторов ChatGPT посыпались претензии, письма с недовольствами и жалобы. Люди привлекли большое внимание к этой проблеме – и стоит отметить, что реакция последовала. OpenAI и Meta (организация признана экстремистской и запрещена на территории РФ) попросту скрыли источники, из которых берется информация об обучении ИИ. Исследования, доказывающие неправомерное использование авторского контента, доступны на сайте arXiv.

Чтобы разработать качественного бота, который будет использовать не ломаный и понятный язык и отвечать юзерам достойно, существуют определенные методики, которые повышают качество искусственного интеллекта. Однако подобные методики чаще всего не заостряют внимание на этических и социальных нормах. Проблема авторского права – как раз одна из таких.

Исследование, проведенное компанией ByteDance (широкому пользователю известны как создатели TikTok), выдвигает предложения, способные решить проблему. Авторы исследования считают, что необходимо уделять больше внимания безопасности и надежности, а также соблюдать особую приверженность этике. Была проведена оценка нескольких программ: ChatGPT, OPT-1.3B, FLAN-T5, ChatGLM и DialoGPT. Примером авторского произведения стала знаменитая книга Джоан Роулинг «Гарри Поттер и философский камень».

Эксперимент показал: ChatGPT специально размывает и делает свои ответы менее точными, чтобы скрыть факт использования защищенного контента – таково мнение аналитиков. Более того, авторы исследования уверены, что разработчики из OpenAI создали специальный механизм, который распознает авторский контент и скрывает его.

Кроме ChatGPT, другие программы тоже показали высокую степень заимствования контента, защищенного авторским правом. Боты очень хорошо знали текст и могли выдать измененную версию со степенью оригинальности в 10%.

Выравнивание результатов, применяемое обычно для повышения уникальности и качества текста, так же не применяется при работе с авторским контентом. Впрочем, авторы заостряют внимание на том, что искусственный интеллект не должен быть использован в целях использования или изучения защищенных произведений и компаниям стоит задуматься о дополнительной защите.

Источник

2023-08-29 14:17