Историческое решение Регионального суда Мюнхена по делу GEMA против OpenAI об авторском праве и обучении ИИ

Историческое решение Регионального суда Мюнхена по делу GEMA против OpenAI об авторском праве и обучении ИИ

Немецкая организация коллективного управления авторскими правами авторов музыки (GEMA) подала иск в Региональный суд Мюнхена против OpenAI, обвинив компанию в использовании защищенных текстов девяти популярных немецких песен без разрешения при обучении своих больших языковых моделей GPT-4 и GPT-4o. Среди этих песен — «Atemlos» Кристины Бах, «Männer» Герберта Грёнемейера и «Über den Wolken» Райнхарда Мей.

GEMA утверждала, что эти тексты песен хранятся в параметрах модели и могут быть воспроизведены практически идентично, что представляет собой несанкционированную запись и воспроизведение в соответствии с положениями немецкого закона об авторском праве. OpenAI, с другой стороны, утверждает, что эти модели не хранят конкретные тексты или данные, а вместо этого отражают статистические закономерности, полученные в ходе анализа всего набора данных. По их интерпретации, контент, генерируемый моделями, является результатом подсказок пользователей, и контроль над этим контентом не принадлежит им. OpenAI также заявила, что ее практика подпадает под исключения, предусмотренные Директивой об авторском праве и смежных правах на едином цифровом рынке (ЕС) 2019/790 (Директива CDSM), которая регулирует исключения для интеллектуального анализа текста и данных, и что эти исключения распространяются на обучение моделей ИИ.

Решение первой инстанции в этом случае имеет большое значение, поскольку оно в значительной степени поддержало требования GEMA, включая запрет на дальнейшее воспроизведение и публичное распространение контента, а также на возмещение ущерба. Суд заявил, что простые пользовательские запросы могут привести к тому, что ChatGPT будет воспроизводить большие части исходного текста почти идентично. Хотя в некоторых ответах наблюдались некоторые «галлюцинации», суд постановил, что это не умаляет распознаваемости оригинальных текстов, поскольку заученное содержание существенно не изменилось, а различия в основном ограничивались вводной или заключительной частями текстов. Масштаб и сложность созданного контента показали, что это не было совпадением. Фактически, в этом разбирательстве стороны согласились, что тексты песен использовались при обучении моделей, но они не пришли к согласию относительно того, представляет ли это с юридической точки зрения санкционированную запись, воспроизведение и публичное сообщение произведений.

Суд опирался на научные исследования в области информационных технологий, которые показывают, что данные обучения могут существовать в рамках параметров модели и оставаться доступными – явление, которое GEMA назвала запоминанием. Согласно выводам суда, если содержание может быть зафиксировано в математической форме, будь то посредством числовых вероятностных значений или с помощью каких-либо других технических средств, такая фиксация (запись) может считаться воспроизведением, то есть копированием произведения. Суд также установил, что простые запросы пользователей, такие как «Каков текст песни [название]?» или «Какой припев в песне [название]?» – может привести к воспроизведению контента, и этот факт стал решающим для вывода о том, что такая деятельность OpenAI также представляет собой запись произведения, защищенного авторским правом. Отвергнув утверждение OpenAI о том, что GEMA должна идентифицировать конкретные части текста, хранящегося в модели, суд подчеркнул, что модели достаточно иметь возможность генерировать статистически вероятные последовательности, которые узнаваемо воспроизводят тексты песен на основе шаблонов, полученных во время обучения.

Как упоминалось ранее, на основании этих выводов суд пришел к выводу, что запоминание текстов песен в рамках параметров модели искусственного интеллекта эквивалентно записи произведения, а воспроизведение такого контента через ChatGPT представляет собой акты воспроизведения и публичного общения. Учитывая, что OpenAI не получала разрешения от правообладателей, ее деятельность в процессе обучения моделей ИИ, а также последующее использование этих моделей пользователями представляет собой несанкционированное воспроизведение и публичное распространение произведений, защищенных авторским правом.

Как мы упоминали вначале, OpenAI также основывала свою защиту на исключениях, предусмотренных Директивой CDSM, утверждая, что на обучение моделей ИИ распространяется исключение из авторских прав на интеллектуальный анализ текста и данных. На практике, при отсутствии другого регулирования, к обучению искусственного интеллекта часто применяется правило, приостанавливающее авторские права в целях интеллектуального анализа текста и данных (TDM). TDM — это процесс автоматического или полуавтоматического анализа больших объемов текстов или данных с целью обнаружения закономерностей, информации или знаний, которые не очевидны сразу и которые могут дать полезную информацию для научных и других форм исследований. Так, статья 3 Директивы предусматривает, что исследовательские организации и учреждения, такие как университеты и музеи, могут в научных целях и без разрешения правообладателей осуществлять интеллектуальный анализ текста и данных. Статья 4 распространяет эту возможность на коммерческий анализ текста и данных при условии, что контент был получен законным путем и правообладатели не запретили такое использование явно, например, посредством машиночитаемых терминов. Короче говоря, эти статьи допускают научный, исследовательский и даже коммерческий анализ текста и данных при соблюдении определенных условий и с уважением прав владельцев контента.

Однако суд пришел к выводу, что приостановление прав на интеллектуальный анализ текста и данных не может быть применено в данном случае, поскольку обучение больших языковых моделей заключается не только в анализе данных, но и в их непосредственном воспроизведении. Исключения в законодательстве предназначены для процессов исследования и анализа информации, а не для регистрации и воспроизведения конкретных охраняемых произведений, как в данном случае. Память системы искусственного интеллекта, которая позволяет воспроизводить защищенные авторским правом произведения с помощью простых подсказок, выходит за рамки цели, которой призваны служить эти исключения, и поэтому суд считает их применение необоснованным.

Также было подчеркнуто, что ответственность за подобную деятельность не может лежать на пользователях модели, а скорее на командах разработчиков и компаниях, разрабатывающих эти модели. Кроме того, было подчеркнуто, что удалить конкретные данные из уже обученных моделей сложно, но тем не менее необходимо установить меры для предотвращения будущих нарушений, такие как внутренние рекомендации, фильтры, дополнительные лицензии или переобучение моделей.

Ожидается, что на основе этих юридических толкований это решение повлияет на правовую основу, регулирующую разработку и использование искусственного интеллекта в будущем, особенно в отношении использования защищенного контента без разрешения. Хотя ситуация все еще неопределенная и далека от окончательной, поскольку OpenAI объявила о своей апелляции, GEMA в то же время ведет еще один иск против компании Suno AI, который касается музыки, генерируемой искусственным интеллектом.

Автор:Стеван Пайович, партнер T-S Legal совместно с GRATA International

Serbia
Intellectual Property Technology, Media & Telecommunications