технологии

Актриса записала голос для обучения ИИ банка, а им озвучили порно. Как такое возможно?

Во всем мире пока никак не регулируют использование биометрических данных, синтезированных нейросетями. От этого страдают как актеры, так и простые люди

Алена Андронова

Российская актриса озвучки Алена Андронова столкнулась с тем, что ее голос с помощью нейросетей использовали для озвучивания роликов порнографического содержания. Изначально она подписала договор на запись голоса с банком «Тинькофф», но позднее обнаружила, что ее голос может синтезировать любой желающий. Как такое возможно и регулируется ли это законом — в нашем разборе.

Можно поподробнее, что произошло?

История началась еще в 2019 году. Тогда Алена Андронова нашла в одном из профессиональных сообществ объявление о кастинге для женских голосов на крупный проект. Она отправила демозапись, прошла кастинг и в итоге получила работу. Тогда же она впервые узнала, что вакансию опубликовал «Тинькофф Банк» — из-за требований NDA (договора о неразглашении) такое можно встретить довольно часто.

Договор выглядел как стандартный документ для записи или озвучки, и только на первой встрече актриса узнала, что голос нужен для создания нейросети. Представитель банка сказал, что записи будут использовать для обучения голосового помощника Олега и замены колл-центра.

В разговоре с «Постньюс» Андронова отметила, что про публикацию ее голоса в открытом доступе «ни речи, ни даже намека не было».

«Наоборот, нас уверяли, что подобное невозможно», — добавила актриса.

Спустя несколько лет друзья прислали Алене запись экрана с порнорекламой, озвученной ее синтезированным голосом. Позднее актриса выяснила, что ее голос опубликовали на сайте системы синтеза и распознавания речи Tinkoff VoiceKit, и каждый желающий может синтезировать любую фразу с одной из предложенных интонаций, включая «Флирт», по цене 820 руб. за миллион знаков.

А что все-таки было в договоре?

По словам Андроновой, заключенный договор был составлен по стандартной форме: исполнитель обязуется создать контент и передать его заказчику, а также разрешает его обработку третьим лицам. Актриса отмечает, что в договоре с банком не упоминались нейросети и синтезирование речи.

Это был 2019-й год. Никакой пандемии, только-только внедряются первые голосовые помощники — Алиса и Олег. Никто нигде не может синтезировать голоса, и о массовом синтезе вообще речи не идет.

一 Алена Андронова, актриса озвучки

Пресс-служба «Тинькофф» на запрос «Постньюс» не ответила, но представители банка написали комментарий под исходным постом Алены. В нем они заявили, что ее информация не соответствует действительности.

Наш договор прямо предусматривал ваше согласие на использование и переработку записей третьими лицами. Таким образом, банк вправе использовать записи голоса любыми способами, в том числе для обучения нейросетей.

一 Пресс-служба «Тинькофф»

В банке отметили, что синтезированные аудио на основе голосов дикторов используются в технологии Tinkoff VoiceKit. На их базе пользователи сервиса могут распознавать речь и создавать голосовых роботов, чтобы использовать их для автоматизации колл-центров или создания голосовых ассистентов. При этом в банке признали, что в 2022 году некоторые пользователи «попытались использовать сервис недобросовестно», но банк их заблокировал.

Насколько это законная практика?

В законодательстве нет статей, регулирующих использование синтезированных аудиодорожек или изображений, поэтому доказать свою правоту в таких вопросах крайне сложно.

Эксперт по кибербезопасности Роман Панин в разговоре с «Постньюс» отметил, что защититься от синтезирования своего голоса сегодня невозможно. По его словам, нейросетям достаточно всего пары сэмплов голоса, чтобы сгенерировать что угодно.

Юрист Тамара Богданова, с которой пообщалась Алена Андропова, придерживается более оптимистичной точки зрения. Она напомнила, что голос — это нематериальное благо, которое принадлежит каждому человеку с рождения. Это часть его личной биометрии, как отпечаток пальца или рисунок глаза.

Что относится к нематериальным благам?

Согласно ст. 150 Гражданского кодекса РФ, это: жизнь и здоровье, достоинство личности, личная неприкосновенность, честь и доброе имя, деловая репутация, неприкосновенность частной жизни, неприкосновенность жилища, личная и семейная тайна, свобода передвижения, свобода выбора места пребывания и жительства, имя гражданина, авторство, иные нематериальные блага, принадлежащие гражданину от рождения или в силу закона, неотчуждаемы и непередаваемы иным способом.

Андронова высказала опасение, что из-за отсутствия внятного регулирования каждый заказчик может воспользоваться договором хоть 20-летней давности и использовать синтезированный голос исполнителя без согласования с ним.

Что теперь собирается делать актриса?

Андронова рассказала, что «Тинькофф Банк» связался с ней и предложил компенсацию «примерно в стоимость месяца-двух работы» за то, чтобы актриса полностью отказалась от претензий. Она не согласилась и подала иск, который был зарегистрирован 30 августа текущего года. Пока на сайте Савеловского суда нет материалов дела, но Андронова рассказала «Постньюс», какие требования выдвинула к банку «Тинькофф».

Банк должен разместить на официальном сайте информацию о том, что создал технологию синтеза голоса с использованием ее записи, в результате чего нарушил право на неприкосновенность исполнения, а на сторонних сайтах появились записи голоса в рекламе сексуально-эротического содержания.
«Тинькофф Банк» обязан предпринять все необходимые действия к удалению синтезов голоса актрисы со всех сторонних сайтов, на которых он используется, а также прекратить использование записи ее голоса в технологиях синтеза, доступных для любых третьих лиц.
Андронова требует взыскать с банка 5,96 млн руб., включая убытки в размере 960 тыс. руб. и компенсацию морального вреда в размере 5 млн руб., а также расходы на оказание юридических услуг.

Актриса отметила, что на сегодняшний день даже в мировой практике нет позитивного опыта решения подобных дел, но она все равно надеется на положительный исход.

Мой юрист считает, что произошедшее полностью противоречит закону о биометрических данных, что банк публично выкладывал не только возможность озвучить любой текст, но и именно мою узнаваемую биометрию.

一 Алена Андронова, актриса озвучки

Кроме того, 30 августа Андронова вместе с Союзом дикторов России запустила петицию, в которой предложила внести ряд изменений в текущее законодательство. На сегодняшний день она уже собрала более 6 тыс. голосов.

В петиции авторы указывают, что голос по всем признакам ст. 150 ГК РФ является нематериальным благом человека, которые защищаются ст. 151 и 152 ГК РФ. При этом прямого упоминания голоса в перечне нематериальных благ в законе на сегодняшний день нет.

Кроме того, авторы предлагают создать специальный отдел при Роскомнадзоре, который будет заниматься вопросами создания, функционирования и использования нейросетей и синтезов, а также рассматривать жалобы. Также они предлагают ввести обязательную маркировку для всех материалов, которые были созданы с использованием синтеза.

Это правда такое распространенное явление?

Да, и учитывая высокий уровень мошенничества в России, еще и довольно опасный. Еще в июле эксперты предупредили россиян, что в уже известной схеме «ваш родственник попал в ДТП» теперь начали использовать нейросеть. Если раньше родственникам звонили посторонние люди и требовали деньги на урегулирование конфликта, то теперь с ними разговаривают уже якобы сами пострадавшие, что выглядит гораздо убедительнее.

В середине августа жительница Екатеринбурга рассказала о том, как сама стала жертвой мошенников. Ее знакомая прислала ей ссылку на пост в Telegram с просьбой проголосовать за нее. После этого потерпевшей начали поступать звонки с неизвестных номеров других регионов, а доступ к своему Telegram-аккаунту она потеряла.

Пока она его восстанавливала, всем ее друзьям прислали одинаковые сообщения с просьбой занять денег до зарплаты. Следом им отправили голосовое сообщение с синтезированным голосом девушки для большей убедительности. Причем сама потерпевшая признала, что голос был очень похож на ее настоящий.

Нейросети сегодня могут воссоздать любой голос, причем как живых, так и мертвых. Самый яркий случай — синтезированный голос Егора Летова, который исполнил песню МакSим «Знаешь ли ты». Пользователи в комментариях отметили, что нейросеть с поразительной точностью смогла передать манеру и интонации Летова.

Такое происходит только в России?

Нет, эта проблема касается всего мира. Так, в Америке с середины июля проходит совместная забастовка актеров Голливуда и представителей телевидения. Они требуют ограничить использование искусственного интеллекта и нейросетей в кинопроизводстве.

Голливудские студии хотят, чтобы актеры за разовую плату могли сканировать свою внешность, а кинокомпании в свою очередь получали бы бессрочное право на использование этого образа в любом проекте без уведомления и согласия актера. Всего в забастовке принимают участие более 160 тыс. актеров. Они отказываются от съемок в фильмах и рекламных кампаниях и бойкотируют премьеры уже вышедших картин.

Похожий скандал произошел в компании Apple. Дикторы, которые занимались озвучиванием аудиокниг для сервиса Spotify, столкнулись с тем, что корпорация использовала их голоса для обучения собственного ИИ. По итогу калифорнийская компания в январе 2023 года выпустила сразу несколько книг на платформе Apple Books, которые были полностью озвучены синтезированными голосами.

Причем в договоре, как выяснилось, есть пункт о том, что Apple может использовать голоса для обучения ИИ. Но он появился не сразу, и авторы озвучки указывают, что никто не знает, когда именно его добавили.

Анастасия Мельник

Подписывайтесь на нас в Telegramперейти