технологии

Летающие акулы и детализированные мамонты: на что способна нейросеть Sora и стоит ли ее опасаться

Продукт компании OpenAI способен создавать красочный реалистичный видеоконтент лишь по текстовому описанию

OpenAI/YouTube

Недавно компания OpenAI (создала ChatGPT и DALL-E) представила новую нейросеть Sora, способную генерировать невероятные по своей реалистичности видео по текстовому запросу. Эксперты считают, что Sora может изменить подход к созданию контента, в то время как пользователи опасаются новой волны дипфейков и попадания технологии в руки злоумышленников. Что известно о нейросети, каковы ее возможности и можно ли обычным людям ей воспользоваться? Разбираемся.

Что такое Sora?

Sora («небо» в переводе с японского) — это генеративная модель, способная создавать видео по текстовому описанию. Нейросеть объединила в себе технологию GPT и диффузную модель (как раз генерирует видео), которая преобразует статический шум в изображение, постепенно убирая первое. В пресс-релизе компании OpenAI говорится, что «Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона».

При этом модель искусственного интеллекта понимает не только то, что указывает пользователь в запросе, но и знает, как те или иные объекты существуют в реальном мире. Кроме того, Sora обладает глубоким пониманием языка — это позволяет нейросети точно визуализировать текстовую информацию и генерировать реалистичных эмоциональных персонажей и крайне детализированный фон.

Вот, например, что сделала нейросеть по запросу: «Несколько гигантских мамонтов приближаются, идя по снегу. Их длинный мех слегка развевается. Заснеженные деревья и горы вдалеке, полуденный свет с облаками и солнцем создают теплое свечение. Камера с низким обзором показывает пушистое млекопитающее».

OpenAI/YouTube

Сложно поверить, что это не длительная работа команды специалистов по компьютерной графике: все это сделала нейросеть лишь по текстовому описанию. При этом Sora умеет работать и с людьми. Вот как нейросеть видит заснеженный Токио с гуляющими горожанами.

OpenAI/YouTube

А это крупный план 60-летнего мужчины с седыми волосами, который «сидит в кафе в Париже и размышляет об истории Вселенной».

OpenAI/YouTube

Sora отлично справляется и с анимацией. Нейросеть попросили сгенерировать пушистого монстра, стоящего на коленях рядом с тающей красной свечой. Выглядит так, будто это кадр из нового мультфильма Pixar.

OpenAI/YouTube

Хотите знать, как выглядела бы чашка Петри с растущим бамбуковым лесом, по которому бегали бы маленькие красные панды? Пожалуйста.

OpenAI/YouTube

Видео длиною в минуту получаются действительно качественными, однако бывают и исключения. Например, вот тут у кота неожиданно вылезает третья лапа.

OpenAI/YouTube

А здесь пластиковый стул зависает в воздухе, не обращая внимания на гравитацию.

OpenAI/YouTube

В OpenAI признают, что пока системе не всегда удается найти причинно-следственную связь, четко смоделировать физику в сценах и определить твердость или мягкость объекта.

В чем плюсы и минусы нейросети Sora?

В будущем Sora сможет не только генерировать летающих китов в мегаполисе ради забавы, но и влиять на определенные сферы деятельности (это уже доказал ChatGPT от OpenAI, который активно изучают и интегрируют в работу по всему миру). Вероятно, искусственный интеллект расширит возможности создания видеоконтента. Эксперты считают, что Sora будет полезна в разработке креативов и показа референсов клиентам. Быстро сгенерированный ролик выйдет менее качественным, чем продуманная анимация, зато будет стоить в разы дешевле (а то и вовсе бесплатно). Это облегчит работу маленьким компаниям.

Впрочем, некоторые аналитики видят риски в развитии Sora. В частности, речь идет о «неправомерном использовании образов и вопросах авторского права» — на данный момент сложно доказать, кому принадлежит созданный нейросетью контент. Эти и другие этические проблемы, по мнению экспертов, должно будет регулировать законодательство. Что касается потенциальной потери рабочих мест — это постоянная тема обсуждений среди противников технических инноваций — эксперты полагают, что Sora не заменит контент-мейкеров и креативщиков, а будет им помогать. По крайней мере на данном этапе ролик, сделанный нейросетью, созданный нейросетью, уступает по качеству работе полноценного продакшена.

Западные журналисты обращают внимание на то, что технология может попасть в руки злоумышленников и породить колоссальное количество дезинформации. По их мнению, у OpenAI появятся недобросовестные подражатели, чье развитие будет крайне тяжело контролировать. Тем временем сам OpenAI разрабатывает инструменты для выявления вредоносного, предвзятого, вводящего в заблуждение или фейкового контента. Правда, это никоим образом не гарантирует, что у аналогов будут схожие защитные механизмы.

Как пользоваться Sora?

Пока никак. Сейчас доступ к нейросети есть только у разработчиков и некоторых специалистов из разных сфер — например, режиссеров и дизайнеров. Впоследствии представители компании собираются привлечь преподавателей, художников и даже политиков, чтобы совместно решить, как без вреда для общества использовать технологию. Когда Sora появится в общем доступе, неизвестно.

Сейчас кажется, что Sora открывает окно в будущее, где границ между воображением и реальностью практически нет. Так это или нет, OpenAI на шаг впереди относительно своих конкурентов: около месяца назад Google представил свой алгоритм по генерации видеоконтента из текста, правда, он может делать ролики лишь продолжительностью до пяти секунд. Что ж, ждем официального релиза Sora.

Подписывайтесь на нас в Telegramперейти