Летающие акулы и детализированные мамонты: на что способна нейросеть Sora и стоит ли ее опасаться
Недавно компания OpenAI (создала ChatGPT и DALL-E) представила новую нейросеть Sora, способную генерировать невероятные по своей реалистичности видео по текстовому запросу. Эксперты считают, что Sora может изменить подход к созданию контента, в то время как пользователи опасаются новой волны дипфейков и попадания технологии в руки злоумышленников. Что известно о нейросети, каковы ее возможности и можно ли обычным людям ей воспользоваться? Разбираемся.
Что такое Sora?
Sora («небо» в переводе с японского) — это генеративная модель, способная создавать видео по текстовому описанию. Нейросеть объединила в себе технологию GPT и диффузную модель (как раз генерирует видео), которая преобразует статический шум в изображение, постепенно убирая первое. В пресс-релизе компании OpenAI говорится, что «Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона».
При этом модель искусственного интеллекта понимает не только то, что указывает пользователь в запросе, но и знает, как те или иные объекты существуют в реальном мире. Кроме того, Sora обладает глубоким пониманием языка — это позволяет нейросети точно визуализировать текстовую информацию и генерировать реалистичных эмоциональных персонажей и крайне детализированный фон.
Вот, например, что сделала нейросеть по запросу: «Несколько гигантских мамонтов приближаются, идя по снегу. Их длинный мех слегка развевается. Заснеженные деревья и горы вдалеке, полуденный свет с облаками и солнцем создают теплое свечение. Камера с низким обзором показывает пушистое млекопитающее».
Сложно поверить, что это не длительная работа команды специалистов по компьютерной графике: все это сделала нейросеть лишь по текстовому описанию. При этом Sora умеет работать и с людьми. Вот как нейросеть видит заснеженный Токио с гуляющими горожанами.
А это крупный план 60-летнего мужчины с седыми волосами, который «сидит в кафе в Париже и размышляет об истории Вселенной».
Sora отлично справляется и с анимацией. Нейросеть попросили сгенерировать пушистого монстра, стоящего на коленях рядом с тающей красной свечой. Выглядит так, будто это кадр из нового мультфильма Pixar.
Хотите знать, как выглядела бы чашка Петри с растущим бамбуковым лесом, по которому бегали бы маленькие красные панды? Пожалуйста.
Видео длиною в минуту получаются действительно качественными, однако бывают и исключения. Например, вот тут у кота неожиданно вылезает третья лапа.
А здесь пластиковый стул зависает в воздухе, не обращая внимания на гравитацию.
В OpenAI признают, что пока системе не всегда удается найти причинно-следственную связь, четко смоделировать физику в сценах и определить твердость или мягкость объекта.
В чем плюсы и минусы нейросети Sora?
В будущем Sora сможет не только генерировать летающих китов в мегаполисе ради забавы, но и влиять на определенные сферы деятельности (это уже доказал ChatGPT от OpenAI, который активно изучают и интегрируют в работу по всему миру). Вероятно, искусственный интеллект расширит возможности создания видеоконтента. Эксперты считают, что Sora будет полезна в разработке креативов и показа референсов клиентам. Быстро сгенерированный ролик выйдет менее качественным, чем продуманная анимация, зато будет стоить в разы дешевле (а то и вовсе бесплатно). Это облегчит работу маленьким компаниям.
Впрочем, некоторые аналитики видят риски в развитии Sora. В частности, речь идет о «неправомерном использовании образов и вопросах авторского права» — на данный момент сложно доказать, кому принадлежит созданный нейросетью контент. Эти и другие этические проблемы, по мнению экспертов, должно будет регулировать законодательство. Что касается потенциальной потери рабочих мест — это постоянная тема обсуждений среди противников технических инноваций — эксперты полагают, что Sora не заменит контент-мейкеров и креативщиков, а будет им помогать. По крайней мере на данном этапе ролик, сделанный нейросетью, созданный нейросетью, уступает по качеству работе полноценного продакшена.
Западные журналисты обращают внимание на то, что технология может попасть в руки злоумышленников и породить колоссальное количество дезинформации. По их мнению, у OpenAI появятся недобросовестные подражатели, чье развитие будет крайне тяжело контролировать. Тем временем сам OpenAI разрабатывает инструменты для выявления вредоносного, предвзятого, вводящего в заблуждение или фейкового контента. Правда, это никоим образом не гарантирует, что у аналогов будут схожие защитные механизмы.
Как пользоваться Sora?
Пока никак. Сейчас доступ к нейросети есть только у разработчиков и некоторых специалистов из разных сфер — например, режиссеров и дизайнеров. Впоследствии представители компании собираются привлечь преподавателей, художников и даже политиков, чтобы совместно решить, как без вреда для общества использовать технологию. Когда Sora появится в общем доступе, неизвестно.
Сейчас кажется, что Sora открывает окно в будущее, где границ между воображением и реальностью практически нет. Так это или нет, OpenAI на шаг впереди относительно своих конкурентов: около месяца назад Google представил свой алгоритм по генерации видеоконтента из текста, правда, он может делать ролики лишь продолжительностью до пяти секунд. Что ж, ждем официального релиза Sora.