Экс‑разработчик Ubisoft представил открытый видеоредактор FreeCut, который работает в браузере и позволяет собирать сложные видео, улучшает их качество, накладывает эффекты и субтитры.
Проект умеет:
сокращать, урезать, соединять видосы, добавлять картинки, другие ролики, формы, текст;
добавлять анимацию, создать любую композицию и реализовать всевозможные идеи;
CSS‑эффекты, ключевые кадры, переходы, фильтры, коррекция цвета, перемещение камеры, 3D;
экспортировать во всех самых популярных форматах: MP4, MOV, WebM, MKV;
аудио принимает в форматах: MP3, AAC, WAV;
поддержку кодеков: H.264, H.265, VP8, VP9, ProRes;
ИИ для генерации видео Seedance 2.0 вышел 12 февраля и немедленно приковал к себе внимание высоким качеством работы. Продукт выпустила ByteDance Seed Team, то есть исследовательский отдел компании-владельца нейродегенеративного приложения TikTok.
На самом деле Seedance 2.0 — это такой типичный видеогенератор. Описывается он как единый мультимодальный аудио- и видео- архитектурный контур: модель на входе принимает текст, изображения, аудио и видео (причём пользователь может накидывать до 9 картинок, 3 видеофрагментов и 3 аудиоклипов как референсы), а на выходе выдаёт до 15 секунд ролика с синхронизированным звуком.
Что необычно, так это высокое качество контента на выходе и готовность модели игнорировать любые нормы копирайта и схожести с существующими людьми. По Сети разошлись видеоролики, где Том Круз дубасит Брэда Питта и вопрошает, зачем было убивать Джефри Эпштейна. От людей, хоть немного сведущих в ИИ, звучат умные слова «оверфитинг» и «меморизация», хотя скорее речь нужно вести про безбашенность китайцев и отсутствие политик безопасности.
Пока в Голливуде осуждают продукт или даже в судебном порядке требуют немедленно прекратить безобразие, пользователи раскуривают тему. Независимый режиссёр Чарльз Кёрран преобразовал в видеоформат известный мем про стратегическую бесполезность генеративного искусственного интеллекта.
Заметна не только высокая степень схожести внешности актёров и узнаваемость их голосов, но и свобода в отношении откровенного контента. Далеко не каждая модель искусственного интеллекта согласится работать с женской грудью такого нескромного калибра.
При этом даже в такой простой диалоговой сцене есть косяки генерации. К примеру, родинка на шее Натали Портман исчезает при монтажной склейке.
Представлен открытый глобальный дашборд World Monitor, который собирает новости, видео и события со всей планеты в одном интерфейсе. На интерактивной карте собрано больше 25 слоёв данных: конфликты, протесты, ЧП, перемещения техники, технособытия и прочие горячие новости. ИИ в реальном времени делает сводки, подсвечивает нестабильные регионы и показывает аномалии раньше новостных лент. Всё работает в реальном времени: видео с Bloomberg, Sky News, Al Jazeera и CNBC и данные со спутников объединяются, анализируются и визуализируются на карте.
Китайские стримеры молча стоят перед камерой — речь, интонации и даже мимику за них генерируют нейросети. Полностью заменить человека нельзя, так как платформы требуют присутствия реального человека в кадре. Если в эфире только виртуальный аватар, алгоритмы режут охваты или банят трансляцию.
xAI выпустила нейросетевую модель Grok Imagine 1.0 для генерации видео длиной до 10 секунд с поддержкой разрешения 720p. Релиз объединяет наработки предыдущего генератора изображений Aurora с новыми возможностями анимации. Разработчики отмечают, что нейросеть точнее следует текстовым промптам, создаёт более проработанные кадры и лучше справляется с плавностью движений по сравнению с предшественницей. В Grok Imagine 1.0 также доработали аудиосоставляющую: фоновая музыка теперь «идеально синхронизируется» со сценой, а эмоциональный спектр персонажей стал шире. Для доступа к максимальным настройкам качества и длительности пользователям потребуется оформить платную подписку.
Открытый проект 8mb.local — Self‑Hosted GPU Video Compressor умеет сжимать видео любых размеров в десятки раз. Нужный размер пользователь выбирает сам, а компрессор подстроится. По возможности сохраняет качество. Можно выбрать кодек, битрейт и даже обрезать видос во встроенном редакторе. Всё работает локально.
Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.
Тестируем нейросеть «Kandinsky» от Сбера. Повод для тестирования крайне подходящий – приближаются новогодние праздники, время поздравлять клиентов компании. Желательно с использованием какой-нибудь красивой анимации.
Приступим?
Ищем точку входа в нейросеть. Увы, с первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу.
С первой рекомендованной Яндексом ссылкой на домен kandinsky.ai небольшая незадача: домен выставлен на продажу
По счастью, один из советов Яндекса – GigaChat: он открывается с ПК и вполне функционален. Второй по счёту на стартовом экране GigaChat красуется кнопка «Создайте видео» – вот оно! Начнём.
Промпт: «Мне нужно короткое (10-15 секунд) зацикленное видео с фотореалистичным качеством – такое, чтобы последний кадр видео был идентичен первому кадру видео. Стоящий лицом к зрителю Дед Мороз с пышной белой бородой, в красном кафтане с меховыми белыми отворотами на рукавах, держит в широко расставленных руках крупную надпись на русском языке с текстом «[название компании] поздравляет вас с новым годом», инкрустированную по внутренней площади букв рубинами с широкой окантовкой из полированной, сияющей позолоты. Съёмочная камера сфокусирована на надписи в руках Деда Мороза, который стоит на размытом фоне уютной комнаты, освещённой тёплым светом ламп накаливания, в которой стоит нарядно украшенная ёлка с множеством переливающихся разноцветных огоньков и ярко поблёскивающих ёлочных игрушек. Улыбка у Деда Мороза то становится шире, то угасает, при этом Дед Мороз плавно наклоняет корпус своего тела то влево, то вправо и покачивает головой в такт наклонам».
Отправляем промпт и ждём.
Через несколько секунд получаем…нет-нет, что вы, не видео – а подробный, развёрнутый ответ нейросети Kandinsky – он стоит того, чтобы процитировать его хотя бы частично.
Шаги для реализации
1. Подготовка графики
Для начала подготовь ключевые кадры сцены:
Фон: Сделай фотографию уютной комнаты с ёлкой, праздничным оформлением и мягким теплым освещением.
Дед Мороз: Создай реалистичное изображение Деда Мороза с пушистой бородой и ярким красным кафтаном с белыми меховыми элементами. Его лицо и тело будут статичными, изменится лишь выражение лица и положение головы и корпуса.
Надпись: Нарисуй или найди готовое оформление текста с эффектом драгоценных камней внутри букв и золотой каймой. Изображение надписи сделай крупнее, чтобы оно было заметно и читаемо даже крупным планом.
2. Создание композиции
Используя программу типа Photoshop или Affinity Photo, собери композицию из фона, Деда Мороза и надписи. Важно разместить персонажа и предмет на переднем плане, чётко выделяя объекты на размытом заднем фоне...
И так далее.
Для тех, кто не понял, что произошло: вместо генерации видео нейросеть Kandinsky от Сбера отправила мне подробную инструкцию по самостоятельному созданию видео в 3D-графике.
Для сравнения: представьте себе, что вы просите таксиста довезти вас по нужному адресу, а он вам в ответ – «Да легко! Идёшь пару километров прямо, на перекрёстке поворачиваешь направо, снова прямо сто метров, за двухэтажным зданием налево, спускаешься в подземный переход...»
Только задумайтесь: вот эта текстовая инструкция, с точки зрения Сбера – это и есть функционал под названием «Создать видео».
Перефразируя Генри Форда: «мы поможем вам создать видео любого качества при условии, что вы сами его создадите». Ну так ведь для этого и нужны нейросети, разве не так?
Команда Google Magenta представила экспериментальное приложение Lyria Camera для создания ИИ‑музыки на основе изображения с камеры смартфона. Приложение анализирует видео с камеры и с помощью Gemini описывает сцену текстовыми музыкальными промптами, например, «спокойный городской пейзаж». Эти промпты используются для создания музыки в реальном времени. Приложение подстраивает музыку под кадр и движение в реальном времени. Проект Lyria RealTime создаёт музыку без слов и с частотой 48 Гц. Приложение Lyria RealTime доступно бесплатно в веб‑версии Google AI Studio с иностранных IP‑адресов.
Workflow Wan 2.2 GGUF Speed ComfyUI - генерация девушки-кота на Хэллоуин
Недавно столкнулся с ошибкой при запуске ComfyUI - конфликт версий библиотеки tokenizers. Ошибка выглядела так: ImportError: tokenizers>=0.22.0,<=0.23.0 is required for a normal functioning of this module, but found tokenizers==0.21.4....Рассказываю, как я её исправил без поломки окружения и рабочих workflow.
Описание контекста: У меня Portable-версия ComfyUI, встроенный Python (папка "python_embeded", папка "update", рабочие workflow и боязнь обновлять всё подряд)
Конфликт: ComfyUI или один из плагинов требует tokenizers >= 0.22.0, а установлена старая 0.21.4. Ранее я уже точечно менял wheels и версию torch для работы с Nunchaku.
Решение: Прямые команды, выполненные через PowerShell в папке ComfyUI: (Чтобы ввести команды - нужно находясь внутри папки ComfyUI нажать Shift + ПКМ на свободном месте в этой папке и выбрать "Открыть окно PowerShell здесь" и ввести нужные команды)
Как итог - видео с разрешением 364 на 640px, продолжительностью 5 секунд, сгенерировалось за 8,5 минуты на 8гб VRAM + 32гб RAM.
Почему важно не трогать "update_comfyui_and_python_dependencies.bat" ? Чтобы не нарушить совместимость всего окружения. В таких случаях не стоит паниковать - достаточно понимать, как работают зависимости Python и виртуальные окружения.
Если вы работаете с ComfyUI или подобными пакетами, умение диагностировать и чинить зависимости - ваш надёжный инструмент в арсенале.
Открытый проект AI Video Transcriber помогает транскрибировать видеоролики в сжатый и отлично написанный текст. Работает просто, вытаскивает текст из любых видео за секунды, а потом корректирует и делает подробное саммари. Решение поддерживает более 30 самых популярных площадок, в том числе YouTube, TikTok, Bilibili и прочие. Проект не просто вытаскивает текст из видео, но делает настоящее эссе: дополняет фразы и реплики, корректирует факты и мысли, редактирует текст и доводит до идеала. Основа — Fast Whisper (лучшая нейронка для транскрибации видео). Может смотреть видео и сразу же выдавать текстовые материалы и уточнения. Сегментирует видео на 20-минутные отрывки и делит их на разделы, чтобы проще было изучать материал.
Проект Мяу-камера с кормушками для кошек и тремя камерами в каждой локации является частью программы по контролю численности бездомных кошек в Китае, целью которой является как кормление, так и кастрация бездомных кошек. Корм в автоматические кормушки добавляют добровольцы.
Представлен полный курс по Sora 2 от OpenAI, включая официальный гайд по промптам и созданию сцен с помощью нейросети: аниме, документалки, интервью с любыми персонажами, настройка камеры, света и генерация осмысленных диалогов.
Чем короче промпты — тем больше свободы у нейронки. Так вы дадите ИИ творческую свободу. Пример: In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."
Настраиваем формат видео.
Format & Look: Duration 4s
180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.
Выставляем свет и создаём атмосферу:
Lighting & Atmosphere
Natural sunlight from camera left, low angle (07:30 AM).
Bounce: 4×4 ultrabounce silver from trackside.
Negative fill from opposite wall.
Practical: sodium platform lights on dim fade.
Atmos: gentle mist; train exhaust drift through light beam.
«Подбираем» камеру для съёмки. Увеличиваем или уменьшаем фокус, корректируем передний и задний планы:
Camera shot: wide shot, low angle
Depth of field: shallow (sharp on subject, blurred background)
Lighting + palette: warm backlight with soft rim
Ведём себя как настоящий режиссёр и контролируем, задаём игру актёров: Actor takes four steps to the window, pauses, and pulls the curtain in the final second.
[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.] Кинематография: Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз] Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание] Действия: - [Действие 1: чёткое, конкретное движение или жест] - [Действие 2: ещё один отдельный момент в клипе] - [Действие 3: другое действие или реплика] Диалоги: [Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]
С момента релиза Sora 2 прошло 4 дня. Это и модель генерации видео от OpenAI, и приложение – конкурент для TikTok. Разница лишь в том, что в Sora все клипы сгенерированы искусственным интеллектом.
На самом деле смотреть в Sora не на что. Такое впечатление возникло лично у меня, когда я вчера наконец-то сподобился попросить код инвайта у сетевых знакомых. Рекомендации Sora забиты максимально однотипными трендами: сначала кто-то придумывает удачный промпт с интересно выглядящим результатом, а потом остальные подхватывают идею и заменяют персонажей на других.
К примеру, кто-то нащупал промпт для генерации клипов с нательного полицейского видеорегистратора в ситуации, где коп тормознул необычного водителя. Теперь на место автонарушителя подставляют абсолютно любых персонажей: лабрадора, голубого пришельца или даже персонажа анимэ. Казалось бы, можно каждый раз описывать абсолютно разную ситуацию, но создатели либо нажимают на кнопку Remix, либо заменяют в промпте всего одно слово. И каждый раз там будут всё те же Пикачу и Сэм Альтман.
Но это не просто лень, часто этой повторяемости есть объективные причины. Механизмы безопасности в генерации отказывают часто, поэтому легче полагаться на уже исследованный сообществом репертуар. Границы дозволенного понятны: мёртвых можно, живых трогать нельзя. Сервис Sora 2 не будет генерировать Дональда Трампа или живых знаменитостей, но согласится вставить в видео Баха, Хокинга или Майкла Джексона.
А вот персонажей Sora 2 рисует почти любых. С одной стороны, некоторых из них чисто физически нельзя закопирайтить. Если попросить выступление Иисуса на TED, будет именно тот общий образ европеоидного богочеловека, который распространён в американской массовой культуре, а не попытки задуматься о реконструкции облика исторической личности из Передней Азии эпохи античности.
Но вообще-то границ авторских прав будто и не существует. Sora кишит 10-секундными клипами с покемонами, Спанч Бобом, Риком и Морти. Иногда бывают герои игрового кино, например Тони Монтана. Или случается, что тот же коп тормознул DMC Дока Брауна и Марти Макфлая.
Важно также, что модель отлично знает голоса. При генерации аудиодорожки Sora 2 может корректно воссоздать голос Боба Росса и даже знает, как звучит Хацунэ Мику. Обычный голос (не пение) Майкла Джексона звучит похоже на его мягкий и тонкий голосок, разительно отличающийся от сценического высокого тенора.
Кстати, в датасетах обучения модели явно не было артефактов советской культуры. Союзмультфильмовский Винни-Пух не будет говорить ускоренным на магнитофоне голосом Евгения Леонова. Sora 2 даже приблизительно не знает, как выглядит планета Плюк. Если он не умеет себя развлекать самостоятельно, россиянину в приложении Sora будет откровенно скучно.
Итак, этот праздник непослушания и тотального нарушения копирайта длится уже пятые сутки, но только сегодня Интернет внезапно спохватился. Как указал бывший инженер Twitch и ныне глава Ping.gg Тео Браун, правообладатели иногда умудряются удалять результаты сгенерированного на Sora 2. Хотя казалось бы — закопирайтить результаты труда ИИ невозможно.
Другие наблюдения откровенно пугают. DHuskyTron заметил, что один из результатов генерации в Sora 2 полностью совпадает с реальным кадром из «Рика и Морти».
Возможно, с Adult Swim были заключены особые соглашения, но это именно не перерисовка, это полная копия кадра.
Могу также отметить, что Sora 2 годится разве что для производства слопа, этого типичного смешного ИИ-шлака, который быстро наскучивает из-за своей однообразности. Сколько ни бейся над промптом, модель не может составить тысячелетний таймлапс Москвы; зато в Комсомол пилотов Евангелионов у меня без проблем взяли.
Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.
Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.
На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.
На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.
Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.
Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:
Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.
Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.
Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.
Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.
Ну и задувание свечей всё так же на реальность не походит.
Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.
(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.
OpenAI представила Sora 2 с синхронизированным аудио и системой персонализированных камео
OpenAI выпустила вторую версию модели генерации видео Sora с поддержкой высококачественного аудио и функцией Cameo для создания персонализированных аватаров. Модель доступна через новое iOS-приложение с социальными функциями для США и Канады.
Технические характеристики
Команда OpenAI позиционирует Sora 2 как "GPT-3.5 момент" для генеративного видео — переход от proof-of-concept к практически применимой технологии. Модель генерирует видео с разрешением 720p при 30 FPS длительностью 5-10 секунд.
Ключевые возможности:
Синхронизированная генерация видео и аудио
Улучшенная симуляция физических процессов
Поддержка мультисценарных инструкций
Различные визуальные стили от фотореализма до анимации
Система Cameo
Функция Cameo позволяет создавать персонализированные аватары на основе однократной записи голоса и внешности. Система переносит внешний вид и голос в любые сгенерированные сцены.
Контроль безопасности:
Только авторизованные пользователи могут использовать ваш камео
Полная видимость всех видео с вашим образом
Возможность отзыва доступа в любой момент
Усиленные ограничения для несовершеннолетних
Блокировка дипфейков публичных персон без согласия
Симуляция физики
Основной прорыв касается моделирования сложных физических процессов. Модель корректно обрабатывает гимнастические трюки, отскок баскетбольного мяча, плавучесть при акробатике. Ранние модели демонстрировали артефакты при движении объектов — Sora 2 показывает существенное улучшение.
iOS-приложение
Параллельно запущено iOS-приложение с функциями социальной сети для создания видео, ремикса контента и просмотра персонализированной ленты ИИ-видео.
Возможности:
Создание видео из текстовых промптов
Ремикс существующего контента
Персонализированная лента на основе взаимодействий
Рекомендации через языковые модели OpenAI
OpenAI заявляет, что не оптимизирует приложение для максимизации времени в ленте, а фокусируется на стимулировании создания контента.
Доступность и монетизация
Приложение запускается по инвайтам в США и Канаде. Изначально Sora 2 будет бесплатной с "щедрыми лимитами". Pro-версия на sora.com стоит $200/месяц и обеспечивает доступ к расширенным возможностям. API в разработке для корпоративных клиентов.
Сравнение с конкурентами
Позиционирование:
Google Veo 3 — 1080p, снижение цен на 50%
Runway Gen-3 — профессиональный видеопродакшн
Pika — эффекты и анимация
Sora 2 — социальный подход с персонализацией
Ограничения
Текущая версия ограничена разрешением 720p и длительностью 5-10 секунд. Качество симуляции физики улучшено, но может демонстрировать артефакты в сложных сценах с множественными взаимодействующими объектами.
Apple выпустила видео с режиссёром Дэнни Бойлом, который рассказал об особенностях съёмки фильма «28 лет спустя» на iPhone. Некоторые сцены фильма снимались одновременно сразу на 20 iPhone. Смартфоны по дуге были закреплены на специальной установке, которую несли несколько сотрудников съёмочной площадки.
Бойл пояснил, что использование iPhone дало «возможность работать в удалённых местах, очень быстро и легко, не оставляя заметного следа».
Apple выпустила тактильный трейлер фильма F1, улучшенный с помощью вибраций iPhone.
Если у вас iPhone под управлением iOS 18.4 или более поздней версии, на вкладке Apple TV Plus приложения TV теперь есть трейлер предстоящего фильма Брэда Питта F1, который теперь улучшен с помощью вибраций, создаваемых современным компонентом Taptic Engine в iPhone.
Пользователи могут не только почувствовать обороты двигателя болида F1, но и более тонкие события в трейлере, такие как щелчок ремня безопасности и нажатие кнопок на рулевом колесе.
Релизнулся бесплатный и без регистрации загрузчик видео с Youtube — Cliply, который может скачать любой ролик в высоком качестве, любые отрезки и клипы по нужным таймингам.