Web-Midjourney Alpha

Те, кто неистово генерят картинки в Midjourney начали получать доступ в Веб-интерфейс. Там не только генерилка, а будущая социальная сеть. И все эти адовые флаги в дискорде вынесены в рульки и педальки. А еще там есть Rooms для совместных генераций. ИИ оргии в общем.
Кто добрался до веб-версии, пишите свои ощущения в коменты. Сюда покидаю скринов (спасибо, Дима).

Интересно, что они упоролись по пальцам настолько, что иногда там проглядывают отпечатки пальцев на коже. Интересно их было бы их пошазамить пробить по базе. Вдруг найдется, наконец, этот ИИ-мерзавец, который заставляет нас постоянно выпивать за уходящие профессии.
Ну, за комиксы!
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Поначалу выглядит просто бомбоносно. Особенно видосики с медведём и тетенькой из Соры. Но если приглядеться, то количество пуговиц меняется, волосы перекрашиваются и всякатака мелочь вылезает.

Я уже побежал к большому бару, выпивать за аниматоров (медведь хорош), но остановился в маленькой рюмочной, чтобы накатить за комиксы. Ибо для комиксов вот эта вот консистентность уже вполне себе работает и можно генерить персонажей по референсам, которые будут сохранять похожесть. Поглядите примеры на сайте для комиксов, это круто. А с видео, как обычно, есть вопросы (и да, надо написать про VIDU).

Ну и как обычно бесит китайская непосредственность: не то, что кода или демо нет, нет даже статьи на архивчике. Есть просто сайтик с веселыми картинками. Ну и это команда Тиктокченко. От них кода не дождешься.
Смотрим примеры и ловим блох тут:
https://storydiffusion.github.io/
Думаем, как пристроить к раскадровкам.
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Улучшения в генераторе музыки Udio:

* Модель теперь может держать голове контекст 2 минут трека вместо 30 секунд ранее. А значит структурно композиции будут более консистентными и не терять нить на 3-ей минуте.

* Генерить можно до 15 минут, что подойдёт для прог-рока, эмбиента, гоа-транса, или даже подкастов.

* Чтобы не заблудиться ответвлениях, генерируемые варианты теперь сгруппированы в дерево: видно где дочерний трек, а где родительский.

* И наконец-то можно выделить конкретный кусок композиции, на основе которого нужно расширить трек, а ненужное вырезать.

Всем накинули 200 кредитов.

Погнали генерить музыку!
Подробнее про Udio
This media is not supported in your browser
VIEW IN TELEGRAM
Огненная анимация с помощью weight scheduling, ControlNet и IPAdapter

Неделю назад отложил себе вот такой убойный ролик от Matt3o на запостить, но мой ИИ не дремлет, вчера притащил мне ютюбчик, где рассказано, как такие штуки делать (новостная гугл лента хорошо надрессирована годами).

Я долго рассматривал эту анимацию. Понимаю, что меня как-то крячит, глаз норм, а мозг орет, что что-то неправильно. В общем смотрите на ухо.
Но прогресс конечно потрясающий. Отрисовать поворачивающуюся голову в разных фазах - одно их самых сложный упражнений для кожаных художественных студентов. А ИИ учится очень быстро.

Там правда ацкий комбайн из ComfyUI и еще десяточки приблуд. Смотрите на свой страх и риск.

https://www.youtube.com/watch?v=jc65n-viEEU
This media is not supported in your browser
VIEW IN TELEGRAM
Сладкий 3Д-сток

Возможно кому-то пригодится, 1127 чистых, ИИ-немодифицированных 3Д-моделей с идеальной топологией и развертками. Может кто-то захочет потренировать свой ИИ на нормальных ассетах (маловато конечно), а не на месиве из Objaverse.
Это BaseMesh обновился, сменил хостинг и запилил новый движок.
Хорошая навигация, вьюер и категоризатор.
А мы продолжим за 3Д и ИИ в следующем посте, где будет сравнение восьми(!) image-to-3d нейронок на картинках, сгенерированных в DALL·E 3.

https://www.thebasemesh.com/model-library
Сравнил восемь image-to-3d нейронок на картинках, сгенерированных в Dall-E.

1. 3d.csm
2. TripoSR
3. CRM
4. GRM
5. mvedit
6. InstantMesh
7. tripo3d
8. dreamgaussian

Условно, эти решения делятся на три группы.
Самые слабые - GRM и dreamgaussian не справляются реконструкцией невидимых на картинке деталей и оставляют сквозные отверстия. Они создают деформированные, непригодные для дальнейшей обработки модели.

У второй категории решений: TripoSR, CRM, mvedit, InstantMesh - наблюдаются сложности с созданием симметричных моделей, мелкие артефакты, например, каверны и искаженные текстуры. Под ними - грязные сетки и сглаженные болванки-обмылки.

3d.csm, tripo3d - лучше создают текстуры, додумывают детали на невидимых частях объекта. Хотя tripo3d умеет в ретопологию, генерациям все еще недостает выраженного рельефа. Большая часть деталей остается на текстуре.

Все модели сгенерированы при настройках по умолчанию. Картинки в высоком разрешении ищите в комментариях. Выводы - в следующем посте.
​​Пока что технология image-to-3d находится в зачаточном состоянии и напоминает результаты, которые выдавали первые версии stable diffusion. Реконструкции поддаются только сравнительно простые изображения монолитных предметов.

Да, сравнивать 3d.csm, tripo3d с демо на huggingface нечестно, так как это демонстрационные версии коммерческих сервисов, которые используют более сложные пайплайны и генерируют в несколько этапов. Однако сейчас именно они юзабельнее. Более детальные текстуры - заметное преимущество, так как их можно преобразовать в карту высот и перенести часть деталей в меш.

Вряд ли результаты их работы подойдут для нужд 3D-художников, однако уже сейчас они могут быть основой для скульптинга и годятся для распечатки на FDM-принтере.

P.S. Бюст штурмовика создан при помощи Dall-E и tripo3d.
Тут Антропик наконец выкатил мобильное приложение для Клода.
Только iOS (мерзавцы).
Также анонсировали Team Plan - за 30 баксов доступ для пяти человек одновременно с общими чатами и обменом информацией внутри такой команды.
В приложении нет голосового ввода, это прям минус. Нельзя ехать в машине и вести с ним разговоры о судьбах мира.
Подробнее тут:
https://www.anthropic.com/news/team-plan-and-ios
2024/05/03 11:34:48
Back to Top
HTML Embed Code: