Telegram Web Link
Forwarded from SuperDuperAi
Нам очень важна ваша поддержка! Только представьте! Впервые в прямом эфире.

Завтра мы впервые выходим в прямой эфир, чтобы пообщаться с вами. Расскажем вам все, будем рады видеть вас в эфире и рады вашим комментариям и вопросам.

Поговорим о том:
- как развивается AI video сфера и что ожидается к концу года, про модели, лидеры рынка, текущие ограничения.
- для кого мы и кому мы можем быть полезны!
- и проведем тест-драйв прямо в эфире, покажем вам все этапы и раскроем все секреты генерации видео!

Сделаем этот эфир вместе! Встречаемся 17 июля в 13:00
CushyStudio — это платформа для простого использования генеративного ИИ, позволяющая творческим людям любого уровня без труда создавать потрясающие изображения, видео и 3D-модели

https://github.com/rvion/CushyStudio
И ещё из полезного.

Тема про агентов активно развивается. Мой знакомый Victor Dibia, ведёт хороший блог "Designing with Machine Learning" про агентов, мультиагентные фреймворки, в частности AutoGen (он там контрибьютор). Рекомендую. На редкость не булшитно.

Вот примеры интересных постов по теме:
* Multi-Agent LLM Applications | A Review of Current Research, Tools, and Challenges
* Getting Started with AutoGen - A Framework for Building Multi-Agent Generative AI Applications
* Integrating AutoGen Agents into Your Web Application (FastApi + Websockets + Queues)

Также он начал писать книгу "Multi-Agent Systems with AutoGen" в том же издательстве Manning, что и я свою :) Её можно читать по мере написания, что для подобной темы важно — ждать пока выйдет бумажная не имеет смысла, область очень быстро развивается.
Про новости LLM писать уже поднадоело, но вот краткое саммари анонсов последних дней:

🤖#1 OpenAI выкатил замену старой доброй GPT-3.5 Turbo — GPT-4o mini. То же, но дешевле и качественнее. Контекст 128k, поддержка языков как в большой GPT-4o, цена $0.15/$0.60 за 1M входных/выходных токенов (у 3.5 было $0.50/$1.50).

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

Теперь у каждого большого игрока есть большая, качественная и медленная модель + маленькая и быстрая (GPT-4o mini, Gemini Flash, Claude Haiku/Sonnet)

🐬 #2 Mistral натренировал с NVIDIA 12B Mistral NeMo. Apache 2.0 лицензия, контекст 128k, вроде как бьют Gemma 2 9B и Llama 3 8B. Ну в целом неудивительно, она и побольше на треть.

Из важного, модель мультиязычная и с function calling! Совпадает с моими ожиданиями в https://www.tg-me.com/gonzo_ML/2821.

https://mistral.ai/news/mistral-nemo/

А ещё Мистраль выкатил MathΣtral для математики (https://mistral.ai/news/mathstral/) и Codestral Mamba на базе Mamba 2 для кода (https://mistral.ai/news/codestral-mamba/).

😼 #3 Apple разродился своей опенсорсной 7B LLM под названием DCLM-7B. Из плюсов, более открытая чем некоторые благодаря открытому датасету. Но в целом непонятно что с ней делать, когда есть Llama3, Gemma2 и Qwen2.

https://x.com/_philschmid/status/1814274909775995087

🐁#4 А, да, HuggingFace выложил открытую SmolLM размерами 135M, 360M, и 1.7B для on-device инференса. Вроде как бьют Phi-1.5 и Qwen2 1.5B.

https://huggingface.co/blog/smollm
Forwarded from SuperDuperAi
Демо-версия продукта, уже можно переходить по ссылке и тестить. https://demo.superduperai.co

Как это работает?

Добавили выбор шаблона: история, стартап, музыкальный клир, образовательное видео, сказки, недвижимость, кастомное видео.

Выбираете шаблон, пишите промпт и получаете готовый скрипт с актами и сценами. Если вас не устраивает сценарий, его можно отредактировать прямо на месте.

Дальше выбираете длительность готового видео, формат и скорость воспроизведения.

Можно загрузить фото и получить героя с вашим лицом. Или фото стиля, и получить видео в этом стиле.

Далее запустите процесс генерации видео и получите готовое видео. Пока на этой же странице, поэтому не закрывайте ее. Ждать придется 5-7 минут.

🔗 Попробуйте демо-версию сейчас!
Обратную связь не забудьте оставить в комментариях.

* Обязательна регистрация на сайте.
** Если хотите сделать несколько видео одновременно, можно просто открыть несколько вкладок, даже в одном браузере и делать нужное количество видео.

Go, эксперементировать!
Forwarded from Machinelearning
⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡 Страничка Kolors
🟡 Попробовать
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz
Forwarded from эйай ньюз
🔥Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!

Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!

Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!

Кажется, делали FLUX.1 по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.

FLUX.1 вышла в 3 вариантах:

1️⃣ FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)

2️⃣FLUX.1 [dev]: Это дистиллированная чезе Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev

3️⃣ FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell

Репа с кодом
Блогпост

Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
📚 Перевод речи в рилтайме.

Babelfish — нейросеть на базе OpenAI Whisper, которая быстро и точно распознает речь и переведет её на 200 языков с помощью Meta's NLLB-200. И всё это прямо в браузере.

• Попробовать
• Github

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Убираем фон с изображения.

BiRefNet — новый инструмент для быстрого удаления фона. Разработчики утверждают, что он на голову лучше конкурентов.

Проверить самим можно уже сейчас, бесплатно и без лимитов.

• Github
• Попробовать

#neural #нейросети

@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Clapper: Альфа-версия комбайна для визуализации генеративных сценариев.

Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke

Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.

В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.

Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.

⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.

Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.

Проект написан на TypeScript. Необходимые условия перед установкой:

🟠Git LFS;
🟠Bun;
🟠NVM;
🟢Версия Node - 20.15.1.

▶️Установка и запуск:
# Install the dependencies:
# --include=optional to make
# sure deps are installed
bun i

# build the app:
npm run build

# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile


▶️Второй вариант запуска, с Electron (еще в процессе разработки):
cd packages/app
bun run electron:start

# You can also build Clapper:
cd packages/app
bun run electron:make




📌Лицензирование : GPL v3 licenсe.


🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 1.5K | Issues: 15 | Forks: 129]


@ai_machinelearning_big_data

#AI #Storytelling #Clapper #Visialtool
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/07 20:14:20
Back to Top
HTML Embed Code: