Generative Ai

Forwarded from Kali Novskaya (Tatiana Shavrina)

OpenAI только что выпустили SORA— text2video модель

Генерация видео по текстовому описанию наступила!

Сегодня обещают статью

Промпт:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🟣

https://openai.com/sora#research

Please open Telegram to view this post

VIEW IN TELEGRAM

2.4K views22:20

Generative Ai

Forwarded from Технологии | Нейросети | Боты

🥳

Stable Diffusion 3.0

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0, своей следующей флагманской модели text2image.

Улучшено качество изображений, улучшено написание текста
(?! смотрим прикреплённую пикчу), более высокая производительность и тд.

На данный момент доступ через лист ожидания.

• Подробнее

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views11:58

Generative Ai

Forwarded from SuperDuperAi

0:46

This media is not supported in your browser

VIEW IN TELEGRAM

Hey, friends!
We've made SuperDuperAI so you can make some really cool videos just by using text. https://superduperai.co/

All you need to do is describe the video you want to create, and our AI will create a fully generated video for you, crafting scenes, music, voiceovers, and much more!

2.3K views07:41

Generative Ai

Друзья, очень всем советую запись вебинара CB Insights по Generative AI - https://www.cbinsights.com/research/briefing/webinar-generative-ai-predictions-2024/recording/

кому лень - суммирую 2 словами:
1. ХАЙП
2. НЕОПРЕДЕЛЕННОСТЬ

https://www.tg-me.com/shoifot 🦄🐳🐅

CB Insights Research

Generative AI Predictions for 2024 - CB Insights Research

What does the future of generative AI look like? Our panel of experts will share their top predictions for the tech in 2024.

2.3K viewsedited 05:38

Generative Ai

Forwarded from Machinelearning

🔥 SOTA: Stable Diffusion 3:вышла! 🔥

Stable Diffusion 3 - это новая технология преобразования текста в изображение SOTA.

Новая архитектура Multimodal Diffusion Transformer (MM Bit) использует отдельные наборы весов для изображений и языка, улучшая возможности понимания текста / правописания.

✅ Новая масштабируемая архитектура для синтеза текста в изображение
✅ Двунаправленное смешивание потоков токенов текста и изображений
✅ Самые крупные модели превосходят открытые модели SOTA, такие как SDXL

▪Blog: https://stability.ai/news/stable-diffusion-3-research-paper
▪ Paper: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

ai_machinelearning_big_data

2.4K views18:40

Generative Ai

Сейчас очень много сервисов, позиционирующих себя, как сервисы генерации видео из текста с помощью ИИ. Обычно у многих написано Text2Video. И когда начинаешь с кем-то говорить на эту тему, обычно всегда говорят, что полно аналогов.

На самом деле, многие сервисы позиционируют себя одинаково, но под капотом спрятано совершенно другое.

Подборка сервисов создания видео из текста

https://vc.ru/964837

vc.ru

Создание видео из текста с помощью ИИ, легко и без усилий. Сравнение сервисов — Видео на vc.ru

2.6K views06:05

Generative Ai

Forwarded from Сиолошная

Google открыли для всех доступ к Gemini 1.5 Pro с 1М токенов контекста: https://aistudio.google.com/app/prompts/new_chat

Можно загрузить видео или целую папку с файлами для анализа

Го тестировать

2.1K views14:30

Generative Ai

Forwarded from эйай ньюз

Интро в Трансформеры для чайников

3Blue1Brown, популярный математический ютубер, начал выпускать серию видео о том, как работает трансформер. Первое видео посвящено эмбеддингам и тому, как моделька определяет, какой токен ей выдать. Вышло лучшее объяснение темы "для чайников", с анимациями и довольно простым языком. Обещает ещё две части: одну посвящённую Attention, другую MLP.

Если после просмотра возникнет желание погрузиться в детали:
- У Андрея Карпатого есть видео где он имплементирует и объясняет как саму GPT, так и её токенизатор.
- Лекция Интро в большие языковые модели (LLM), тоже от Карпатого.

#ликбез
@ai_newz

YouTube

Transformers, the tech behind LLMs | Deep Learning Chapter 5

Breaking down how Large Language Models work, visualizing how data flows through.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support

---

Here are a few other relevant resources

Build a GPT from scratch…

2.3K views11:20

Generative Ai

Forwarded from Агенты ИИ | AGI_and_RL

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Вышла Ллама 3.

8B, 70B. (8192 tokens)
После тестиков в ближайшее время узнаем что в реальности по бенчам.

Веса (придется формочку заполнить)
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Код
https://github.com/meta-llama/llama3

Обещают 400B+ модельку. Марк Цукерберг все еще тренирует её. (на видео)

1.8K views21:53

Generative Ai

Forwarded from Технологии | Нейросети | Боты

🗒

Стэнфордский университет выпустил ежегодный доклад об ИИ-индустрии. Главное:

— Из-за дороговизны обучения нейросетей, частные компании значительно обгоняют научные организации по выпуску ИИ;
— ИИ стали чаще использовать в науке: GNoME помог открыть 380 тыс. новых стабильных материалов для производства технологий, а AlphaDev — представил более быстрые алгоритмы сортировки;
— ИИ влияет на повышение качества труда: люди выполняют задачи быстрее и лучше, используя нейросети;
— Открытого кода стало больше. Из 149 нейросетевых моделей 98 с исходным кодом. Однако закрытые модели остаются более производительными;
— Автоматизированных рейтингов для оценки генеративных моделей уже не хватает, поэтому всё более важным становится мнение людей об ИИ. Например, та же Chatbot Arena Leaderboard;
— Люди стали больше думать о нейросетях. Процент тех, кто считает, что ИИ серьезно повлияет на их жизнь, выросла с с 60% до 66%.

• Полный доклад

@aiaiai

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views08:25

Generative Ai

SuperDuperAI - сервис генерации видео с помощью ИИ. Предназначен для упрощения создания наративного видеоконтента с помощью генеративного ИИ для маркетинга.

Мы используем Stable Diffusion для генерации изображений и видео и различные LLM через Langchain (OpenAi, Mixtral).

Наша архитектура разработана для масштабируемости в облаке, при поддержке Microsoft для Ai стартапов, что позволяет нам развертывать узлы OpenAI в Azure.

Безопасное управление данными: использование Okta Auth0 для безопасного хранения данных.

Система построена на основе Kubernetes, Airflow ETL и Python для асинхронной обработки тысяч заказов.

Про сервис👇

https://vc.ru/tribuna/1141585

vc.ru

SuperDuperAI - сервис генерации видео с помощью ИИ — Трибуна на vc.ru

SuperDuperAi, предназначен для упрощения создания наративного видеоконтента с помощью генеративного искусственного интеллекта для маркетинга.

2.0K views14:47

Generative Ai

Forwarded from Machinelearning

⚡️

llamafile — утилита для быстрого запуска ИИ-моделей

⏩Инструмент llamafile от Mozilla даёт возможность упаковать веса LLM в исполняемый файл, который без установки можно запустить практически на любой современной платформе. Поддерживаются архитектуры x86-64 и ARM64, а также системы macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD.

⏩llamafile работает практически со всеми LLM, недавно была добавлена поддержка модели Phi-3 Mini 4k, а также LLaMA3, Grok, Mixtral 8x22b и Command-R.

🖥

GitHub

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views14:21

Generative Ai

Forwarded from AI для Всех (Kirill)

Gazelle - первая open source VoiceToLLM модель

TincansAI объявил о выпуске Gazelle v0.2, инновационной речевой модели, которая может может обрабатывать устные запросы и длинные аудиофайлы напрямую, без их транскрипции или распознавания речи.

Благодаря прямой обработке аудио данных, модель быстрее, точнее, а также способна интерпретировать эмоции и даже сарказм в речи.

Код "из коробки", с абсолютно нулевой оптимизацией и работающий с полной точностью, достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход. По оценкам авторов, задержка более сложной системы с синтезом составит менее 300 миллисекунд, что меньше воспринимаемой человеком задержки в реальном времени

Насколько известно авторам, данная модель является первой и единственной open source моделью, способной вести диалог в реальном времени. Кроме того, разработчики публично проводят оценку безопасности и сообщают об успешных атаках на речевую модель. Наконец, это первая речевая модель, в которой применяется мультимодальная оптимизация предпочтений.

Производительность Gazelle оптимизирована для реальных приложений, таких как поддержка клиентов, телефонные звонки и общение в чате.

🌐 Сайт
🤗 HuggingFace

👨‍💻

Демо1
✖️ Демо2

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views19:41

Generative Ai

Forwarded from Denis Sexy IT 🤖

– Показали GPT4-4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.

– GPT4-4o это «Омнимодель» натренированная сразу на тексте, фото и видео — то есть та самая мультимодальность которую мы ждали.

– GPT4-4o уже доступна через API и стоит в два раза дешевле, и работает в 2 раза быстрее.

– Показали улучшенную версию аудио-чата через ассистента — она теперь шутит, понимает ваши эмоции; теперь ассистента можно перебивать своим голосом и сам ассистент говорит с эмоциями, и вы можете просить ее менять эти эмоции (даже петь). Переводчик с помощью GPT4-4o просто работает как в Sci-Fi кино (не путаясь и не требуя дополнительных нажатий кнопок).

– Запустят десктопные приложение наконец-то, чтобы не в вебе сидеть; в десктопном приложении ей можно показывать экран целиком и просить ее подправить код, что-то рассказать и тп. То есть это ассистент, который всегда видит ваш экран.

Дополнительные мелочи:

— Заявленные фичи выкатят через пару недель.
— Теперь через приложение можно просто ей показывать видео фид и она будет давать советы как решить какую-то задачу (не нужно фоткать ничего, работает как стрим);

— Во время демки ассистент тормозил хехе.

А вот что я предсказывал в посте выше и что сбылось или не сбылось:

✅ Демку ассистента как из фильма Her
✅ Полную мультимодальность: модель будет обучена сразу на видео, аудио, картинках и тексте
❓ Размер контекстного окна в 1М (мы не знаем пока)
✅ Новую архитектуру к новой модели, у которой сразу будут все фишки выше
✅ GPT4 обновление с лучшим написанием кода, или 4.5 или 4.1 (с названиями, они, конечно, не консистентны)
❌ Новую версию Dalle 3, с улучшенным фотореализмом

2.1K views17:35

Generative Ai

Forwarded from e/acc

Сегодня твиттер взорвался. Экс-сотрудник OpenAI из команды Superalignment опубликовал 165-страничный документ о будущем ИИ.

Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.

- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д

Завтра продолжу со второй частью

Если вам лень читать, то можете послушать вышедший сегодня 4-часовой подкаст о том же самом: https://www.dwarkeshpatel.com/p/leopold-aschenbrenner

1.6K views19:45

Generative Ai

Forwarded from Machinelearning

⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах, обучен на 29 языках!

5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data

1.6K views23:59

2025/07/08 06:23:20
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>