Forwarded from эйай ньюз
А вот и первый IP-Adapter для FLUX.1 [dev] подъехал
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
IP-adapter - это штука, которая позволяет подавать в модель кроме текста еще и референсную картинку. По умолчанию Flux картинку на вход не принимает.
Подробнее про устройство IP-Adapter, и как он используется, например, в Midjourney я писал тут.
Тут используют openai/clip-vit-large в качестве энкодера изображений и подмешивают эти токены в модифицированный cross-attention.
Тренили его на 512x512 в течение 50k шагов и на 1024x1024 в течение 25k шагов. Во время инференса работает и в 512x512 и в 1024x1024.
Это только первая версия адаптера, поэтому может быть еще сыровата.
Веса на HF
Воркфлоу для Comfy UI
@ai_newz
Forwarded from SuperDuperAi
Подключили новый мощный движок Flux от Blackforest Labs для генерации видео с помощью ИИ! Мы только что выкатили его в общий доступ на неделю, так что заходите и тестируйте 🔥
⚙️ Flux — это cutting-edge инструмент для генерации фотографии. За счет уникальной архитектуры и интеграции с нашими алгоритмами, мы смогли поднять производительность на новый уровень. Результат? Быстрее, умнее, качественнее.
⚡️ Заходите, тестируйте
https://demo.superduperai.co/
⚙️ Flux — это cutting-edge инструмент для генерации фотографии. За счет уникальной архитектуры и интеграции с нашими алгоритмами, мы смогли поднять производительность на новый уровень. Результат? Быстрее, умнее, качественнее.
⚡️ Заходите, тестируйте
https://demo.superduperai.co/
Forwarded from Machinelearning
Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.
Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github
Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.
@ai_machinelearning_big_data
#AI #Text2Video #Cogvideo #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Science by ODS.ai 🦜
Qwen2 joins the multimodal race!
2-VL is a new multimodal LLM and comes in two sizes: 2B for on-device usage and 7B under Apache 2.0!
Qwen2 7B VL shows matching performance to GPT-4o mini across different benchmarks!
🧮 Comes in 2 sizes, 2B (2.2B) and 7B (8.3B) using a Vision Encoder
🎥 Can understand videos over 20 minutes for video-based question-answering
🖼️ Qwen2 7B VL around GPT-4o mini performance on VLM Benchmarks
🌍 Multilingual, including most European languages, Japanese, Korean, Arabic, and Vietnamese
📝 Improved OCR and handwritten text extraction
🤗 Available on
@huggingface
🔓 Released under Apache 2.0
🔄 Dynamic image resolutions and M-ROPE (Multimodal Rotary Position Embedding)
Blog: https://qwenlm.github.io/blog/qwen2-vl/
Models: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
@opendatascience
2-VL is a new multimodal LLM and comes in two sizes: 2B for on-device usage and 7B under Apache 2.0!
Qwen2 7B VL shows matching performance to GPT-4o mini across different benchmarks!
🧮 Comes in 2 sizes, 2B (2.2B) and 7B (8.3B) using a Vision Encoder
🎥 Can understand videos over 20 minutes for video-based question-answering
🖼️ Qwen2 7B VL around GPT-4o mini performance on VLM Benchmarks
🌍 Multilingual, including most European languages, Japanese, Korean, Arabic, and Vietnamese
📝 Improved OCR and handwritten text extraction
🤗 Available on
@huggingface
🔓 Released under Apache 2.0
🔄 Dynamic image resolutions and M-ROPE (Multimodal Rotary Position Embedding)
Blog: https://qwenlm.github.io/blog/qwen2-vl/
Models: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
@opendatascience
Forwarded from Machinelearning
Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
<thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
<reflection>
в разделе <thinking>
, чтобы сигнализировать об этом и попытаться исправить себя.3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
<output>.
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
Forwarded from Machinelearning
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
Запуск с Gradio UI:
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Speech2Speech #MiniOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from e/acc
Гугл украл мою стартап идею: paper to podcast
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Forwarded from Machinelearning
VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.
VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.
Несколько дней назад VEnhancer получил обновление:
Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.
⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.
Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.
# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer
# Create environment
conda create -n venhancer python=3.10
conda activate venhancer
# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
bash run_VEnhancer.sh
python gradio_app.py
@ai_machinelearning_big_data
#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
OpenAI представила новую языковую модель o1, обученную для сложных рассуждений
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
Openai
Learning to reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
Forwarded from Machinelearning
LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.
В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.
В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.
Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.
@ai_machinelearning_big_data
#AI #ML #MMLM #LongLLaVA
Please open Telegram to view this post
VIEW IN TELEGRAM