https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k
Nous-Yarn-Mistral-7b-128k is a state-of-the-art language model for long context, further pretrained on long context data for 1500 steps using the YaRN extension method. It is an extension of Mistral-7B-v0.1 and supports a 128k token context window.
Yarn Paper v2 on Arxiv: https://arxiv.org/abs/2309.00071
Nous-Yarn-Mistral-7b-128k is a state-of-the-art language model for long context, further pretrained on long context data for 1500 steps using the YaRN extension method. It is an extension of Mistral-7B-v0.1 and supports a 128k token context window.
Yarn Paper v2 on Arxiv: https://arxiv.org/abs/2309.00071
❤1
Obsidian-3B:
Worlds smallest multi-modal LLM. First multi-modal model in size 3B
(Worked on iphone!)
This is likely not just a first for Nous but likely the Worlds first 3B sized open-source multi-modal model with vision+text capabilities.
This model is based on the Capybara-3B model, holds robust conversational abilities, and even competes in benchmarks with first-gen SOTA models such as WizardLM-13B and GPT4-X-Vicuna 13B.
It's efficient enough to briskly run on even a non-pro iphone, while demonstrating surprisingly accurate understanding of images and holding back and forth conversations!
Download the direct version of Obsidian here: https://huggingface.co/NousResearch/Obsidian-3B-V0.5
Or download the optimized quantized version by @nisten here: https://huggingface.co/nisten/obsidian-3b-multimodal-q6-gguf
Worlds smallest multi-modal LLM. First multi-modal model in size 3B
(Worked on iphone!)
This is likely not just a first for Nous but likely the Worlds first 3B sized open-source multi-modal model with vision+text capabilities.
This model is based on the Capybara-3B model, holds robust conversational abilities, and even competes in benchmarks with first-gen SOTA models such as WizardLM-13B and GPT4-X-Vicuna 13B.
It's efficient enough to briskly run on even a non-pro iphone, while demonstrating surprisingly accurate understanding of images and holding back and forth conversations!
Download the direct version of Obsidian here: https://huggingface.co/NousResearch/Obsidian-3B-V0.5
Or download the optimized quantized version by @nisten here: https://huggingface.co/nisten/obsidian-3b-multimodal-q6-gguf
huggingface.co
NousResearch/Obsidian-3B-V0.5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤1🔥1
https://llava-vl.github.io/llava-interactive/
LLaVA-Interactive
Image Chat, Segmentation and Generation/Editing -- All-in-one
LLaVA-Interactive
Image Chat, Segmentation and Generation/Editing -- All-in-one
Forwarded from Сиолошная
Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API
— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы
ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!
Обещают скоро ещё больше ускорить GPT-4 Turbo
https://langfuse.com/
https://github.com/langfuse/langfuse
Open source tracing and analytics for LLM applications
https://github.com/langfuse/langfuse
Open source tracing and analytics for LLM applications
👍3
https://huggingface.co/01-ai/Yi-34B-200K
The Yi series models are large language models trained from scratch by developers at 01.AI. The first public release contains two bilingual(English/Chinese) base models with the parameter sizes of 6B(Yi-6B) and 34B(Yi-34B). Both of them are trained with 4K sequence length and can be extended to 32K during inference time. The Yi-6B-200K and Yi-34B-200K are base model with 200K context length.
The Yi series models are large language models trained from scratch by developers at 01.AI. The first public release contains two bilingual(English/Chinese) base models with the parameter sizes of 6B(Yi-6B) and 34B(Yi-34B). Both of them are trained with 4K sequence length and can be extended to 32K during inference time. The Yi-6B-200K and Yi-34B-200K are base model with 200K context length.
❤3
Forwarded from Machinelearning
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model.
Многочисленные исследования в области генерации музыки продемонстрировали впечатляющую производительность, однако практически ни одна модель не способна напрямую генерировать музыку для сопровождения видео.
В данной работе представлен генеративный музыкальный ИИ-фреймворк
Video2Music
, который может генерировать музыку под предоставленное видео. Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций.
Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки.
Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость.
В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео.
Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью.
В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования.
Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео.
🌐 Dataset: https://zenodo.org/records/10057093
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
Бесплатный, очень короткий, но познавательный курс пр промтингу.
Курс "ChatGPT Prompt Engineering for Developers" обучает использованию больших языковых моделей (LLM) через OpenAI API для быстрого создания приложений. Ведущие, Isa Fulford (OpenAI) и Andrew Ng (DeepLearning.AI), раскрывают принципы LLM, делятся лучшими практиками запросов и демонстрируют применение LLM API в разнообразных задачах.
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
Курс "ChatGPT Prompt Engineering for Developers" обучает использованию больших языковых моделей (LLM) через OpenAI API для быстрого создания приложений. Ведущие, Isa Fulford (OpenAI) и Andrew Ng (DeepLearning.AI), раскрывают принципы LLM, делятся лучшими практиками запросов и демонстрируют применение LLM API в разнообразных задачах.
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
www.deeplearning.ai
ChatGPT Prompt Engineering for Developers - DeepLearning.AI
Level up your use of LLMs with prompt engineering best practices. Learn to automate workflows, chain LLM calls, and build a custom chatbot.
👍3
Lobe Chat - это инновационный чат-клиент с открытым исходным кодом, поддерживающий расширяемость и визуальное распознавание. Он позволяет легко развертывать частные приложения ChatGPT/LLM с помощью одного клика. С изящным дизайном, настраиваемыми ролями агентов, поддержкой плагинов и улучшенной мобильной версией, Lobe Chat обеспечивает удобное и персонализированное взаимодействие.
https://github.com/lobehub/lobe-chat
https://github.com/lobehub/lobe-chat
GitHub
GitHub - lobehub/lobe-chat: 🤯 Lobe Chat - an open-source, modern design AI chat framework. Supports multiple AI providers (OpenAI…
🤯 Lobe Chat - an open-source, modern design AI chat framework. Supports multiple AI providers (OpenAI / Claude 4 / Gemini / DeepSeek / Ollama / Qwen), Knowledge Base (file upload / knowledge manage...
❤2
Bill Gates про будущее ИИ и агентов.
ИИ-агенты радикально изменят использование компьютеров, обеспечивая индивидуальную помощь в различных задачах. Эти агенты будут влиять на многие сферы, включая здравоохранение, образование и развлечения, поднимая важные вопросы о конфиденциальности данных и общественных последствиях.
Полная статья доступна здесь: ИИ собирается полностью изменить то, как вы используете компьютеры
ИИ-агенты радикально изменят использование компьютеров, обеспечивая индивидуальную помощь в различных задачах. Эти агенты будут влиять на многие сферы, включая здравоохранение, образование и развлечения, поднимая важные вопросы о конфиденциальности данных и общественных последствиях.
Полная статья доступна здесь: ИИ собирается полностью изменить то, как вы используете компьютеры
gatesnotes.com
AI-powered agents are the future of computing | Bill Gates
In 5 years, agents will be able to give health care advice, tutor students, do your shopping, help workers be far more productive, and much more
👍2
Forwarded from Трендоскоп Lab (Александр)
Быстрый Whisper
Huggingface на днях опенсорснули Distil-Whisper — пожатую версию модели OpenAI для распознавания речи. Получилось в 6 раз быстрее, в 2 раза меньше объёмом и всё это без потери качества распознавания. Но пока только для английского, мультиязычность обещают добавить позднее.
Другие умельцы уже умудрились засунуть Whisper прямо в браузер, благодаря инструментам WebGPU.
Huggingface на днях опенсорснули Distil-Whisper — пожатую версию модели OpenAI для распознавания речи. Получилось в 6 раз быстрее, в 2 раза меньше объёмом и всё это без потери качества распознавания. Но пока только для английского, мультиязычность обещают добавить позднее.
Другие умельцы уже умудрились засунуть Whisper прямо в браузер, благодаря инструментам WebGPU.
GitHub
GitHub - huggingface/distil-whisper: Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word…
Distilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% word error rate. - huggingface/distil-whisper
👍4
X-LLM. Новая библиотека для обучения LLM в экосистеме Huggingface.
Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений.
Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm
Colab с обучением 7B модели: ссылка
Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1
Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)
Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений.
Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm
Colab с обучением 7B модели: ссылка
Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1
Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)
GitHub
GitHub - bobazooba/xllm: 🦖 X—LLM: Cutting Edge & Easy LLM Finetuning
🦖 X—LLM: Cutting Edge & Easy LLM Finetuning. Contribute to bobazooba/xllm development by creating an account on GitHub.
🔥20❤1
Forwarded from Трендоскоп Lab (Александр)
Microsoft проводят свою конференцию для разработчиков Ignite, главный месседж: «мы теперь Copilot Company». Работают над этим на всех уровнях:
- Hardware и инфраструктура. Анонсировали свои чипы для ИИ-вычислений, чтобы поконкурировать с Nvidia.
- Foundation models. Все последние модели OpenAI доступны в Azure. Также запустили «Models as a service» — можно файнтюнить Llama 2 и Mistral через их облако. Выкатили и свою модель Phi-2 в опенсорс, только для исследовательских целей.
- Софт для разработчиков ИИ-моделей. Объединили все инструменты разработки в Azure AI studio.
- Софт для конечных пользователей. Copilots в ближайшее время появятся везде — в самой винде, продуктах Microsoft Office, Teams и другом корпоративном софте. Также запустили свой заметочник Loop — конкурент Notion на ИИ-стероидах. Можно создавать своих копилотов без кода, используя внешние данные и плагины.
- Hardware и инфраструктура. Анонсировали свои чипы для ИИ-вычислений, чтобы поконкурировать с Nvidia.
- Foundation models. Все последние модели OpenAI доступны в Azure. Также запустили «Models as a service» — можно файнтюнить Llama 2 и Mistral через их облако. Выкатили и свою модель Phi-2 в опенсорс, только для исследовательских целей.
- Софт для разработчиков ИИ-моделей. Объединили все инструменты разработки в Azure AI studio.
- Софт для конечных пользователей. Copilots в ближайшее время появятся везде — в самой винде, продуктах Microsoft Office, Teams и другом корпоративном софте. Также запустили свой заметочник Loop — конкурент Notion на ИИ-стероидах. Можно создавать своих копилотов без кода, используя внешние данные и плагины.
Forwarded from gonzo-обзоры ML статей
С генерацией картинок и текстов уже давно всё хорошо и мейнстрим, а музыка с видео пока отставали. Вот теперь Deepmind взялся за музыку:
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
Google DeepMind
Transforming the future of music creation
Announcing our most advanced music generation model and two new AI experiments, designed to open a new playground for creativity
👍2
Forwarded from • Dmitry Legchikov
ai_report_by_coatue.pdf
13.9 MB
Один из лучших отчетов об AI который я встречал
Компания Coatue в своем отчете затрагивает развитие AI и сранивает с другими прорывными технологиями: интернет и смартфоны.
Огромное количество интересных графиков и аналитики.
Одним постом невозможно описать многообразие затронутых тем.
Самое основное:
- Много уделяется сравнению скорости роста.
Сколько дней потребовалось ChatGPT чтобы набрать миллион юзеров.
- Сколько человек покинули корпорации чтобы основать стартапы? (Inflection, Anthropic, Mistral)
- Рост размера моделей.
- Роль опен-соурса и закрытость OpenAI.
- Запуск Iphone породил Uber, Airbnb, Instagram.
Какие еще революционные компании породит GenAI?
Согласен с авторами что революция AI только начинается и все самое интересное еще впереди.
Пока просмотрел отчет бегло, по мере продвижения буду делиться еще интересными моментами.
Компания Coatue в своем отчете затрагивает развитие AI и сранивает с другими прорывными технологиями: интернет и смартфоны.
Огромное количество интересных графиков и аналитики.
Одним постом невозможно описать многообразие затронутых тем.
Самое основное:
- Много уделяется сравнению скорости роста.
Сколько дней потребовалось ChatGPT чтобы набрать миллион юзеров.
- Сколько человек покинули корпорации чтобы основать стартапы? (Inflection, Anthropic, Mistral)
- Рост размера моделей.
- Роль опен-соурса и закрытость OpenAI.
- Запуск Iphone породил Uber, Airbnb, Instagram.
Какие еще революционные компании породит GenAI?
Согласен с авторами что революция AI только начинается и все самое интересное еще впереди.
Пока просмотрел отчет бегло, по мере продвижения буду делиться еще интересными моментами.
👍5🔥2😁1
https://github.com/BerriAI/litellm
LiteLLM - это библиотека для работы с различными API крупных языковых моделей (LLM) в формате OpenAI. Она позволяет интегрировать и использовать модели от таких провайдеров, как Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace и Replicate. Основные возможности LiteLLM включают:
Перевод входных данных для endpoints completion и embedding различных провайдеров.
Гарантированное получение текстовых ответов в одном формате, независимо от используемой модели.
Exceptions- общие исключения от различных провайдеров преобразуются в типы исключений OpenAI.
Поддержка streaming.
Балансировка нагрузки между несколькими развертываниями (например, между Azure и OpenAI), выбирая развертывание с наименьшим количеством использованных токенов и находящееся в пределах лимита запросов.
Возможность использования моделей, не связанных с OpenAI, в кодовой базе OpenAI с помощью прокси LiteLLM
LiteLLM - это библиотека для работы с различными API крупных языковых моделей (LLM) в формате OpenAI. Она позволяет интегрировать и использовать модели от таких провайдеров, как Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace и Replicate. Основные возможности LiteLLM включают:
Перевод входных данных для endpoints completion и embedding различных провайдеров.
Гарантированное получение текстовых ответов в одном формате, независимо от используемой модели.
Exceptions- общие исключения от различных провайдеров преобразуются в типы исключений OpenAI.
Поддержка streaming.
Балансировка нагрузки между несколькими развертываниями (например, между Azure и OpenAI), выбирая развертывание с наименьшим количеством использованных токенов и находящееся в пределах лимита запросов.
Возможность использования моделей, не связанных с OpenAI, в кодовой базе OpenAI с помощью прокси LiteLLM
GitHub
GitHub - BerriAI/litellm: Python SDK, Proxy Server (LLM Gateway) to call 100+ LLM APIs in OpenAI format - [Bedrock, Azure, OpenAI…
Python SDK, Proxy Server (LLM Gateway) to call 100+ LLM APIs in OpenAI format - [Bedrock, Azure, OpenAI, VertexAI, Cohere, Anthropic, Sagemaker, HuggingFace, Replicate, Groq] - BerriAI/litellm
👍1
Forwarded from Machinelearning
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.
Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.
🐱 Github: https://github.com/PKU-YuanGroup/Video-LLaVA
🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
📕 Paper: https://arxiv.org/abs/2311.10122v1
⏩ Dataset: https://paperswithcode.com/dataset/mmbench
@ai_machinelearning_big_data
Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.
Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.
🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.
Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.
Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.
По представленным бенчмаркам, SDV обходит Gen-2 и Pika.
Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!
Статья с деталями.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from AI для Всех (Artemii)
Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса
🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций.
Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью.
Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions).
Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы.
Подробнее о модели
🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций.
Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью.
Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions).
Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы.
Подробнее о модели
👍3