Telegram Web Link
Forwarded from эйай ньюз
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM

До сих пор все тренируем со старым добрым Адамом. А ему уже 7 лет!

Не так давно я писал о многообещающем оптимизаторе LION. Ну, а теперь появился еще один интересный кандидат.

Sophia — это оптимизатор, который использует быструю оценку Гессиана (матрица вторых производных) для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь, где именно Адам довольно медленно продвигается. Вторые производные тут как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.

Вычислять Гессиан в общем случае довольно медленно, поэтому методы второго порядка так и не получии распространения в DL.
На картинке есть псевдокод, из которого видно, что оценить диагональные элементы Гессиана можно довольно быстро.

Sophia ускоряет обучение LLM в 2 раза (!). Протестировали на GPT-2 моделях масштаба от 125M до 770M параметров. Тренд на дальнейшее масштабирование выглядит хорошо.

❱❱ Arxiv | Code

@ai_newz
🔥3🤬1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔊SoundStorm: Efficient Parallel Audio Generation

Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?

А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.

Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.

✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.

Статья
Примеры
Неофициальный код от lucidrains

@ai_newz #audio
🤮1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing BERTopic Integration with the Hugging Face Hub

BERTopic provides a powerful tool for users to uncover significant topics within text collections, thereby gaining valuable insights.

BERTopic - это современная библиотека Python, которая упрощает процесс моделирования тем, используя различные трансформеры и c-TF-IDF для создания кластеров на основе плотности, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем.

pip install bertopic

🤗 Hugging face: https://huggingface.co/blog/bertopic

🖥 Github: https://github.com/MaartenGr/BERTopic

Colab: https://colab.research.google.com/#fileId=https://huggingface.co/spaces/davanstrien/blog_notebooks/blob/main/BERTopic_hub_starter.ipynb

📌 Docs: https://maartengr.github.io/BERTopic/getting_started/quickstart/quickstart.html

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего особенного. Просто LLaMa.cpp на 7 млрд параметров работает со скоростью 40 токенов/сек на MacBook с чипом M2 Max.

Это стало возможным после недавного обновления репозитория от Греганова, где он полностью реализовал инференс моделей на Metal GPU (это специальный ускоритель на новых чипах Apple). Мы видим 0% CPU утилизации, и загрузку всех 38 Metal ядер. Поистине искусный инженер от народа!

От себя добавлю, что очень хочу увидеть будущее, где у каждого локально бегает своя персонализированная LLM-ка, помогающая в рутинных делах. Это называется модуляризацией. Огромную модель тренируют централизовано, а далее каждый пользователь легко и быстро (мы к этому стремися) ее дошлифовывает на своих персональных данных и крутит только локально.

@ai_newz
🔥7👍1👎1👏1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
MusicGen - SOTA для генерации музыки по тексту

Братишки из Meta AI только что доставили лучшую нейронку для синтеза музыки по тексту либо по заданной мелодии.

Архитектура основана на авторегрессионном трансформере (только декодер). Вся генерации идет тупо через один трансформер, без всяких иерархических апсемплингов, как обычно это было в предыдущих работах.

Код вылили в составе не просто так, а в составе новой библиотеки Audiocraft, которая задумана для дальнейшего ресерча в генерации аудио. Есть модели разного размера: от 300M до 3.3B параметров. Для инференса локально потребуется 16GB VRAM, но можно и в колабе.

Музыканты, битмейкеры и диджеи - налетайте!

Код + веса
Сайт с примерами генеараций
Демо на HF
Колаб на поиграться

@ai_newz
👍2🤮2
Forwarded from Machinelearning
🔥 Awesome-Multimodal-Large-Language-Models

Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

Огромный, упорядоченный список новейших статей, датасетов и кода по мультимодальным большим языковым моделям.

🖥 Github: https://github.com/bradyfu/awesome-multimodal-large-language-models

📕 Paper: https://arxiv.org/abs/2306.13394v1

🔗Dataset: https://paperswithcode.com/dataset/coco

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1🥰1
Главный RL-ивент Тинькофф + Петербург + Июль = 💛

Этот идеальный комбо AI-команда Тинькофф хочет разделить с комьюнити. Поэтому ребята приглашают на Tinkoff.AI Saint Reinforcenburg 6 июля в Санкт-Петербурге.

Будут говорить о новых исследованиях, которые делали сами и вместе с InstaDeep, а еще о будущем RL. Подробнее на странице митапа. Там же можно зарегистрироваться.

И не забудьте позвать с собой RL-друзей!
👍7👎4
Forwarded from эйай ньюз
🔥Новый курс: Generative AI with Large Language Models

Сегодня Эндрю Ын аннонсировал на Coursera новый трёхнедельный курс по большим языковым моделям (LLM).

Курс подойдет для все кто хочет в структурированной форме разобраться как работают LLM-ки такие как LLaMa и GPT-4, и как с ними работать. Все лекции в сумме - примерно 15 часов. Преподавать будут 3 эксперта из AWS, которые занимаются LLM на работе и имеют широкий практический опыт.

Вот примеры некоторых тем, которые покрываются курсом:

RLHF: Reinforcement Learning from Human Feedback (RLHF) - это подход, который помогает согласовать большие языковые модели с предпочтениями людей, что значительно улучшает качество взаимодействия между людьми и этими моделями​​. ChatGPT тоже была обучена с помощью этого подхода.

Zero-shot, one-shot, и few-shot обучение с LLM: Это обучение моделей на ограниченном количестве примеров. Эта функция появляется примерно начиная с 100M+ параметров. Эффективность модели в zero-shot, one-shot или few-shot режиме кажется масштабируется с размером модели, то есть крупные модели (с большим количеством обучаемых параметров или слоев) обычно более эффективны​​.

Продвинутый промптинг ReAct: ReAct - это фреймворк, в котором большие языковые модели используются для генерации как логических шагов, так и задачно-ориентированных действий попеременно. Генерация логических шагов позволяет модели формировать, отслеживать и обновлять планы действий, а также обрабатывать исключения​​.

Fine-tuning LLMs: Fine-tuning ("дообучение") - это процесс адаптации большой языковой модели к конкретной задаче путем ее обучения на меньшем, соответствующем наборе данных​​.

Короче, это топ курс, бесплатно и без СМС! Думаю сам тоже посмотреть.

👁 Записаться на курс на Coursera

@ai_newz
2👍2
Салют, GigaChat! One Day Offer для NLP инженеров, разработчиков и исследователей уровня Middle/Senior/Senior++ состоится уже 22 июля 📢

А это значит, что всего за один день вы сможете пройти все этапы отбора, познакомиться с командой, забрать оффер и начать работу над нашей большой языковой моделью GigaChat и амбициозными продуктами на его основе.

Чем именно вам предстоит заниматься?

👉 Делать претрейн моделей.

👉 Обучать SOTA модели для решения задач NLP.

👉 Создавать наши основные NLP модели: GigaChat, Intent Recognition, NER, Smart Home и другие.

👉 Делать распознавание и синтез речи, выявлять ключевые слова и шумовые события.

👉 Совершенствовать существующие инструменты ИИ и создавать новые.

👉 Работать в новом кластере с большим числом A100'ых.

Ваши шансы на оффер выше, если у вас есть профильное техническое образование и опыт работы от трех лет. Переходите по ссылке и регистрируйтесь на One Day Offer 💚
🤮1
Forwarded from эйай ньюз
🔥Meta зарелизила набор моделей LLaMa-2-Chat разного размера!

Это огромное событие в мире опенсоурса и науки. Коллеги из LLM отдела GenAI выпустили бомбу! LLaMa-2 на 70B параметров сравнима по качетству с GPT-3.5 и даже лучше ее на некоторых бенчмарках.

Это, кстати, первая модель такого размера, затюненая c помощью RLHF, и которую выложили для коммерческого использования БЕСПЛАТНО. Запросить ссылку на скачивание можно тут.

Наконец-то, на базе LLaMa-2-Chat можно строить свои локальные аналоги ChatGPT и не отсылать никаких данных в OpenAI.

LLaMa 2-Chat сравнима по качеству с ChatGPT-3.5 по метрикам human eval, а, например, на математических задачах - даже лучше.

Размер контекста: 4к.
Тренировались модели на 2 триллионах токенов, что в два раза больше чем LLaMa 1.

Больше подробностей в статье

@ai_newz
🔥4👎1
Forwarded from Machinelearning
🆓 Free Courses and Guides for Learning Generative AI

Бесплатные курсы и руководства по изучению генеративного ИИ

1. Building AI Products with OpenAIБесплатный курс от CoRise и OpenAI.

2. Подробное руководство по Prompt Engineering by DAIR.AI

3. LLM Bootcamp - Серия бесплатных лекций от The full Stack по созданию и развертыванию приложений LLM.

4. Что такое модели трансформеров и как они работают: Учебное пособие от Cohere AI.

5. Бесплатный курс от Activeloop на LangChain & Vector Databases in Production.

6. Pinecone learning centerМножество полезных гайдов.

7. Build AI Apps with ChatGPT, Dall-E and GPT-4бесплатный курс по Scrimba.

8. Gartner Experts Answer the Top Generative AI Questions for Your Enterpriseотчет компании Gartner.

9. GPT best practices: Руководство ****OpenAI, в котором рассказывается о стратегии и тактике получения лучших результатов от GPT.

10. OpenAI cookbook by OpenAIПримеры и руководства по использованию API OpenAI.

11. Prompt injection explained,

12. Generative AI short courses by DeepLearning.AIПять коротких курсов по генеративному ИИ, включая LangChain для разработки LLM-приложений, "Как работают диффузионные модели" и др.

13. Generative AI learning path by Google Cloud - серия из 10 курсов по продуктам и технологиям генеративного ИИ: от основ больших языковых моделей до создания и развертывания генеративного ИИ в Google Cloud.

ai_machinelearning_big_data
4👍1🔥1
Forwarded from эйай ньюз
Мой товарищ, который делает PhD у нас в GenAI в Лондоне, выпустил классную работу по трекингу пикселей на видео. Результаты говорят сами за себя.

Наконец-то можно забыть, что такое optical flow (он тупой как барабан, т.к. смотрит только на интенсивность цвета и не понимает семантику изображений).

Код и модели доступны на GitHub.

@ai_newz
Forwarded from эйай ньюз
Аннотированный код

Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.

Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.

На скринах - код DDIM и Adam.

https://nn.labml.ai/

@ai_newz
Forwarded from Machinelearning
⚡️🧑‍💻 Awesome AI-Powered Developer Tools

Это список инструментов для разработчиков, основанных на искусственном интеллекте. Эти инструменты используют ИИ для помощи разработчикам в решении таких задач, как написание кода, рефакторинг, отладка, создание документации и т. д.

Githib

ai_machinelearning_big_data
4🔥1
Forwarded from Machinelearning
🔥Platypus: Quick, Cheap, and Powerful Refinement of LLMs

Family of fine-tuned and merged LLMs that achieves the strongest performance and currently stands at first place in HuggingFace's

Cемейство точно настроенных больших языковых моделей (LLM), которое достигло самой высокой производительности и в настоящее время занимает первое место в открытой таблице лидеров LLM HuggingFace на момент выхода этой статьи

Модель 13B Platypus может быть обучена на одном GPU A100 на 25 тыс. вопросов за 5 часов!

git clone https://github.com/lm-sys/FastChat.git
cd FastChat


🖥 Github: https://github.com/arielnlee/Platypus

💻 Project: https://platypus-llm.github.io/

📕 Paper: https://arxiv.org/abs/2308.07317v1

⭐️ Dataset: https://huggingface.co/datasets/garage-bAInd/Open-Platypus

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

EasyEdit, demonstrating that knowledge editing surpasses traditional fine-tuning in terms of reliability and generalization.

Новый фреймворк для настройки и редактирования ответов больших языковых моделей. EasyEdit работает с LlaMA-2, GPT-J, Llama, GPT-NEO, GPT2, T5 и другими популярными моделями(поддерживаются модели от 1B до 65B).

🖥 Github: https://github.com/zjunlp/easyedit

📕 Paper: https://arxiv.org/abs/2308.07269v1

⭐️ Demo: http://knowlm.zjukg.cn/demo_edit

🎓Online Tutorial: https://colab.research.google.com/drive/1zcj8YgeqttwkpfoHXz9O9_rWxFFufXSO?usp=sharing

☑️ Docs: https://zjunlp.gitbook.io/easyedit

🤓 Dataset: https://drive.google.com/file/d/1IVcf5ikpfKuuuYeedUGomH01i1zaWuI6/view?usp=sharing

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Присоединяйтесь к TechTrain 2023 Autumn — онлайн-фестивалю, посвященному машинному обучению и искусственному интеллекту.

В программе — классическое ML, Computer Vision, NLP, ASR, RecSys, LLMs и MLOps. Обязательно будут обсуждения прикладного использования ML на примере конкретных проектов. Обзор таких тем, как графовые модели, генеративные нейросети, AI в разработке и другое.

Участников ждут как актуальные практики применения ML&AI, так и дискуссии со спикерами и экспертами. 

Проводит фестиваль JUG Ru Group — организатор крупных технических IT-конференций и митапов для разработчиков. Дата проведения: 30 августа.

Читайте подробности и регистрируйтесь бесплатно — на сайте.
👍3👎3
Forwarded from ТЕПЛИЦА
После взлета популярности ChatGPT медиа не рад озвучивали риски, связанные с ИИ. Но то, что быстрое развитие технологий предоставляет новые возможности для активизма, часто остается в тени.

О том, как активисты могут использовать AI и поговорим на Неконференции «Теплицы» 30 августа.

Эксперты по ИИ расскажут о последних достижениях в области генеративных моделей и их потенциале для гражданских инициатив. Обсудим, как ИИ может помочь разбираться в новостях, проверять информацию и структурировать знания для быстрого обмена.

Регистрируйтесь и присоединяйтесь к разговору
https://tinyurl.com/te-st-org/events/unconference-ai/

Будем рады, если вы поделитесь с нами вашим опытом использования AI, этот опрос можно пройти анонимно или открыто.
👎3🤮3
2025/07/10 15:51:04
Back to Top
HTML Embed Code: