Telegram Web Link
​​LLaMA: Open and Efficient Foundation Language Models

LLaMA is a set of large language models, ranging from 7B to 65B parameters, that have been trained on publicly available datasets containing trillions of tokens. The LLaMA-13B model performs better than GPT-3 (175B) on most benchmarks, and the LLaMA-65B model is competitive with other state-of-the-art models, such as Chinchilla70B and PaLM-540B. This suggests that it is possible to achieve excellent performance in language modeling without relying on proprietary or inaccessible datasets.

Paper: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

Code: https://github.com/facebookresearch/llama

A detailed unofficial overview of the paper: https://andlukyane.com/blog/paper-review-llama

#deeplearning #nlp #transformer #sota #languagemodel
❤‍🔥2👍1
Open source implementation for LLaMA-based ChatGPT training process. Faster and cheaper training than ChatGPT (wip)

https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
👍3
xFormers - Toolbox to Accelerate Research on Transformers

xFormers is: Customizable building blocks: Independent/customizable building blocks that can be used without boilerplate code. The components are domain-agnostic and xFormers is used by researchers in vision, NLP and more.

Research first: xFormers contains bleeding-edge components, that are not yet available in mainstream libraries like pytorch.

Built with efficiency in mind: Because speed of iteration matters, components are as fast and memory-efficient as possible. xFormers contains its own CUDA kernels, but dispatches to other libraries when relevant.


https://github.com/facebookresearch/xformers
👍2
Generative Ai pinned «xFormers - Toolbox to Accelerate Research on Transformers xFormers is: Customizable building blocks: Independent/customizable building blocks that can be used without boilerplate code. The components are domain-agnostic and xFormers is used by researchers…»
🤗 Diffusers provides pretrained diffusion models across multiple modalities, such as vision and audio, and serves as a modular toolbox for inference and training of diffusion models.

https://github.com/huggingface/diffusers/tree/main/examples/community#magic-mix
InvokeAI: A Stable Diffusion Toolkit

https://github.com/invoke-ai/InvokeAI
❤‍🔥2👍2
Forwarded from Machinelearning
😊 HugNLP

HugNLP is a unified and comprehensive NLP library based on HuggingFace Transformer.

HugNLP — это новая универсальная NLP библиотека основанная на Hugging Face, для повышения удобства и эффективности работы c текстами.

🖥 Github: https://github.com/wjn1996/hugnlp

Paprer: https://arxiv.org/abs/2302.14286v1

⭐️ Dataset: https://paperswithcode.com/dataset/clue

HF for complex text classification: https://huggingface.co/blog/classification-use-cases

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Forwarded from Machinelearning
Ultra fast ControlNet with 🧨 Diffusers

ControlNet provides a minimal interface allowing users to customize the generation process up to a great extent.

Новый пайплайн StableDiffusionControlNetPipeline, в статье показано, как его можно применять для различных задач. Давайте контролировать!

🤗 Hugging face blog: https://huggingface.co/blog/controlnet

🖥 Colab: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/controlnet.ipynb

🖥 Github: https://github.com/lllyasviel/ControlNet

Paprer: https://arxiv.org/abs/2302.05543

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот эта "неидеальность" со временем уйдёт, а мне так даже заходит больше. А ведь раньше гличи были на пике трендов.

Если хотите погонять свою видяху для создания Multi-frame Video rendering for SD, то вам вот за этой тулзовиной.
❤‍🔥2
Forwarded from Denis Sexy IT 🤖
Официальный пресс релиз о GPT 4:
https://openai.com/research/gpt-4

Из интересного, она на вход может принимать картинки, не просто текст 🌚 про параметры я еще не почитал сам

Записаться в API вейтлист можно тоже по ссылке выше.

Кстати, если у вас ChatGPT Plus то вам дадут к ней доступ и так
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
ModelScope Text-2-Video: Китайский опенсоурс разродился открытой моделькой для генерации видео по тексту

Это первая диффузионная text2video модель с открытым кодом и опуьликованными весами (1.7 млрд параметров).

Отдельный респект идет Шаттерстоку, данные с которого по всей видимотси использовались для тренировки модели 😂.

Чтобы запустить локально потребуется 16 GB RAM и 16 GB VRAM: инструкция. Пока генерит видео только 256x256.

Ну что, давайте побыстрее заполним интернет проклятыми видео!

Demo
Model weights

@ai_newz
👍4
ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥

Чем предстоит заниматься?

• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.

Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
1
Forwarded from эйай ньюз
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах

Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).

В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.

Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!

Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?

generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")

generatetext("Who is Shcmidhuber?")


Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.

*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.

Блогпост про Dolly 2.0

@ai_newz
👎1
Forwarded from Machinelearning
📝 An open, billion-scale corpus of images interleaved with text.

MultimodalC4 is a multimodal extension of c4 that interleaves millions of images with text.

Открытый миллиардный корпус изображений, чередующихся с текстом.

🖥 Github: https://github.com/allenai/mmc4

Paper: https://arxiv.org/abs/2304.06939v1

⭐️ Dataset: https://paperswithcode.com/dataset/c4

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2👍1
2025/07/12 03:09:42
Back to Top
HTML Embed Code: