Forwarded from Machinelearning
⚡️ Awesome CVPR 2024 Papers, Workshops, Challenges, and Tutorials!
На конференцию 2024 года по компьютерному зрению и распознаванию образов (CVPR) поступило 11 532 статей, из которых только 2 719 были приняты, что составляет около 23,6% от общего числа.
Ниже приведен список лучших докладов, гайдов, статей, семинаров и датасетов с CVPR 2024.
▪Github
@ai_machinelearning_big_data
На конференцию 2024 года по компьютерному зрению и распознаванию образов (CVPR) поступило 11 532 статей, из которых только 2 719 были приняты, что составляет около 23,6% от общего числа.
Ниже приведен список лучших докладов, гайдов, статей, семинаров и датасетов с CVPR 2024.
▪Github
@ai_machinelearning_big_data
⚡️ PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
Significantly improved finetuned perf by simply changing the initialization of LoRA's AB matrix from Gaussian/zero to principal components.
On GSM8K, Mistral-7B fine-tuned with PiSSA achieves an accuracy of 72.86%, outperforming LoRA’s 67.7% by 5.16%.
▪Github: https://github.com/GraphPKU/PiSSA
▪Paper: https://arxiv.org/abs/2404.02948
@opendatascience
Significantly improved finetuned perf by simply changing the initialization of LoRA's AB matrix from Gaussian/zero to principal components.
On GSM8K, Mistral-7B fine-tuned with PiSSA achieves an accuracy of 72.86%, outperforming LoRA’s 67.7% by 5.16%.
▪Github: https://github.com/GraphPKU/PiSSA
▪Paper: https://arxiv.org/abs/2404.02948
@opendatascience
▪Paper page - https://ya.ru/ai/art/paper-yaart-v1
▪Arxiv - https://arxiv.org/abs/2404.05666
▪Habr - https://habr.com/ru/companies/yandex/articles/805745/
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
YandexART
Your creative AI assistant to generate ART from textual descriptions
🔥 ControlNet++: Improving Conditional Controls
with Efficient Consistency Feedback
Proposes an approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency
proj: https://liming-ai.github.io/ControlNet_Plus_Plus/
abs: https://arxiv.org/abs/2404.07987
@opendatascience
with Efficient Consistency Feedback
Proposes an approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency
proj: https://liming-ai.github.io/ControlNet_Plus_Plus/
abs: https://arxiv.org/abs/2404.07987
@opendatascience
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Map-relative Pose Regression🔥(#CVPR2024 highlight)
For years absolute pose regression did not work. There was some success by massively synthesising scene-specific data. We train scene-agnostic APR and it works.
▪Paper: https://arxiv.org/abs/2404.09884
▪Page: https://nianticlabs.github.io/marepo
@opendatascience
For years absolute pose regression did not work. There was some success by massively synthesising scene-specific data. We train scene-agnostic APR and it works.
▪Paper: https://arxiv.org/abs/2404.09884
▪Page: https://nianticlabs.github.io/marepo
@opendatascience
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
👑Llama 3 is here, with a brand new tokenizer! 🦙
Вышла Llama 3
Meta выпустила новую SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
@ai_machinelearning_big_data
Вышла Llama 3
Meta выпустила новую SOTA Llama 3 в двух версиях на 8B и 70B параметров.
Длина контекста 8К, поддержка 30 языков.
•HF: https://huggingface.co/spaces/ysharma/Chat_with_Meta_llama3_8b
•Blog: https://ai.meta.com/blog/meta-llama-3/
Вы можете потестить 🦙 MetaLlama 3 70B и 🦙 Meta Llama 3 8B с помощью 🔥 бесплатного интерфейса: https://llama3.replicate.dev/
@ai_machinelearning_big_data
Discover, download, and run local LLMs
LM Studio allows to run #LLM model of your choice locally
Link: https://lmstudio.ai/
LM Studio allows to run #LLM model of your choice locally
Link: https://lmstudio.ai/
🔥 Say Goodbye to LoRA, Hello to DoRA 🤩🤩
DoRA consistently outperforms LoRA with various tasks (LLM, LVLM, etc.) and backbones (LLaMA, LLaVA, etc.)
[Paper] https://arxiv.org/abs/2402.09353
[Code] https://github.com/NVlabs/DoRA
#Nvidia
#icml #PEFT #lora #ML #ai
@opendatascience
DoRA consistently outperforms LoRA with various tasks (LLM, LVLM, etc.) and backbones (LLaMA, LLaVA, etc.)
[Paper] https://arxiv.org/abs/2402.09353
[Code] https://github.com/NVlabs/DoRA
#Nvidia
#icml #PEFT #lora #ML #ai
@opendatascience
Data Science by ODS.ai 🦜
For almost 5 years channel picture beared arbitrary picture found in google and now we updated it with a proper new channel logo generated by neural network. Do you like it?
This is what we started with and results still look good for 2021. Back in a day we used neural networks for generation of the logo for the channel and it saved us quite some time on communication with designers.
Data Science by ODS.ai 🦜
Tips & Tricks on Image Generation Generating images with AI tools is a skill, which can be improved and enhanced. So here is couple of articles, covering tips & tricks on how to generate better images with #midjourney. Most interesting one is #huggingface…
We followed on developing theme in Novemeber 2022. And it looks like we might have another attempt to renew our avatar, what do you think?
Forwarded from Machinelearning
🧬 AlphaFold 3 predicts the structure and interactions of all of life’s molecules
Google DeepMind представили Alpha Fold3, новую модель искусственного интеллекта, которая предсказывает структуру и взаимодействия молекул.
Благодаря точному прогнозированию структуры белков, ДНК, РНК и многого другого, а также того, как они взаимодействуют, наше понимание биологического мира может выйти на новый уровень, а в практическом применение поможет разработке новых лекарств.
Эта революционная модель, может предсказывать структуру и взаимодействия всех молекул жизни с беспрецедентной точностью.
На основе входного списка молекул Alpha Fold3 генерирует их общую трехмерную структуру, показывая, как они сочетаются друг с другом. Программа моделирует крупные биомолекулы, такие как белки, ДНК и РНК, а также небольшие молекулы, также известные как лиганды.
Кроме того, Alpha Fold3 может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, нарушение которых может привести к различным заболеваниям.
Теперь для учёные со всего мира могут работать с AlphaFold 3 совершенно бесплатно.
▪Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
▪Nature: https://www.nature.com/articles/s41586-024-07487-w
▪Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o
@ai_machinelearning_big_data
Google DeepMind представили Alpha Fold3, новую модель искусственного интеллекта, которая предсказывает структуру и взаимодействия молекул.
Благодаря точному прогнозированию структуры белков, ДНК, РНК и многого другого, а также того, как они взаимодействуют, наше понимание биологического мира может выйти на новый уровень, а в практическом применение поможет разработке новых лекарств.
Эта революционная модель, может предсказывать структуру и взаимодействия всех молекул жизни с беспрецедентной точностью.
На основе входного списка молекул Alpha Fold3 генерирует их общую трехмерную структуру, показывая, как они сочетаются друг с другом. Программа моделирует крупные биомолекулы, такие как белки, ДНК и РНК, а также небольшие молекулы, также известные как лиганды.
Кроме того, Alpha Fold3 может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, нарушение которых может привести к различным заболеваниям.
Теперь для учёные со всего мира могут работать с AlphaFold 3 совершенно бесплатно.
▪Blog: https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
▪Nature: https://www.nature.com/articles/s41586-024-07487-w
▪Two Minute Papers: https://www.youtube.com/watch?v=Mz7Qp73lj9o
@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
Images that Sound: Composing Images and Sounds on a Single Canvas
abs: https://arxiv.org/abs/2405.12221
project page: https://ificl.github.io/images-that-sound/
code: https://github.com/IFICL/images-that-sound
This paper introduces an inference-time procedure that generates images that are also spectrograms corresponding to the prompt. It uses a latent image and audio diffusion model with same latent space (Stable Diffusion v1.5 and Auffusion) and denoise the same latent with both.
@opendatascience
abs: https://arxiv.org/abs/2405.12221
project page: https://ificl.github.io/images-that-sound/
code: https://github.com/IFICL/images-that-sound
This paper introduces an inference-time procedure that generates images that are also spectrograms corresponding to the prompt. It uses a latent image and audio diffusion model with same latent space (Stable Diffusion v1.5 and Auffusion) and denoise the same latent with both.
@opendatascience
🚀🎉Another exciting day for Multimodal AI! The MiniCPM-V repository by is trending on GitHub.
🤯 Impressive Results:
👉MiniCPM-Llama3-V 2.5 (8B) surpasses GPT-4V, Gemini Pro, & Claude 3
👉MiniCPM-V 2.0 (2B) surpasses Yi-VL 34B, CogVLM-Chat 17B, & Qwen-VL-Chat 10B
MiniCPM-V is efficiently deployable on end-side devices🤖📱 Read more: https://github.com/OpenBMB/MiniCPM-V
🚀MiniCPM-V is building with Gradio to showcase framework's flexibility for creating powerful AI Vision apps. Local Gradio demo: https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
@opendatascience
🤯 Impressive Results:
👉MiniCPM-Llama3-V 2.5 (8B) surpasses GPT-4V, Gemini Pro, & Claude 3
👉MiniCPM-V 2.0 (2B) surpasses Yi-VL 34B, CogVLM-Chat 17B, & Qwen-VL-Chat 10B
MiniCPM-V is efficiently deployable on end-side devices🤖📱 Read more: https://github.com/OpenBMB/MiniCPM-V
🚀MiniCPM-V is building with Gradio to showcase framework's flexibility for creating powerful AI Vision apps. Local Gradio demo: https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
@opendatascience
Forwarded from Machinelearning
🔥🔥🔥 YOLOv10: Real-Time End-to-End Object Detection
⚡️ Вышла новая версия детектора объектов YOLOv10
Добавлена новая функция сквозного обнаружения объектов в реальном времени. Код выпущен под лицензией GNU GPL v3.0
▪Paper: arxiv.org/pdf/2405.14458
▪Github: https://github.com/THU-MIG/yolov10/
▪Demo :https://huggingface.co/spaces/kadirnar/Yolov10
▪Colab: https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-detection-on-custom-dataset.ipynb#scrollTo=SaKTSzSWnG7s
@ai_machinelearning_big_data
⚡️ Вышла новая версия детектора объектов YOLOv10
Добавлена новая функция сквозного обнаружения объектов в реальном времени. Код выпущен под лицензией GNU GPL v3.0
▪Paper: arxiv.org/pdf/2405.14458
▪Github: https://github.com/THU-MIG/yolov10/
▪Demo :https://huggingface.co/spaces/kadirnar/Yolov10
▪Colab: https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-detection-on-custom-dataset.ipynb#scrollTo=SaKTSzSWnG7s
@ai_machinelearning_big_data
Forwarded from Machinelearning
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!
Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.
🤯 Qwen2 выпущен в 5 размерах, обучен на 29 языках!
5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.
📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2
@ai_machinelearning_big_data
Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.
🤯 Qwen2 выпущен в 5 размерах, обучен на 29 языках!
5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
✅ Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
✅ Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.
📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2
@ai_machinelearning_big_data