Telegram Web Link
🔥 MiniCPM-o 2.6 — это мощная языковая модель с 8 млрд параметров, разработанная OpenBMB! Она поддерживает текст, изображения, видео и аудио, а также обеспечивает высококачественные ответы на естественном языке. Производительность модели сравнима с GPT-4o-202405, особенно в обработке мультимодального контента.

💡 Особенности MiniCPM-o включают расширенные возможности оптического распознавания символов (OCR), улучшенное понимание видео и поддержку голосовых диалогов в реальном времени на английском и китайском языках. Модель может адаптировать тембр, скорость и эмоции речи, что делает её полезной для голосовых ассистентов и интерактивных приложений.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 NExT-Mol: объединение 3D-диффузионных моделей и 1D-языкового моделирования для генерации молекул!

🌟 В этой статье представлена новая модель NExT-Mol, сочетающая преимущества 1D-языковых моделей (LM) и 3D-диффузионных моделей для генерации трехмерных структур молекул. Авторы отмечают, что, хотя 3D-диффузионные модели эффективно моделируют непрерывные 3D-конформеры, они могут генерировать некорректные молекулы. В то же время 1D-LM, основанные на SELFIES, обеспечивают 100% валидность создаваемых молекул, используя большие одномерные наборы данных.

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Jina Serve — это облачно-ориентированный фреймворк для создания и развертывания мультимодальных AI-сервисов!

🌟 Он поддерживает взаимодействие через gRPC, HTTP и WebSocket, предлагая высокопроизводительную архитектуру для масштабирования, потоковой передачи данных и динамической обработки запросов. Основные возможности включают нативную интеграцию с ML-фреймворками, контейнеризацию, встроенный оркестратор микросервисов и поддержку Kubernetes.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Code2Prompt — это инструмент командной строки, который помогает разработчикам передавать структуру и содержимое кода большим языковым моделям!

🌟 Он автоматически генерирует Markdown-файлы с подробным представлением проекта, что упрощает анализ, документирование и рефакторинг кода. Это особенно полезно для работы с крупными кодовыми базами, где важно дать модели контекст перед генерацией ответов.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Rust
👣 Training a Rust 1.5B Coder LM with Reinforcement Learning (GRPO)
Источник:
Oxen.ai Blog
Ссылка:
Oxen.ai

Статья подробно рассказывает о процессе обучения специализированной языковой модели для генерации кода на Rust, обладающей 1.5 млрд параметров.

Авторы применяют метод обучения с подкреплением (GRPO) с использованием обратной связи от инструментов Rust (компилятор и система сборки cargo). Это позволяет модели учиться генерировать код, который успешно компилируется, проходит линтер (cargo clippy) и unit-тесты.

Подход к данным и метрикам: Описаны этапы подготовки датасета, в том числе адаптация существующих Python-подобных задач под синтаксис Rust, а также разработка специальных reward-функций, проверяющих качество сгенерированного кода.

Материал показывает, как можно использовать инструменты Rust для автоматизированной проверки качества кода, что может служить основой для создания интеллектуальных помощников и средств автоматизации.

🔗 Читать

@rust_code
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
📹 NVIDIA’s New AI Grows Stuff Out Of Nothing!

Смотреть
🔥 MedSSS — это небольшой медицинский языковой модельный проект, разработанный с использованием метода «медленного мышления» и самосовершенствующейся методики!

💡 Цель проекта — улучшить способность модели к медицинским рассуждениям. MedSSS использует модель PRM для выбора наиболее корректного ответа из нескольких возможных вариантов, что позволяет эффективно решать как традиционные задачи медицинского вопросно-ответного характера, так и более сложные клинические сценарии.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 UI-TARS Desktop — это приложение с графическим интерфейсом, основанное на модели компьютерного зрения, которое позволяет управлять компьютером с помощью естественного языка!

🌟 Оно поддерживает управление мышью и клавиатурой, а также выполняет захват экрана и распознавание объектов. Это кросс-платформенный инструмент для Windows и MacOS, который обрабатывает запросы локально, обеспечивая безопасность и конфиденциальность.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 5ire — кроссплатформенный AI-ассистент и клиент MCP (Model Context Protocol)!

🌟 Он поддерживает интеграцию с популярными поставщиками AI-сервисов (например, OpenAI, Anthropic, Google и другими), а также предоставляет локальную базу знаний для обработки и векторизации документов. Проект использует MCP-протокол для подключения к различным инструментам, что позволяет работать с файловыми системами, базами данных и удаленными источниками данных.

🔐 Лицензия: GPL-3.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ TSMC предлагает ИТ-гигантам объединиться вокруг производственных мощностей Intel.

TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg

✔️ ИИ от Sakana AI успешно прошел научное рецензирование.

Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.

Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai

✔️ Google DeepMind выводит ИИ в физический мир с Gemini Robotics.

Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.

Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google

✔️ Doubao (ByteDance) опубликовала технические детали модели генерации изображений Seedream 2.0.

Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.

В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com

✔️ Испания вводит крупные штрафы за отсутствие маркировки контента, созданного ИИ.

Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".

Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 DeepScaler — это проект, предназначенный для увеличения разрешения изображений с использованием методов глубокого обучения!

🌟 Он реализует алгоритмы суперразрешения (Super-Resolution), позволяя восстанавливать детали и улучшать качество изображений при их масштабировании.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 LightRAG — это легковесная и модульная библиотека на Python, предназначенная для создания и оптимизации потоков обработки данных с использованием RAG! Она помогает разработчикам строить эффективные пайплайны, объединяя механизмы поиска информации и генеративные модели.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research

Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.

1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.

Модель 32B, которая по размеру равна около 5% от размера DeepSeek r1, превосходит ее почти во всех тестах.

Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель более способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.


🟡Релиз: https://www.lgresearch.ai/blog/view?seq=543
🟡Статья: https://arxiv.org/abs/2503.12524
🟡HF: https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 VideoLingo — это инструмент для автоматизированного создания субтитров и дубляжа видео на основе ИИ!

🌟 Он предлагает функции перевода, сегментации и синхронизации субтитров на уровне Netflix. Инструмент использует алгоритмы обработки естественного языка (NLP), поддержку разных языков и интеграцию с сервисами озвучивания, такими как Azure и OpenAI. VideoLingo позволяет загружать видео с YouTube и предоставляет удобный интерфейс для работы через Streamlit.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 KrillinAI – это комплексное решение для обработки видео, включающее загрузку, перевод, озвучивание и финальный рендеринг! Оно поддерживает автоматическую установку зависимостей и интеграцию с yt-dlp для загрузки видео с YouTube и Bilibili.

🌟 Основные функции: интеллектуальное сегментирование и выравнивание субтитров, настраиваемая замена слов, перевод с учетом контекста, озвучивание с клонированием голоса и синхронизацией, а также автоматическая сборка видео с субтитрами. Поддерживаются десятки языков для входных данных и перевода.

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Обновление семейства Nemotron: теперь с ризонингом.

NVIDIA выпустила новые модели и датасет семейства Nemotron :

🟢Модель Llama-3.3-Nemotron-Super-49B-v1

🟢Модель Llama-3.1-Nemotron-Nano-8B-v1

🟠Датасет Llama-Nemotron-Post-Training-Dataset-v1

▶️Llama-3.3-Nemotron-Super-49B-v1 — флагманская мультиязычная модель, созданная на базе Llama-3.3-70B-Instruct и оптимизированная для ризонинга, чат-взаимодействий и RAG-систем, с контекстным окном 128 тыс. токенов. Ключевая особенность — применение в процессе создания Neural Architecture Search (NAS), метода, который позволил сократить вычислительные затраты без значительной потери качества.

Архитектура модели, впервые для семейства Nemotron, использует нестандартные блоки: в части слоев внимание заменено линейными преобразованиями, а параметры FFN-слоев варьируются между блоками. Это позволило адаптировать модель для работы на одном GPU H100-80GB.

Обучение проходило в несколько этапов: от дистилляции знаний на 40 млрд. токенов до тонкой настройки с RL-алгоритмами (RPO и REINFORCE).

Результаты тестов впечатляют: в режиме «рассуждений» модель демонстрирует 96,6% pass@1 на MATH500 и 58,4% на AIME25, превосходя базовые показатели.

Модель умеет переключаться между ризонинг-режимом и типовым LLM-инференсом: для режима рассуждений рекомендуется свой системный промпт и параметры t=0,6 и Top-P=0,95.

Модель ориентирована на создание ИИ-агентов, чат-ботов, систем с расширенным контекстом и доступна через API, в веб-демо на NVIDIA Build и веса для скачивания на HuggingFace.

▶️Llama-3.1-Nemotron-Nano-8B-v1 - младшая модель с 8 млрд. параметров, которая предлагает компромисс между точностью и эффективностью. Она создана на основе Llama 3.1 8B Instruct и предлагает улучшение точности базовой Llama 3.1, возможности в рассуждениях, как и флагманская. Модель подходит для запуска на одном GPU RTX и может использоваться локально. Nano-8B-v1 поддерживает длину контекста 128 тыс. токенов.

▶️Llama-Nemotron-Post-Training-Dataset-v1 - набор данных объемом 15.2 млн строк, который представляет собой компиляцию данных SFT и RL для улучшения математических, кодовых, общих рассуждений и возможностей следования инструкциям оригинальной модели Llama.


📌Лицензирование: NVIDIA Open Model License


🟡Статья
🟡Коллекция Nemotron на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👣 Casibase — это open-source платформа, предназначенная для создания масштабируемых и гибких приложений с упором на эффективное управление данными и бизнес-логикой.

Модульная архитектура: Проект предоставляет структуру, которая позволяет легко расширять функциональность и интегрировать различные компоненты, что упрощает разработку сложных систем.
Гибкость интеграции: Casibase обеспечивает удобную работу с различными источниками данных и API, что облегчает объединение разрозненных сервисов в единое целое.
Ускорение разработки: Используя Casibase, разработчики могут быстрее собирать и разворачивать приложения, оптимизируя процессы автоматизации и управления данными.

Casibase интересен тем, кто ищет готовую платформу для быстрого создания распределённых систем с высокой степенью адаптивности и масштабируемости.

Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/01 22:49:02
Back to Top
HTML Embed Code: