Forwarded from commit history
Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
arXiv.org
SWE-rebench: An Automated Pipeline for Task Collection and...
LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training...
Вместе с Cloud․ru собрали модели, которые реально работают:
- отличная поддержка русского,
- быстрый старт без боли,
- легко встраиваются в агентов и ассистентов,
- бюджетно гоняются
Эти модели — идеальный выбор для MVP, экспериментов и продакшн-инференса.
Всё open-source, а лучшее место чтобы развернуть опенсурс в России быстро и выгодно — Evolution ML Inference
- отличная поддержка русского,
- быстрый старт без боли,
- легко встраиваются в агентов и ассистентов,
- бюджетно гоняются
Эти модели — идеальный выбор для MVP, экспериментов и продакшн-инференса.
Всё open-source, а лучшее место чтобы развернуть опенсурс в России быстро и выгодно — Evolution ML Inference
Forwarded from Vikhr models
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0
👥 Авторы: @LakoMoorDev @nlpwanderer
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0
👥 Авторы: @LakoMoorDev @nlpwanderer
FLUX kontext
1) ОЧЕНЬ быстрый в сравнении с imagegpt, 6s на картинку. скорее продвинутая диффузия/IPa
2) работает хуже чем gptimage, не работает русский текст, куча всяких приятных штук которые у gptimage работают;
1 - ориг
2 - flux kontext
3 - gptimage
C точки зрения качества картинки FLUX на голову выше, но сложные эдиты ему даются очень тяжело. Короче везде компромисы выбирайте под задачу.
1) ОЧЕНЬ быстрый в сравнении с imagegpt, 6s на картинку. скорее продвинутая диффузия/IPa
2) работает хуже чем gptimage, не работает русский текст, куча всяких приятных штук которые у gptimage работают;
1 - ориг
2 - flux kontext
3 - gptimage
C точки зрения качества картинки FLUX на голову выше, но сложные эдиты ему даются очень тяжело. Короче везде компромисы выбирайте под задачу.
Love. Death. Transformers.
FLUX kontext 1) ОЧЕНЬ быстрый в сравнении с imagegpt, 6s на картинку. скорее продвинутая диффузия/IPa 2) работает хуже чем gptimage, не работает русский текст, куча всяких приятных штук которые у gptimage работают; 1 - ориг 2 - flux kontext 3 - gptimage…
оказывается папир вышел вместе с моделью
придумали бенч, придумали конкатить vae, собственно вот что получилось
придумали бенч, придумали конкатить vae, собственно вот что получилось
В Белграде 2-3 июня будет конференция по DS
Мероприятие будет насыщенным, в программе:
* Выступления спикеров из топовых фирм и стартапов (Perplexity, JetBrains, ex-Meta, AI MoonValley) с докладами для ML экспертов и более широкой аудитории
* Постер-сессия отобранных ML проектов
* Модерируемые дискусиии, в которых сможет принять участие каждый
Ивент полностью бесплатный, язык — английский
Больше информации: https://datasanity.dev/
🚀 Регистрация
ТГ: @datasanity
Ивент в LinkedIn
По всем вопросам можно писать @yarrrro
Мероприятие будет насыщенным, в программе:
* Выступления спикеров из топовых фирм и стартапов (Perplexity, JetBrains, ex-Meta, AI MoonValley) с докладами для ML экспертов и более широкой аудитории
* Постер-сессия отобранных ML проектов
* Модерируемые дискусиии, в которых сможет принять участие каждый
Ивент полностью бесплатный, язык — английский
Больше информации: https://datasanity.dev/
🚀 Регистрация
ТГ: @datasanity
Ивент в LinkedIn
По всем вопросам можно писать @yarrrro
datasanity.dev
Data Sanity Talks
Uniting Data Science experts across diverse communities and industries to accelerate professional growth, spark collaboration, and inspire innovation