Telegram Web Link
🚀 Новинка от Hugging Face — FineWeb‑2: огромный высококачественный веб‑датасет на базе CommonCrawl!

📊 Основные характеристики:
- ~8 ТБ сжатого текста (~3 трлн слов) из 96 дампов CommonCrawl (2013–2024)
- Более 1000 языков и почти 1900 языковых-скриптовых пар
- Высокое качество: извлечён только основной текст, проведена фильтрация и дедупликация
- Лицензия ODC‑By 1.0 — можно использовать в коммерческих и исследовательских целях

📝 Зачем это нужно:
- Даёт открытому ИИ доступ к качеству, сравнимому с закрытыми наборами (как у LLaMA 3 или Mixtral)
- Существенно улучшает результаты на бенчмарках вроде MMLU и ARC, особенно при обучении с FineWeb‑Edu

🔧 Где применить FineWeb‑2:
- Обучение LLM с нуля
- Дообучение на редких языках
- Синтетическая генерация, RAG и пр.

📥 Скачать: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
Forwarded from Machinelearning
🔥 Релиз от Alibaba — новая мультимодальная модель Ovis‑U1‑3B.

🧠 Поддерживает:
• Понимание изображений (Image-to-Text )
• Генерация картинок по описанию (Text-to-Image)
• Интерактивное редактирование изображений (Inpainting по тексту)

⚙️ Размер: всего 3B параметров
📊 Производительность:
• 69.6 баллов в OpenCompass (выше, чем у Qwen 2.5 и Ovis-2)
• GenEval Accuracy: 0.89 — превосходит GPT-4o
• ImgEdit-Bench: почти на уровне GPT-4o (4.0 vs 4.2)

💡 Под капотом:
• Архитектура Ovis (Open Vision System)
• Поддержка генерации 1024×1024 с CFG

Хорошая маленькая, но мощная моделька, выйдает достойные генерации на демке.

🟠Попробовать: https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B
🟠Модель: https://huggingface.co/AIDC-AI/Ovis-U1-3B

@ai_machinelearning_big_data

#Alibaba #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/01 07:04:20
Back to Top
HTML Embed Code: