Исследовательская группа под патронажем Centrale Supélec (Университет Париж-Сакле) выпустила в открытый доступ EuroBERT — семейство мультиязычных энкодеров, обученных на 5 трлн. токенов из 15 языков, включая русский.
EuroBERT сочетает инновационную архитектуру с поддержкой контекста до 8192 токенов, что делает это семейство идеальным для анализа документов, поиска информации, классификации, регрессии последовательности, оценки качества, оценки резюме и задач, связанных с программированием, решением математических задачи.
В отличие от предшественников (XLM-RoBERTa и mGTE), EuroBERT объединил GQA, RoPE и среднеквадратичную нормализацию, чтобы достичь беспрецедентной эффективности производительности даже в сложных задачах. Второе немаловажное преимущество EuroBERT - в обучение помимо текстовых данных были включены примеры кода и решения математических задач.
Самая младшая модель EuroBERT с 210 млн. параметров показала рекордные результаты: в тесте MIRACL по многоязычному поиску её точность достигла 95%, а в классификации отзывов (AmazonReviews) — 64,5%. Особенно выделяется умение работать с кодом и математикой — в бенчмарках CodeSearchNet и MathShepherd EuroBERT опережает аналоги на 10–15%.
⚠️ EuroBERT можно использовать непосредственно с
transformers
, начиная с версии 4.48.0⚠️ Для достижения максимальной эффективности, разработчики рекомендуют запускать EuroBERT с
Flash Attention 2
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_id = "EuroBERT/EuroBERT-210m"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)
text = "The capital of France is <|mask|>."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token: Paris
▪Лицензирование: Apache 2.0 License.
▪Статья
▪Коллекция на HF
▪Arxiv
▪GitHub (Скоро)
#AI #ML #Encoder #EuroBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Вот все, что вам нужно знать.
- Мулльтимодальная модель, превосходит GPT 4.5 в нескольких бенчмарках всего за 1% от цены GPT 4.5
- OpenAI GPT 4.5 - Input: $75 / 1M токенов, Output: $150 / 1M токенов;
- ERNIE 4.5 - Input: $0.55 / 1M токенов, Output: $2,20 / 1M токенов
- Ризонинг модель с мультимодальными возможностями, спроизводительностью на уровне с DeepSeek R1, но в два раза дешевле.
Чатбот с искусственным интеллектом ERNIE Bot доступен бесплатно для всех пользователей.
Обе модели доступны в свободном доступе ERNIE Bot на его официальном сайте: https://yiyan.baidu.com.
#ernie #ai #llm #Baidu
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Архитектура YOLO (You Only Look Once) получила своё название благодаря подходу, при котором нейронная сеть анализирует всё изображение целиком за один проход, чтобы определить присутствие и расположение объектов. Это отличается от других методов, которые сначала выделяют потенциальные области с объектами, а затем отдельно классифицируют их, что требует нескольких обработок одного изображения
YOLOE сохраняет принцип однократного взгляда на изображение для детекции объектов, но вносит архитектурные улучшения, направленные на повышение точности и эффективности модели.
▪ Ключевые отличия от классического YOLO:
- Оптимизированная архитектура: В YOLOE внедрены новые подходы для более эффективной обработки признаков, что позволяет улучшить качество детекции без значительного увеличения вычислительных затрат.
- Повышенная точность: Улучшенные модули и методы, такие как ре-параметризация отдельных блоков, способствуют более точному обнаружению объектов, включая мелкие и сложно различимые элементы.
- Скорость и эффективность: YOLOE сохраняет высокую скорость инференса, делая его пригодным для задач в реальном времени, при этом обеспечивая конкурентоспособное соотношение производительности и точности.
YOLOE представляет собой современное и улучшенное решение для задач детекции объектов, совмещающее лучшие стороны классического YOLO с новыми архитектурными подходами.
#yoloe #opensource #ml #ai #yolo #objectdetection
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM