Нейродайджест за неделю (#58)
LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.
Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.
Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.
Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоги про AI/ML и прочее.
> Читать дайджест #57
#дайджест
@ai_newz
LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.
Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.
Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.
Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоги про AI/ML и прочее.
> Читать дайджест #57
#дайджест
@ai_newz
6👍85❤29🔥17⚡3
В Anthropic инвестировали ещё 3.5 миллиарда
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард). Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард). Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
👍144🔥62😁25❤🔥9😱5❤4🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас все вычисления производятся на серверах и ваш лаптоп служит вам только для того чтобы подключиться к машине с по ssh, локально почти никто ничего уже не запускает. Вот и тулы для программистов переезжают в клауд. Нактнулся на такую штуковину – SourceCraft. Это новая платформа для командной разработки от Yandex B2B Tech. Она поддерживает полный цикл разработки от постановки задачи до деплоя в облаке. Там много приблуд, которые спасают от рутины, например – быстрая навигация по коду, гибкая система CI/CD и др.
А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.
Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
@ai_newz
А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.
Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
@ai_newz
😁260🫡75👍42🦄26❤23😱3🤩3🤯1
эйай ньюз
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше…
Wan 2.1 зашла на видео арену
Результаты неплохие, но закрытые модели не бьёт. А я всё ещё жду полноценного техрепорта.
А Veo2 все ещё держится в топе!
Арена
@ai_newz
Результаты неплохие, но закрытые модели не бьёт. А я всё ещё жду полноценного техрепорта.
А Veo2 все ещё держится в топе!
Арена
@ai_newz
🔥76👍23❤10😁5🤩2
Новые Mac Studio — монстры локального инференса
В версии с новым чипом M3 Ultra до 512 гигабайт оперативки, с 800GB/s пропускной способности. Это позволяет запускать любые LLM с минимальной квантизацией, на достаточно высоких скоростях.
Ещё есть версия с M4 Max, где дают до 128 гигабайт оперативки, так же как и в последних макбуках. Жертвуя портативностью вы тут получаете заметно меньшую цену и сильно больше портов. Я давно топлю за локальный инференс, приятно видеть всё больше железа для него в массовой доступности.
Несмотря на больший объём оперативки, базовые версии стоят столько же сколько предыдущее поколение — $2,000 за 36GB версию M4 Max и $4,000 за 96GB версию M3 Ultra. Но цена за старшие версии уже начинает кусаться — за 256 гигабайт придётся отдать от $5,600 и от $9500 за версию с 512 гигабайт оперативки.
Но даже при такой бешенной цене, конкурентов в запуске больших моделей локально у M3 Ultra нету — в Nvidia Digits и Framework Desktop максимум 128 гигабайт оперативки, так что это конкуренты скорее M4 Max. К тому же они выйдут только через несколько месяцев, а Mac Studio релизится уже через неделю — 12 марта.
@ai_newz
В версии с новым чипом M3 Ultra до 512 гигабайт оперативки, с 800GB/s пропускной способности. Это позволяет запускать любые LLM с минимальной квантизацией, на достаточно высоких скоростях.
Ещё есть версия с M4 Max, где дают до 128 гигабайт оперативки, так же как и в последних макбуках. Жертвуя портативностью вы тут получаете заметно меньшую цену и сильно больше портов. Я давно топлю за локальный инференс, приятно видеть всё больше железа для него в массовой доступности.
Несмотря на больший объём оперативки, базовые версии стоят столько же сколько предыдущее поколение — $2,000 за 36GB версию M4 Max и $4,000 за 96GB версию M3 Ultra. Но цена за старшие версии уже начинает кусаться — за 256 гигабайт придётся отдать от $5,600 и от $9500 за версию с 512 гигабайт оперативки.
Но даже при такой бешенной цене, конкурентов в запуске больших моделей локально у M3 Ultra нету — в Nvidia Digits и Framework Desktop максимум 128 гигабайт оперативки, так что это конкуренты скорее M4 Max. К тому же они выйдут только через несколько месяцев, а Mac Studio релизится уже через неделю — 12 марта.
@ai_newz
🔥197🤯65👍35❤28🦄7😱1
QwQ 32B
Новый опенсорс от команды Qwen из Alibaba (не путать с QwQ-Preview, это совсем другая модель). LLM заметно обходит дистилы из R1 и даже полноценную R1 на ряде бенчей. Я немного пообщался с ней на Hyperbolic, выглядит как лучший ризонер, из тех что можно реально запустить дома.
Это не самая умная модель Qwen — недавно они ещё запустили Preview QwQ Max, попробовать можно на qwen.ai. Веса финальной модели обещают выложить под Apache 2.0 (вместе с Qwen 2.5 Max).
Веса
Блогпост
@ai_newz
Новый опенсорс от команды Qwen из Alibaba (не путать с QwQ-Preview, это совсем другая модель). LLM заметно обходит дистилы из R1 и даже полноценную R1 на ряде бенчей. Я немного пообщался с ней на Hyperbolic, выглядит как лучший ризонер, из тех что можно реально запустить дома.
Это не самая умная модель Qwen — недавно они ещё запустили Preview QwQ Max, попробовать можно на qwen.ai. Веса финальной модели обещают выложить под Apache 2.0 (вместе с Qwen 2.5 Max).
Веса
Блогпост
@ai_newz
🔥147👍49❤18😍6
AI для обработки звонков
Я уже писал о том, как топовые компании используют AI/ML в своей деятельности. Чаще всего нейронки используют в Customer Support/Service, правда, у них там свой штат программистов, которые им эти фичи кастомно прикручивают. Но сейчас эти процессы пытаются максимально автоматизировать, например, для речевой аналитики в контакт-центрах.
Тот же Yandex SpeechSense, который можно прицепить к своей стандартной CRM-ке, недавно научился выделять ключевые темы, проблемы и итоги диалогов с помощью YandexGPT. Такие смысловые теги помогают получить подробную аналитику по эффективности скриптов, проблемам/болям клиентов и кучу кастомизируемой статистики.
Здесь ребята на простых примерах показали, как это работает. Нейросеть анализирует диалоги из реальной жизни и определяет эффективность оператора, настрой клиента и то, что модель смогла выявить между строк. Вы также можете оценить диалог и дальше сравнить свое мнение с позицией беспристрастной нейросети.
@ai_newz
Я уже писал о том, как топовые компании используют AI/ML в своей деятельности. Чаще всего нейронки используют в Customer Support/Service, правда, у них там свой штат программистов, которые им эти фичи кастомно прикручивают. Но сейчас эти процессы пытаются максимально автоматизировать, например, для речевой аналитики в контакт-центрах.
Тот же Yandex SpeechSense, который можно прицепить к своей стандартной CRM-ке, недавно научился выделять ключевые темы, проблемы и итоги диалогов с помощью YandexGPT. Такие смысловые теги помогают получить подробную аналитику по эффективности скриптов, проблемам/болям клиентов и кучу кастомизируемой статистики.
Здесь ребята на простых примерах показали, как это работает. Нейросеть анализирует диалоги из реальной жизни и определяет эффективность оператора, настрой клиента и то, что модель смогла выявить между строк. Вы также можете оценить диалог и дальше сравнить свое мнение с позицией беспристрастной нейросети.
@ai_newz
👍72❤28😁15🫡9🦄6🤯3🔥2💯1
Создатели Reinforcement Learning получили премию Тьюринга!
Эндрю Барто и Ричард Саттон разработали кучу основополагающих алгоритмов в RL. Они же потом и написали лучшую и самую влиятельную книгу по RL (рекомендую!), которую процитировали 75к+ раз. RL в последнее время на большом хайпе, и используется как в тренировке LLM так и в диффузии и робототехнике.
Премия Тьюринга — самая влиятельная премия в мире информатики, с которой идёт денежное вознаграждение в миллион долларов. Её в 2018 ещё получили Ян Лекун, Джеффри Хинтон и Йошуа Бенжио за deep learning.
Кстати, сейчас Саттон работает вместе с Джоном Кармаком над его стартапом Keen Technologies. Для тех кто не знает, Кармак — главный программист Doom, Quake, Wolfenstein 3D и бывший CTO Oculus, в 2022 году он ушёл из Meta чтобы самостоятельно работать над AGI.
@ai_newz
Эндрю Барто и Ричард Саттон разработали кучу основополагающих алгоритмов в RL. Они же потом и написали лучшую и самую влиятельную книгу по RL (рекомендую!), которую процитировали 75к+ раз. RL в последнее время на большом хайпе, и используется как в тренировке LLM так и в диффузии и робототехнике.
Премия Тьюринга — самая влиятельная премия в мире информатики, с которой идёт денежное вознаграждение в миллион долларов. Её в 2018 ещё получили Ян Лекун, Джеффри Хинтон и Йошуа Бенжио за deep learning.
Кстати, сейчас Саттон работает вместе с Джоном Кармаком над его стартапом Keen Technologies. Для тех кто не знает, Кармак — главный программист Doom, Quake, Wolfenstein 3D и бывший CTO Oculus, в 2022 году он ушёл из Meta чтобы самостоятельно работать над AGI.
@ai_newz
1❤272👍95🔥51❤🔥9🤯3😁2
Artificial Analysis протестили QwQ 32B
Модель показала себя очень хорошо для своего размера — местами она отстаёт лишь от o3-mini. К тому же она достаточно маленькая чтобы её захостили Groq — модель у них работает на скорости более чем в 400 токенов в секунду. Очень хороший пример пользы скоростного инференса.
@ai_newz
Модель показала себя очень хорошо для своего размера — местами она отстаёт лишь от o3-mini. К тому же она достаточно маленькая чтобы её захостили Groq — модель у них работает на скорости более чем в 400 токенов в секунду. Очень хороший пример пользы скоростного инференса.
@ai_newz
🔥140👍43❤12
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Image2Video
Tencent подсуетились и следом за WAN 2.1 выложили код и веса img2video функционала для своей базовой модельки в 13B параметров. Пример выше, конечно, впечатляет, но говорят, что на деле модель плохо сохраняет лицо и слабо следует промпту.
В стоке разрешение 720p с нехилыми требованиями — 60 GB VRAM, что сильно больше, чем у того же WAN. Официальная оптимизация fp8 пока в прогрессе, но умельцы уже умудрились запихнуть Хуянь в одну единственную RTX 3060. На генерацию видоса в 129 кадров (5 секунд) уходит 10 минут.
В целом, модель я бы сказал проходная — она буквально ни в чём не лучше WAN, ещё и более требовательная.
GitHub
Hugging Face
@ai_newz
Tencent подсуетились и следом за WAN 2.1 выложили код и веса img2video функционала для своей базовой модельки в 13B параметров. Пример выше, конечно, впечатляет, но говорят, что на деле модель плохо сохраняет лицо и слабо следует промпту.
В стоке разрешение 720p с нехилыми требованиями — 60 GB VRAM, что сильно больше, чем у того же WAN. Официальная оптимизация fp8 пока в прогрессе, но умельцы уже умудрились запихнуть Хуянь в одну единственную RTX 3060. На генерацию видоса в 129 кадров (5 секунд) уходит 10 минут.
В целом, модель я бы сказал проходная — она буквально ни в чём не лучше WAN, ещё и более требовательная.
GitHub
Hugging Face
@ai_newz
👍61🔥20😁10❤5❤🔥2😍2
Нейродайджест за неделю (#59)
LLM
- +3.5 миллиарда в Anthropic – компания наращивает капитал "маленькими", но частыми раундами, и вот зачем.
- QwQ 32B – добротный резонёр, который можно запустить локально, а по бенчам он лишь немного отстаёт от фронтира.
Генеративные модели
- Wan 2.1 на арене – топ среди опенсорса, но коммерческие модельки пока побить не удалось.
- Hunyuan Image2Video – опенсорс-ответка от Tencent на видеогенератор Alibaba Wan 2.1.
Прочее.
- Mac Studio – революция пришла откуда не ждали: запускаем самые тяжёлые модели и LLM на монстре от Apple. Аналогов НЕТ!
- SpeechSense – анализируем разговоры с клиентами при помощи LLM.
- RL = премия Тьюринга! – авторов наградили самой престижной премией по информатике и $1M.
> Читать дайджест #58
#дайджест
@ai_newz
LLM
- +3.5 миллиарда в Anthropic – компания наращивает капитал "маленькими", но частыми раундами, и вот зачем.
- QwQ 32B – добротный резонёр, который можно запустить локально, а по бенчам он лишь немного отстаёт от фронтира.
Генеративные модели
- Wan 2.1 на арене – топ среди опенсорса, но коммерческие модельки пока побить не удалось.
- Hunyuan Image2Video – опенсорс-ответка от Tencent на видеогенератор Alibaba Wan 2.1.
Прочее.
- Mac Studio – революция пришла откуда не ждали: запускаем самые тяжёлые модели и LLM на монстре от Apple. Аналогов НЕТ!
- SpeechSense – анализируем разговоры с клиентами при помощи LLM.
- RL = премия Тьюринга! – авторов наградили самой престижной премией по информатике и $1M.
> Читать дайджест #58
#дайджест
@ai_newz
6👍67❤30🔥8🙏3⚡1🦄1
Forwarded from Denis Sexy IT 🤖
Помните, почти год назад, когда анонсировали gpt4o обещали, что она будет делать и картинки (не через Dalle как сейчас) и вообще мультимодальная донельзя, и видео понимает и звук тп?
Кажется нас ждет скоро качественное обновление ChatGPT, с поддержкой понимания видео и новой генерацией/редактированием картинок
Кажется нас ждет скоро качественное обновление ChatGPT, с поддержкой понимания видео и новой генерацией/редактированием картинок
❤66🔥35👍25🦄7⚡5😍1
Через пять минут у OpenAI начинается очередной стрим
Обещают показать что-то новое для агентов в API.
https://www.youtube.com/watch?v=hciNKcLwSes
@ai_newz
Обещают показать что-то новое для агентов в API.
https://www.youtube.com/watch?v=hciNKcLwSes
@ai_newz
YouTube
New tools for building agents with the API
We’re evolving the API platform to make it faster and easier for developers to build agents. Kevin Weil, Nikunj Handa, Steve Coffey, and Ilan Bigio introduce and demo these new tools.
🔥43😁13👍9🦄2❤1
эйай ньюз
Через пять минут у OpenAI начинается очередной стрим Обещают показать что-то новое для агентов в API. https://www.youtube.com/watch?v=hciNKcLwSes @ai_newz
Новые тулы для агентов от OpenAI
🔎 Специальные версии GPT 4o/4o-mini в API теперь могут использовать поиск, прямо как ChatGPT .
🗄 В File Search докинули новых фич — теперь там можно фильтровать по метаданным и добавили способ искать по данным напрямую.
💻 Computer Use API — OpenAI по факту сделали доступным Operator в API, посмотрим как он сравнится с Claude 3.7.
Это всё доступно через новый Responses API, который приходит на замену Assistants API (Assistants API депрекейтнут в 2026). Старый Chat Completions API остаётся и ничего с ним не случиться.
Также OpenAI допилили Swarm — свой фреймворк для создания агентов. Теперь он называется OpenAI Agents SDK и готов к продакшену.
У OpenAI по прежнему ворох моделей с абсолютно разными возможностями, надеюсь они тут возьмут пример с Anthropic и наведут порядок.
@ai_newz
🔎 Специальные версии GPT 4o/4o-mini в API теперь могут использовать поиск, прямо как ChatGPT .
🗄 В File Search докинули новых фич — теперь там можно фильтровать по метаданным и добавили способ искать по данным напрямую.
💻 Computer Use API — OpenAI по факту сделали доступным Operator в API, посмотрим как он сравнится с Claude 3.7.
Это всё доступно через новый Responses API, который приходит на замену Assistants API (Assistants API депрекейтнут в 2026). Старый Chat Completions API остаётся и ничего с ним не случиться.
Также OpenAI допилили Swarm — свой фреймворк для создания агентов. Теперь он называется OpenAI Agents SDK и готов к продакшену.
У OpenAI по прежнему ворох моделей с абсолютно разными возможностями, надеюсь они тут возьмут пример с Anthropic и наведут порядок.
@ai_newz
❤75👍50🔥16🦄7
This media is not supported in your browser
VIEW IN TELEGRAM
5🔥174❤47👍18🦄15😁5❤🔥3🤩1
🔥Gemma 3 - новый лидер (второе место) в опен-сорсе
Перфоманс:
- Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты, которые людям нравятся больше!
- Уделывает и Qwen-2.5-Max и o3-mini, приземлились где-то по середине между DeepSeek-V3 и DeepSeek-R1
- По перфомансу она сравнима (где-то лушче, где-то хуже) с Gemini 1.5 Flash, только зато теперь открытая!
Характеристики
- Контекст 128к токенов.
- 4 размера: 1B, 4B, 12B, 27B.
- Завезли мультимодальность в модели размерах 4-27B. Тут используют SigLIP (это сота CLIP на данный момент) в качестве картиночного энкодера.
- Мультиязычность на стероидах: Поддерживает 140 языков. Гораздо лучше GPT-4o на русском.
- Function Calling & Structured Output:
- 27B влезает в одну H100/A100 GPU в bf16 - и это очень удобно! Ее специально под это оптимизировали.
- На демо показали, что bf16 инференс съедает 20GB VRAM на A100.
- Уже завезли в Ollama и есть официальные квантованные версии.
Моя критика:
- Мультимодальность пока под вопросам. По некоторым бенчам Гемму-27B бьет даже Qwen-2.5-VL-7B, не говоря уже об InternVL-38B-MPO.
- Поговорил с человеком, который делал multimodal pre-training. Внятного ответа не получил. Был ответ в стиле "китайцы и мистраль накручивают бенчи".
- Ждем полноценного появления на VLM лидерборде. И нужно тестить на своих задачах.
В любом случае я рад появлению еще одной сильной модельки в опенсорсе, приближая нас к умному ассистенту у нас в кармане/под столом.
Tech Report
Бесплатное демо онлайн
Hugging Face
GitHub
@ai_newz
Перфоманс:
- Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты, которые людям нравятся больше!
- Уделывает и Qwen-2.5-Max и o3-mini, приземлились где-то по середине между DeepSeek-V3 и DeepSeek-R1
- По перфомансу она сравнима (где-то лушче, где-то хуже) с Gemini 1.5 Flash, только зато теперь открытая!
Характеристики
- Контекст 128к токенов.
- 4 размера: 1B, 4B, 12B, 27B.
- Завезли мультимодальность в модели размерах 4-27B. Тут используют SigLIP (это сота CLIP на данный момент) в качестве картиночного энкодера.
- Мультиязычность на стероидах: Поддерживает 140 языков. Гораздо лучше GPT-4o на русском.
- Function Calling & Structured Output:
- 27B влезает в одну H100/A100 GPU в bf16 - и это очень удобно! Ее специально под это оптимизировали.
- На демо показали, что bf16 инференс съедает 20GB VRAM на A100.
- Уже завезли в Ollama и есть официальные квантованные версии.
Моя критика:
- Мультимодальность пока под вопросам. По некоторым бенчам Гемму-27B бьет даже Qwen-2.5-VL-7B, не говоря уже об InternVL-38B-MPO.
- Поговорил с человеком, который делал multimodal pre-training. Внятного ответа не получил. Был ответ в стиле "китайцы и мистраль накручивают бенчи".
- Ждем полноценного появления на VLM лидерборде. И нужно тестить на своих задачах.
В любом случае я рад появлению еще одной сильной модельки в опенсорсе, приближая нас к умному ассистенту у нас в кармане/под столом.
Tech Report
Бесплатное демо онлайн
Hugging Face
GitHub
@ai_newz
1🔥213👍52❤42❤🔥6😁5🤩5🦄3🙏2
Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.
Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке.
Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.
По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте.
ТехРепорт на хабре
@ai_newz
Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке.
Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.
По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте.
ТехРепорт на хабре
@ai_newz
👍102🔥50❤12😁9🙏1