Telegram Web Link
Нейродайджест за неделю (#58)

LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.

Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.

Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.

Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоги про AI/ML и прочее.


> Читать дайджест #57

#дайджест
@ai_newz
6👍8529🔥173
В Anthropic инвестировали ещё 3.5 миллиарда

После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.

Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард). Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.

@ai_newz
👍144🔥62😁25❤‍🔥9😱54🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас все вычисления производятся на серверах и ваш лаптоп служит вам только для того чтобы подключиться к машине с по ssh, локально почти никто ничего уже не запускает. Вот и тулы для программистов переезжают в клауд. Нактнулся на такую штуковину – SourceCraft. Это новая платформа для командной разработки от Yandex B2B Tech. Она поддерживает полный цикл разработки от постановки задачи до деплоя в облаке. Там много приблуд, которые спасают от рутины, например – быстрая навигация по коду, гибкая система CI/CD и др.

А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.

Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.

@ai_newz
😁260🫡75👍42🦄2623😱3🤩3🤯1
Новые Mac Studio — монстры локального инференса

В версии с новым чипом M3 Ultra до 512 гигабайт оперативки, с 800GB/s пропускной способности. Это позволяет запускать любые LLM с минимальной квантизацией, на достаточно высоких скоростях.

Ещё есть версия с M4 Max, где дают до 128 гигабайт оперативки, так же как и в последних макбуках. Жертвуя портативностью вы тут получаете заметно меньшую цену и сильно больше портов. Я давно топлю за локальный инференс, приятно видеть всё больше железа для него в массовой доступности.

Несмотря на больший объём оперативки, базовые версии стоят столько же сколько предыдущее поколение — $2,000 за 36GB версию M4 Max и $4,000 за 96GB версию M3 Ultra. Но цена за старшие версии уже начинает кусаться — за 256 гигабайт придётся отдать от $5,600 и от $9500 за версию с 512 гигабайт оперативки.

Но даже при такой бешенной цене, конкурентов в запуске больших моделей локально у M3 Ultra нету — в Nvidia Digits и Framework Desktop максимум 128 гигабайт оперативки, так что это конкуренты скорее M4 Max. К тому же они выйдут только через несколько месяцев, а Mac Studio релизится уже через неделю — 12 марта.

@ai_newz
🔥197🤯65👍3528🦄7😱1
QwQ 32B

Новый опенсорс от команды Qwen из Alibaba (не путать с QwQ-Preview, это совсем другая модель). LLM заметно обходит дистилы из R1 и даже полноценную R1 на ряде бенчей. Я немного пообщался с ней на Hyperbolic, выглядит как лучший ризонер, из тех что можно реально запустить дома.

Это не самая умная модель Qwen — недавно они ещё запустили Preview QwQ Max, попробовать можно на qwen.ai. Веса финальной модели обещают выложить под Apache 2.0 (вместе с Qwen 2.5 Max).

Веса
Блогпост

@ai_newz
🔥147👍4918😍6
AI для обработки звонков

Я уже писал о том, как топовые компании используют AI/ML в своей деятельности. Чаще всего нейронки используют в Customer Support/Service, правда, у них там свой штат программистов, которые им эти фичи кастомно прикручивают. Но сейчас эти процессы пытаются максимально автоматизировать, например, для речевой аналитики в контакт-центрах.

Тот же Yandex SpeechSense, который можно прицепить к своей стандартной CRM-ке, недавно научился выделять ключевые темы, проблемы и итоги диалогов с помощью YandexGPT. Такие смысловые теги помогают получить подробную аналитику по эффективности скриптов, проблемам/болям клиентов и кучу кастомизируемой статистики.

Здесь ребята на простых примерах показали, как это работает. Нейросеть анализирует диалоги из реальной жизни и определяет эффективность оператора, настрой клиента и то, что модель смогла выявить между строк. Вы также можете оценить диалог и дальше сравнить свое мнение с позицией беспристрастной нейросети.

@ai_newz
👍7228😁15🫡9🦄6🤯3🔥2💯1
Создатели Reinforcement Learning получили премию Тьюринга!

Эндрю Барто и Ричард Саттон разработали кучу основополагающих алгоритмов в RL. Они же потом и написали лучшую и самую влиятельную книгу по RL (рекомендую!), которую процитировали 75к+ раз. RL в последнее время на большом хайпе, и используется как в тренировке LLM так и в диффузии и робототехнике.

Премия Тьюринга — самая влиятельная премия в мире информатики, с которой идёт денежное вознаграждение в миллион долларов. Её в 2018 ещё получили Ян Лекун, Джеффри Хинтон и Йошуа Бенжио за deep learning.

Кстати, сейчас Саттон работает вместе с Джоном Кармаком над его стартапом Keen Technologies. Для тех кто не знает, Кармак — главный программист Doom, Quake, Wolfenstein 3D и бывший CTO Oculus, в 2022 году он ушёл из Meta чтобы самостоятельно работать над AGI.

@ai_newz
1272👍95🔥51❤‍🔥9🤯3😁2
Artificial Analysis протестили QwQ 32B

Модель показала себя очень хорошо для своего размера — местами она отстаёт лишь от o3-mini. К тому же она достаточно маленькая чтобы её захостили Groq — модель у них работает на скорости более чем в 400 токенов в секунду. Очень хороший пример пользы скоростного инференса.

@ai_newz
🔥140👍4312
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Image2Video

Tencent подсуетились и следом за WAN 2.1 выложили код и веса img2video функционала для своей базовой модельки в 13B параметров. Пример выше, конечно, впечатляет, но говорят, что на деле модель плохо сохраняет лицо и слабо следует промпту.

В стоке разрешение 720p с нехилыми требованиями — 60 GB VRAM, что сильно больше, чем у того же WAN. Официальная оптимизация fp8 пока в прогрессе, но умельцы уже умудрились запихнуть Хуянь в одну единственную RTX 3060. На генерацию видоса в 129 кадров (5 секунд) уходит 10 минут.

В целом, модель я бы сказал проходная — она буквально ни в чём не лучше WAN, ещё и более требовательная.

GitHub
Hugging Face

@ai_newz
👍61🔥20😁105❤‍🔥2😍2
Нейродайджест за неделю (#59)

LLM
- +3.5 миллиарда в Anthropic – компания наращивает капитал "маленькими", но частыми раундами, и вот зачем.
- QwQ 32B – добротный резонёр, который можно запустить локально, а по бенчам он лишь немного отстаёт от фронтира.

Генеративные модели
- Wan 2.1 на арене – топ среди опенсорса, но коммерческие модельки пока побить не удалось.
- Hunyuan Image2Video – опенсорс-ответка от Tencent на видеогенератор Alibaba Wan 2.1.

Прочее.
- Mac Studio – революция пришла откуда не ждали: запускаем самые тяжёлые модели и LLM на монстре от Apple. Аналогов НЕТ!
- SpeechSense – анализируем разговоры с клиентами при помощи LLM.
- RL = премия Тьюринга! – авторов наградили самой престижной премией по информатике и $1M.

> Читать дайджест #58

#дайджест
@ai_newz
6👍6730🔥8🙏31🦄1
Forwarded from Denis Sexy IT 🤖
Помните, почти год назад, когда анонсировали gpt4o обещали, что она будет делать и картинки (не через Dalle как сейчас) и вообще мультимодальная донельзя, и видео понимает и звук тп?

Кажется нас ждет скоро качественное обновление ChatGPT, с поддержкой понимания видео и новой генерацией/редактированием картинок
66🔥35👍25🦄75😍1
Через пять минут у OpenAI начинается очередной стрим

Обещают показать что-то новое для агентов в API.

https://www.youtube.com/watch?v=hciNKcLwSes

@ai_newz
🔥43😁13👍9🦄21
эйай ньюз
Через пять минут у OpenAI начинается очередной стрим Обещают показать что-то новое для агентов в API. https://www.youtube.com/watch?v=hciNKcLwSes @ai_newz
Новые тулы для агентов от OpenAI

🔎 Специальные версии GPT 4o/4o-mini в API теперь могут использовать поиск, прямо как ChatGPT .
🗄 В File Search докинули новых фич — теперь там можно фильтровать по метаданным и добавили способ искать по данным напрямую.
💻 Computer Use API — OpenAI по факту сделали доступным Operator в API, посмотрим как он сравнится с Claude 3.7.

Это всё доступно через новый Responses API, который приходит на замену Assistants API (Assistants API депрекейтнут в 2026). Старый Chat Completions API остаётся и ничего с ним не случиться.

Также OpenAI допилили Swarm — свой фреймворк для создания агентов. Теперь он называется OpenAI Agents SDK и готов к продакшену.

У OpenAI по прежнему ворох моделей с абсолютно разными возможностями, надеюсь они тут возьмут пример с Anthropic и наведут порядок.

@ai_newz
75👍50🔥16🦄7
This media is not supported in your browser
VIEW IN TELEGRAM
5🔥17447👍18🦄15😁5❤‍🔥3🤩1
🔥Gemma 3 - новый лидер (второе место) в опен-сорсе

Перфоманс:
- Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты, которые людям нравятся больше!
- Уделывает и Qwen-2.5-Max и o3-mini, приземлились где-то по середине между DeepSeek-V3 и DeepSeek-R1
- По перфомансу она сравнима (где-то лушче, где-то хуже) с Gemini 1.5 Flash, только зато теперь открытая!

Характеристики
- Контекст 128к токенов.
- 4 размера: 1B, 4B, 12B, 27B.
- Завезли мультимодальность в модели размерах 4-27B. Тут используют SigLIP (это сота CLIP на данный момент) в качестве картиночного энкодера.
- Мультиязычность на стероидах: Поддерживает 140 языков. Гораздо лучше GPT-4o на русском.
- Function Calling & Structured Output:
- 27B влезает в одну H100/A100 GPU в bf16 - и это очень удобно! Ее специально под это оптимизировали.
- На демо показали, что bf16 инференс съедает 20GB VRAM на A100.
- Уже завезли в Ollama и есть официальные квантованные версии.

Моя критика:
- Мультимодальность пока под вопросам. По некоторым бенчам Гемму-27B бьет даже Qwen-2.5-VL-7B, не говоря уже об InternVL-38B-MPO.
- Поговорил с человеком, который делал multimodal pre-training. Внятного ответа не получил. Был ответ в стиле "китайцы и мистраль накручивают бенчи".
- Ждем полноценного появления на VLM лидерборде. И нужно тестить на своих задачах.

В любом случае я рад появлению еще одной сильной модельки в опенсорсе, приближая нас к умному ассистенту у нас в кармане/под столом.

Tech Report
Бесплатное демо онлайн
Hugging Face
GitHub

@ai_newz
1🔥213👍5242❤‍🔥6😁5🤩5🦄3🙏2
Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro.

Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке.

Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100.

По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте.

ТехРепорт на хабре

@ai_newz
👍102🔥5012😁9🙏1
2025/07/10 14:39:30
Back to Top
HTML Embed Code: