Telegram Web Link
Тут на YC AI Startup School уже выступили CEO OpenAI, co-founder Anthropic, CEO Perplexity.

Как же разнятся мнения среди докладчиков.

Сэма: наши модели самые лучшие, и будут еще круче. Давай все стройте стартапы поверх нашей платформы!
@
Каплан (Антропик): по-тише там с АГИ. Safety, safety, safety не забывайте. Давай лучше только мы будем аги тренить, так спокойнее.
@
Шолле: до AGI еще как до Китая раком. И вот вам бенчмарк, который показывает почему!

--

Конечно же было много мотивационных речей и булшита, доклады не технические (это вам не CVPR).

Но самым интересным был доклад от François Chollet - он говорил про ограничения текущих самых сильных моделей (вроде o3) и рассказал, что в них не хватает. Я хочу про это еще отдельный пост написать.


🔥Кстати, подозреваю что тут есть как минимум человек 10 из читателей канала. Давай организуем своё афтерпати сегодня в СФ. Залетайте в чат: https://www.tg-me.com/+E2Elz7FxXTdlMTMy

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Гвоздь дня – Андрей Карпатый. Рассказывает про то как Software эволюционирует  с приходом AI. Software 3.0

@ai_newz
А теперь главноеbuild for agents.

(c) Андрей Карпатый

@ai_newz
Сегодня принесу вам пару классных вакансий, а затем продолжим с разбором YC AI Startup School. Надеюсь, они выложат записи всех докладов на YouTube, по крайней мере так планировалось.

Вчера из интересного еще выступал Andrew Ng - давал советы по тому, как строить стартапы, и Chelsea Finn - рассказывала про их роботов и модель Pi.

@ai_newz
🚨Швейцарский стартап ищет CAIO / Chief Scientist (LLM Quality) 🚨

Знакомые ребята в Цюрихе (core team с сильным техническим бэкграундом, ex Big Tech) строят b2b-стартап и систему для оценки качества LLM-ок на реальных данных. Они делают авторейтеры, бенчмарки, внутренние метрики и дашборды, чтобы точно измерять, насколько эффективно модель работает для чатботов и агентов клиентов.

Что будет делать CAIO / Chief Scientist:
• Проектировать фреймворки для оценки работы LLM.
• Руководить сбором данных, тюнингом промптов и бенчмаркингом.
• Строить системы автооценки,
• Разрабатывать метрики (в категориях usefulness, safety и т.д.).
• Влиять на продуктовую стратегию и общаться с клиентами.

Что ожидается:
• MSc/PhD в ML / CS / Applied Math.
• 5+ лет опыта в AI/ML research, особенно в NLP / LLM.
• Глубокая экспертиза в LLM, трансформерах, prompt engineering и fine-tuning.
• Публикации в топ-журналах и конференциях (NeurIPS, ICML, ICLR, ACL и др.).
• Опыт выступлений на профильных конференциях.
• Участие в OSS или создание собственных ML/infra-инструментов.

Условия:
• Локация — Цюрих (on-site), помогут сделать рабочую визу и переехать 🔥.
• Высококонкурентная ЗП (250k+ CHF) + опционы.
• Полный соцпакет (Швейцария).
• Доступ к compute & tooling от топ-вендоров.
• Много автономии + быстрые решения.


Пишите на 👉[email protected], указав LinkedIn, резюме и список топ достижений и выступлений.

Остальные открытые вакансии — на сайте: llms.ch (есть и ресерч, и инженерные вакансии).
Это реальный шанс залететь в стартап на ранней стадии и создать следующее поколение LLM-продуктов для бизнеса!

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney запустили видеомодель - V1

Доступно всем подписчикам начиная с 10 долларов. Разрешение пока 480p и всего 5 секунд генерации, возможно это для изначального запуска чтобы сервера не поплавились, но позволяют догенеривать следующие сегменты. Выдаёт по 4 видоса на промпт (как и обычная миджорни для генерации картинок) да и генерит быстро.

Красиво, без артефактов, но сильно хорошей симуляции нет. Компания долго шла к видео — почти два года. Почему так много времени — генерация видео это очень дорогое удовольствие, а Midjourney зависит лишь от своей выручки и никогда не брала сторонних инвестиций.

Анонс

@ai_newz
эйай ньюз
Photo
Как и обещали, YC начали выкладывать видео с AI Startup School, который я посещал на этой неделе.

Вот видео выступления Карпатого. Рекомендую к просмотру!

Software is changing (again)

@ai_newz
А вот выступление Илона Маска. Он сам приехать на YC AI Startup School не смог, из-за чего я очень огорчился (я хотел с ним занетворкать). Но выступление было по видеосвязи.

Это был разговор о провалах, первых принципах и будущем сверхинтеллекта. От Zip2 и PayPal до SpaceX и xAI — Маск поделился ключевыми уроками, которые сформировали его подход к технологиям, лидерству и искусственному интеллекту.

@ai_newz
Нейродайджест за неделю (#74)

Неделя YC AI Startup School
- Выступление Сэма Альтмана — прямое включение с места событий!
- Про AGI и мнения — были представители всех «кланов»: и Сэм Альтман, и Каплан из Anthropic, и Шолле — у всех своё мнение.
- Немного Сатьи Наделлы — это который CEO Microsoft, если вдруг.
- Ну и наш любимый Карпатый — build for agents. И сразу запись.
- Что рассказывали Andrew Ng и Chelsea Finn — немного про стартапы и роботов.
- Даже мистер Elon Musk появился — правда, только онлайн, а жаль, думал занетворкать.

Генеративные модели
- Midjourney V1 — самая эстетичная модель от самого эстетичного генератора картинок, но пока, конечно, совсем не Veo и, может, даже и не Kling.

> Читать дайджест #73

#дайджест
@ai_newz
Методология A/B тестирования в X5 и ее реализация прошли научную проверку

X5 Group представила свою методологию A/B тестирования для научной проверки. Эксперты Международной лаборатории стохастических алгоритмов и анализа многомерных данных факультета компьютерных наук НИУ ВШЭ подтвердили, что платформа соответствует современным научным стандартам.

Методология разрабатывалась в компании аж с 2019 года и активно применяется с 2022 года. За это время удалось реализовать не менее 500 разнообразных экспериментов. Тестирование позволяет оценивать влияния различных изменений на работу конкретных магазинов.

Платформа тестирует влияние разных факторов: новые технологии, изменения бизнес-процессов, маркетинговые акции, смена поставщиков и другое. Она оценивает финансовые эффекты по различным метрикам: РТО, средний чек, фронт-маржа, списания и другие.
Тестирование проходит через сравнение двух групп магазинов: где изменения внедрены и где их нет. Причем сам процесс занимает минимальное время, так как рынок требует быстрых решений и моментальной реакции на любые корректировки.

@ai_newz
HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL.

Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах.

Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization.

Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах.

Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%.

Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину.

Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS.

Веса 4B модели
Датасет
Блогпост о тренировке

@ai_newz
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта

Пейпер

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini CLI — официальный агент для Gemini от Google

Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.

Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.

npm install -g @google/gemini-cli


Блогпост
Исходники

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь Claude Artifacts могут вызывать API Claude

Это
делает их заметно полезнее — теперь можно создавать полноценные интерактивные инструменты прямо в чате, а в дальнейшем сюда явно напрашивается интеграция MCP. Сделали и отдельную страницу со всем артефактами созданными юзером, плюс парой десятков примеров, которые можно ремиксить. Апдейт уже доступен всем не-энтерпрайз юзерам, даже бесплатным. Лимиты у использования Claude в чате и в артефактах одни и те же.

claude.ai/artifacts

@ai_newz
2025/07/04 15:25:25
Back to Top
HTML Embed Code: