Telegram Web Link
Ночные новости одной строкой:
— DeepSeek выпустили новую модель, V3.1. По размерам и форм-фактору как R1/V3, и она сочетает в себе обычную + рассуждающую модель (как Claude). По некоторым метрикам ниже или на уровне R1, но главное — меньше длина цепочек рассуждений.
— Появились новости, что DeepSeek не выпустили другую модель (больше/лучше), так как ККП «попросили» их запускать тренировку на чипах Huawei. Несмотря на выделение инженерной команды со стороны последних, всё равно были какие-то проблемы, и тренировку будут запускать на картах Nvidia, а Ascend оставят для развёртывания.
— Ранее (весной?) были слухи, что у каких-то ведущих исследователей DeepSeek ККП отобрала загранпаспорт, чтобы они не могли уехать. Тогда я новость не писал, так как не ясно, насколько это близко к реальности, но сейчас кажется, что будто бы это правда.
— В проекты ChatGPT добавили память в рамках проектов. Немного обновили Codex, теперь окружение собирается быстрее, и можно добавлять картинки в запрос. Видимо, кто-то решил вернуться к вопросу UX — ждём новых продуктовых фичей.
— OpenAI с релизом GPT-5 запустили priority-тир в API: за двойную цену использования ваши запросы будут обрабатываться быстрее (быстрее ответ + скорость генерации). На картинке и вот тут можно посмотреть приросты на практике. Может быть полезным в пользовательских приложениях для VIP-клиентов. Работает не только для моделей пятого поколения, см. тут — даже коммитятся на кол-во токенов в секунду!
6👍10730❤‍🔥18🔥1110💩3🤡3💔1👨‍💻1
Обсуждал со знакомым релиз GPT-5, и он в попытках переубедить меня написал следующее: «Такое упражнение: отмотай на год назад и посмотри на свои ожидания от gpt-5».

И... я ещё раз убедился, что действительно за всего лишь год индустрия прошла большой путь:

— год назад даже не было рассуждающих моделей, первая, o1, была представлена лишь в сентябре (и нам дали поиграться с preview)

— основной рабочей лошадкой были GPT-4o и Claude 3.5 (даже не 3.6)

— не было ни Deep Research, ни Pro-версии; любой большой анализ часто занимал 3-4-5-6 промптов, и задачу приходилось футболить туда-сюда. Я не помню, чтобы пользовался LLM-поиском и агрегацией новостей, так как не доверял качеству, но возможно в августе уже было неплохо.

— максимальный объём кода, который я ожидал от модели в ответ на свой запрос, был примерно 100-150 строк. Рассуждающие модели конечно сильно нарастили этот объём.

o3, выпущенная 16 апреля — за 3.5 месяца до GPT-5 — была значимым шагом по отношению к o1, особенно в части поиска, и если бы её назвали GPT-5 — многие, включая меня, были бы рады. Но этого не случилось.

Как я не ожидал анонса o3 на декабрьских стримах под предлогом «так o1 вот только-только же показали, куда ещё то?», так и не ожидал огромного эпохального скачка от апреля до августа. При этом для бесплатных пользователей и для значимой части платных новые рассуждающие модели — это большой скачок.

Я не знаю, как надо сравнивать оригинальный релиз GPT-4 и GPT-5, чтобы говорить, что не произошло скачка как минимум уровня GPT-3.5 -> GPT-4. Просто все улучшения мы получали порциями и пробовали сразу: гораздо более дешёвая GPT-4-Turbo, чуть более умная и ещё более дешёвая GPT-4o (у которой вышло 3-4 версии!), рассуждающие модели, агенты. И действительно каждый отдельный шаг мог не казаться большим (ну, кроме ризонеров).

Множество маленьких шагов приводят к большим переменам. Общая тенденция по-прежнему весьма позитивна.

Как я писал про Gemini 2.5, и как я пишу сейчас про GPT-5 — модели становятся лучше, но на вещах, которые текущие популярные бенчмарки не покрывают. Может создаваться ощущение, что никакого прогресса нет, но уже появилось 2-3 свежих бенчмарка (например тут или тут), где пятёрка отрывается от предшественников.

Единственное, чего мне не хватило — это релиза большой модели. GPT-5 +- такая же (по количеству активных параметров; total может быть больше, но не на порядок), как GPT-4o, ведь OpenAI должны масштабировать её на миллиард пользователей.

В этом плане Anthropic круче: у них есть тяжеловес Opus, который настолько дорогой, что во многие бенчмарки его просто не добавляют. Люди мало им пользуются в Claude Code, ибо доллары улетают вмиг. Вот была бы какая-то GPT-5-Big... но может скоро и она появится? 🥲 ждём
5🔥224🤡121👍4932❤‍🔥23🤣7🎉3💔3🤔21
План миссии Flight 10. До старта ~ 13.5 часов.

Четвёртый и предпоследний полёт Starship из проблемного блока V2. На данном этапе SpaceX отстаёт почти на 8 месяцев по некоторым задачам на 2025 год, поэтому ожидания от этого пуска — крайне высокие.

Основные цели этой миссии: довести корабль до планового входа в атмосферу и протестировать тепловой щит, выгрузить макеты спутников Starlink V3, и провести эксперименты с посадкой Super Heavy B16 в заливе, а Starship S37 в нужную точку в Индийском океане.

На корабле Starship S37 вновь будет множество экспериментов теплозащиты, которые не успели провести в предыдущие… 3 раза, и вновь сняли часть плиток, так что риски потерять корабль при входе в атмосферу остаются высокими. Особое опасение вызывают аэродинамические накладки и нижние плавники — там сняли защиту в очень критических местах.

Ключевые этапы миссии Flight 10:
⚪️ Старт и прохождение зоны Max Q;
⚪️ Горячее разделение с плановым отклоном ускорителя в нужную сторону;
⚪️ Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
⚪️ Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
⚪️ Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
⚪️ Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
⚪️ Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
⚪️ Выход корабля Starship S37 на плановую незамкнутую орбиту;
⚪️ Открытие шлюза грузового отсека;
⚪️ Демонстрация выгрузки 8 макетов спутников Starlink V3;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
⚪️ Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
⚪️ Перезапуск 3 двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.

Время запуска Flight 10 на 24 августа:
- 18:30 CT
- 23:30 UTC
- 01:30 CET (25 мая)
- 02:30 MSK (25 мая)

Окно запуска продлится 60 минут. Основой риск переноса пуска сегодня — погода.

Официальная трансляция в 4K тут (стартует за 35-40 минут до запуска) — https://x.com/i/broadcasts/1yoKMPRjeYYxQ

Всем заранее приятного просмотра, команде удачи, и посетителям беречь уши.
И помните, что успех не гарантирован, но точно будет весело 🚀

📸: Starship Gazer
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥81👍35🔥24🤡13💩10👨‍💻1
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.

Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:

— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения

— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода

— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов

— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен

— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте

— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.

Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.

Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
2👍72🔥24❤‍🔥8👨‍💻4🤡3👎2🎉1
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%. Модель от OpenAI также набрала больше всех в каждом домене, кроме, внезапно, Browser Automation, где немного выбился вперёд Grok 4.

Лучшая опенсурс-модель — GLM-4.5, хотя я думал бы на Kimi-K2, ведь они так описывали свой процесс дообучения использованию MCP.
1👍86👎29❤‍🔥12🌚5🔥4👨‍💻4💩1🤡11
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.

В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.
1👍90🎉17❤‍🔥12🤡9🤔4👎3👨‍💻1
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM. Dylan Patel, основатель SemiAnalysis, в недавнем подкасте отвечал на вопрос: насколько он верит, что кто-то сможет составить серьёзную конкуренцию Nvidia? Он скептичен: у зелёного гиганта есть куда двигаться по всем осям. У них огромная наценка, они могут начать её уменьшать и оставаться конкурентными. У них лучше настроены цепочки поставок, у них огромные объёмы — поэтому себестоимость производства банально ниже. Но самый главый козырь Nvidia — это софт, который позволяет компаниям учить и применять LLM.

Dylan ещё давно говорил и писал, что в AMD инженеры не хуже; их железо, сами видеокарты, сравнимы с Nvidia по цифрам, но как дело доходит до использования в масштабе сотен-тысяч карт — всё сильно хуже. То есть AMD тратит больше денег, чтобы сделать начинку лучше, но из-за разницы в ПО не может раскрыть его на полную.

Мне было интересно понять, насколько заметен эффект от улучшения софта у Nvidia, и вот SemiAnalysis выложили интересные цифры замеров. Они пробовали тренировать аналог GPT-3, то есть большую модель без использования микстуры экспертов (сейчас так почти не делают), с актуальными версиями библиотек на разные моменты времени, с января по декабрь 2024-го. Использовали GPU H100, которые на момент начала эксперимента уже год как были на рынке и устанавливались в ДЦ — кажется, что софт уже должен быть готов и дописан?

Если сравнивать перформанс на начало и конец периода, то MFU (model flops utilization, доля утилизации от пиковой для GPU) вырос с 34% до 54% — относительный рост на целых 57%! Ничего в железе не поменялось, просто обновили драйвера, библиотеки, и стало работать гораздо более эффективно. Основные улучшения, согласно статье — в CuDNN/CuBLAS и NCCL.

(Если вам интересно, то это в BF16, в FP8 29.5%->39.5%, рост на 34%. Тренировка на 128 GPU)

Что это означает на практике? Помимо очевидного «тренировка становится дешевле» — компании на передовой, OpenAI, Anthropic, Google, все заинтересованы в выжимании максимума из своего железа. Подумайте сами, исследователь может придумать трюк в архитектуре, который улучшит обучение на 3-4-5%. А тут можно получать десятки процентов за счёт оптимизации софта! При запусках на сотни миллионов и миллиарды долларов это огромные цифры. Инженеры, могущие это делать, в огромном спросе.

===

И из той же заметки — про новые GB200 NVL72. Сейчас они только-только заходят на рынок и в датацентры. По словам SemiAnalysis, на них никто не тренирует модели, только делают инференс + занимаются отладкой. Софт пока не настолько отточен, и само железо часто выходит из строя. В одной такой стойке 72 видеокарты, как подсказывает название, но обучение, по плану Nvidia, должно производиться на 64 GPU. 8 соседних лежат готовенькие, чтобы прийти на смену выходящим из строя GPU и подхватить их нагрузку. В это время вы или теряете деньги, или можете их использовать для чего-то ещё (неприоритетные эксперименты, инференс, итд).

Сейчас карты только-только сравнялись по перформансу на доллар с H100, весной они были хуже — потому что ПО от Nvidia было сырым. К концу года, по прогнозу Nvidia, в который SemiAnalysis, судя по цитированию, верят, GB200 будут в 2.7 раза более эффективны в пересчёте на доллар за единицу вычислений, по отношению к H100 (это с учётом того, что GB200 значимо дороже). Ждём, когда на них будут запускать тренировку фронтир-моделей 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥139🤯34👍21🤔85🎉2👨‍💻2🌚1
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает обычно, например, в DeepSeek R1:
1. Собирают задачи по математике и программированию, где правильный ответ легко проверяется. Для математики проверка — это сверка ответов, для программирования — прогон десятков тестов.
2. Начинают обучение, модель генерирует варианты, ответы извлекаются и верифицируются (запускаются тесты итд).

Seed-Thinking-Verifier — это модель, которая дополняет этот процесс, на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения — это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа. В её промпт всегда подаётся правильный ответ и _какой-то_ ответ. Например, это может быть пара 524288 и 2^19 (оба числа равны, но простая проверка в лоб не выявит этого).

Кроме этого, Seed-Thinking-Verifier может помочь с решением проблем, которые часто возникают с «обычным» верификатором, например, пограничные/крайние случаи, которые не тестируются/не описаны в и исходном ответе.

А теперь рубрика «я нипонел» 😐 — вот авторы говорят это всё, но... при этом применяют Seed-Thinking-Verifier только для STEM задач (большая часть из них — математика). При этом прям отдельно написано, что у них есть неверифируемые задачи (то есть там где нет однозначно правильного/неправильного ответа, скажем, креативное письмо или перевод). Для них используется обычный Reward modelling, хотя казалось бы именно тут Thinking-Verifier может расцвести! Может быть, в 2.0 версии исправят

Картинка: сравнение верификатора без рассуждений (модель предсказывает YES/NO по промпту + истинному ответу + ответу модели) и Seed-Thinking-Verifier. Оба обучены на одном и том же наборе данных и там получают 99% правильных оценок. А на семпле в 456 отобранных новых запросов заметна разница — рассуждающий верификатор гораздо более точен и почти не ошибается.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🤔15🔥11👨‍💻421
Сиолошная
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает…
Пример работы

Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ _какой-то_ модели (во время тренировки). При этом ответы отличаются, но не ясно, идентичны ли они с точки зрения математики.

Seed-Verifier смотрит на это, видит, что не совпадают — и говорит «ответ неправильный, штрафуем модель»

Thinking же начинает их сравнивать, оценивает промежуточные значения, и приходит к выводу, что ответы идентичны — а значит нужно выдать «ответ правильный, награждаем обучаемую модель».
1👍56🤔26🔥136😈2❤‍🔥11
Всем тем, кто последние недели ждал нано-банану — праздник: Google официально выпустили апдейт своей image-editing модели. Всё как и раньше: 0-1-2-N картинок на вход, ваш промпт-команда, и на выход новое отредактированное/созданное изображение.

На LMSys Arena модель идёт с огромным отрывом от Flux и модельки OpenAI, 1362 очка Эло против 1190/1170, что означает, что винрейт примерно 75% 🤯

Цена генерации по API: $0.039 за картинку.

Где пробовать: Gemini app на вашем смартфоне или в AI Studio (бесплатно и там и там)

Анонс

UPD: в AI Studio доступно бесплатно тут, но нужен американский VPN.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤‍🔥127👍48🔥314🤔1🤡1
Когда деньги решают не всё: по информации wired, как минимум три человека уже успели покинуть META Superintelligence Team. Двое из них вернулись в OpenAI 🤗 — менее чем через месяц после ухода.

Совсем недавно в Твиттере один из других членов команды писал, что он и двое его коллег на данный момент запускают эксперименты на сервере с шестью видеокарточками — потому что ждут, пока им дадут все доступы/утрясут организационные вопросы/итд 🙂 вот это я понимаю ОРГАНИЗАЦИЯ 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
1🌚180🤣147👍38🤡118🔥4💩2🤔1
NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях» — или по простому как часто модель отвечает на не безопасные вопросы.

Что примечательно, GPT-5 и недавние GPT-OSS находятся в самом низу, что плохо, если вы хотите узнать, как сделать динамит в домашних условиях. Но зато OpenAI нельзя упрекнуть, что они говорят про AI Safety просто так, для прикрытия — во многих схожих бенчмарках их модели зачастую лидируют или хотя бы находятся в топе. OpenAI даже запустили конкурс (по стечению обстоятельств, он заканчивается сегодня!) на полмиллиона долларов, которые выплатят командам, предложившим лучшие способы обхода встроенного в модели механизма безопасности.

Grok от Elon Musk в самом верху 🙂 — отвечает аж на половину таких запросов. Похоже, не зря недавно компанию покинул со-основатель Igor Babuschkin — он как раз выражал обеспокоенность вопросом безопасности ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥94🌚2820👍17🤡7💔3💩2👨‍💻21
Media is too big
VIEW IN TELEGRAM
Быстрые итоги Flight 10.

Это был успешный запуск, но с парой оговорок. Теперь точно можно сказать, что проклятье блока V2 наконец-то побеждено, и SpaceX провели самую насыщенную миссию в тестовой программе Starship, включая ряд впервые выполненных задач.

Ключевые этапы миссии Flight 10:
🟢 Старт и прохождение зоны Max Q;
🟢 Горячее разделение с плановым отклоном ускорителя в нужную сторону;
🟡 Запуск 6 двигателей на Starship S37 и перезапуск 10 двигателей (3 будут работать) Super Heavy B16 для первого тормозного манёвра;
🟢 Сброс HSR и вход Super Heavy B16 в атмосферу под более высоким углом атаки с прохождением зоны максимальных нагрузок;
🟡 Перезапуск 12 из 13 двигателей Super Heavy B16 для второго тормозного манёвра с плановым отключение 1 из 3 центральных;
🟢 Продолжение тормозного манёвра Super Heavy B16 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
🟢 Мягкая посадка Super Heavy B16 на воду с последующим затоплением;
🟢 Выход корабля Starship S37 на плановую незамкнутую орбиту;
🟢 Открытие шлюза грузового отсека;
🟢 Демонстрация выгрузки 8 макетов спутников Starlink V3;
🟢 Тест перезапуска 1 двигателя Raptor на орбите;
🟢 Вход Starship S37 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
🟢 Обрезанная теплозащита Starship S37 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
🟢 Перезапуск 3(?) двигателей S37 с симуляцией мягкой посадки в океан в нужной точке.

Starship S37 наконец-то испытал тепловой щит блока V2 и показал великолепную живучесть во время входа в атмосферу — даже с отсутствием плиток в критических местах, явных аномалиях, намеренно высоких нагрузках и прогаре плавников, он всё равно сел в нужную точку в океане рядом с буем. Но впереди долгая дорога к полной многоразовости — система ещё далека от неё. Также впервые за 3 года, наконец-то был испытан механизм выгрузки Starlink V3, который будет важным звеном самой большой спутниковой группировки. Но эту часть тоже надо дорабатывать.

А теперь про проблемы:
T+00:01:33 — отключение 1 из 33 двигателей Raptor 2 на ускорителе B16. Явно нештатный отказ, но автоматика отключила раньше взрыва турбины.

T+00:19:57 — впервые испытанный механизм выгрузки Starlink V3 пока работает неидеально и макеты ударялись о шлюз при выгрузке.

T+00:47:00 — взрыв в двигательном отсеке со стороны нижнего левого плавника. Возможно, что как-то связано с линией дренажа двигателей Raptor.

И конечно, состояние теплового щита, которое видно в момент посадки. На данном этапе можно констатировать, что щит «одноразовый» и дешёвый переиспользуемый щит — главный вызов в программе.

И ускоритель, и корабль, смогли пережить вход в атмосферу с более высокими нагрузками — мы в прямом эфире, как выразились ведущие, наблюдали за «издевательствами» над системой ради сбора данных. У системы огромный запас прочности.

Поздравляем команду SpaceX с важным этапом. Они в очередной раз подтвердили, что умеют исправлять проблемы. Позже ожиданий, но всё ещё быстрее остальных 🚀

Flight 11 скоро.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍242🎉99🔥54🤡65❤‍🔥4💩2👨‍💻2
😢 хотел сегодня написать разбор двух статей а написал 0

статьи достаточно технические 🤓, нет ощущения, что многим будет интересно + полезно...
Please open Telegram to view this post
VIEW IN TELEGRAM
7💔371118👍36❤‍🔥24🤡16🤣14🌚12🤔8💩7👎62
От одного из авторов AI 2027 слышал рассуждения, что ограничение поставок GPU в Китай носит двойной характер: это даёт меньше мощностей сейчас, в моменте, но заставляет Партию сильнее задуматься о захвате Тайваня наращивании своего производства и его развитии. Поэтому с точки зрения регуляторов в США нужно быть крайне аккуратными в оценках, и не запрещать продажи полностью, а сливать понемногу, чтобы хватало на тренировку каких-то неплохих моделей и не создавало нужды развития железа.

Видимо, перестарались — FT пишет: «Китай стремится утроить производство ИИ-чипов в гонке с США» (в следующем году!). Да, сейчас чипы не сравнить с Nvidia, вон недавние модели DeepSeek, по слухам, не смогли на них натренировать из-за технических особенностей. Но нет сомнений, что железо и софт доточат, и даже если они будут отставать на одно поколение, будут менее энергоэффективны итд — это всё проблемы даже не второго приоритета. Зато их будет МНОГА, и всё СВОЁ.

У Китая есть свой аналог TSMC — SMIC, Semiconductor Manufacturing International Corporation. Сейчас они делают 7 нанометровые чипы, и планируют удвоить производительность. Huawei будет делать видеокарты на их основе.

«Если нам удастся разработать и оптимизировать эти китайские чипы для обучения и запуска китайских моделей в постоянно развивающейся китайской экосистеме, однажды мы будем вспоминать этот сдвиг как ещё более значимый момент DeepSeek», — заявил руководитель компании-производителя чипов. С этим трудно не согласиться, если значимая часть экономики Китая будет работать на постройку ДЦ, включая всю инфраструктуру — это существенно усилит позиции местных AI—лабораторий. Это не случится сейчас, не случится в 2026м (наверное), но к 2028-9-му — может быть.
2👍185❤‍🔥35🔥3117🌚11💩77🎉3🤣3🤔1👨‍💻1
Сиолошная
NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях»…
Под постом про RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях», разгорелась дискуссия: А ПОЧЕМУ ЕТО МОЯ ГПТ НЕ ДОЛЖНА МНЕ РАССКАЗЫВАТЬ ПРО ТО КАК СДЕЛАТЬ ВЗРЫВЧАТКУ ДОМА???

Если более серьёзно, то вопрос сложный — кто и как решает, что модели могут и должны говорить, и как себя вести? Jan Leike, бывший сотрудник OpenAI, давно описывал систему, в которой множество людей общается с АИ-чатботом, высказывают своё мнение по тем или иным вопросам, ведут дискуссию с разбором краевых случаев. Мнения затем агрегируются, конфликты разрешаются дополнительными дебатами, и вот — конституция для AI.

«Ни один человек или организация не должны единолично определять, как должен вести себя идеальный ИИ для всех. Вопрос о том, какие ценности должна учитывать система искусственного интеллекта, сложен, и у нас пока нет на него исчерпывающего ответа, особенно в субъективных, спорных или значимых ситуациях» — пишут OpenAI в свежей работе Collective alignment: public input on our Model Spec.

Они сделали первый подход: наняли 1000 людей из 19 стран (изначальный отбор включал более 50 стран) и спросили их мнение касательно Model Spec — документа, который на данный момент описывает поведение, закладываемое в модели компании.

В ходе сбора данных участники изучали синтетические примеры запросов и ответов, а не напрямую текст спецификаций. Каждый участник ранжировал четыре возможных варианта ответа на заданный запрос, исходя из личных предпочтений, а также детально описывал ход своих рассуждений.

Чтобы сравнить их неявные предпочтения с заявленными принципами, OpenAI разработали систему ранжирования спецификаций модели (Model Spec Ranker, MSR). Это модель на основе GPT-5 Thinking, оценивающая те же четыре варианта ответов на основании наших спецификаций.

Дальше сравнили, насколько мнение толпы сходится с Model Spec. В среднем люди соглашались с ранжированием MSR примерно в 80% случаев. Особенно высокое согласие было достигнуто по таким принципам, как честность и скромность.

Расхождения чаще всего касались пограничных тем: политических высказываний, сексуального или графического контента, а также критики псевдонауки или теорий заговора. На основе работы OpenAI внесут несколько изменений в Model Spec (и учтут это при подготовке следующей модели), например:

— Допустимо цитировать исторические примеры ненависти и экстремизма при условии представления их в историческом контексте с критическим, осуждающим или фактическим тоном.

— При формировании ответов необходимо учитывать культурный контекст, а малоизвестные культуры должны описываться с уважением.

Нашлась и пара изменений, в которых мнение толпы не совпадает с тем, что OpenAI хотят внедрять сейчас:

— Персонализированный политический контент. Не приняли это изменение ввиду рисков крупномасштабного индивидуального политического таргетинга и осторожной позиции компании по данному вопросу.

— Эротический контент для взрослых: значительная часть участников поддержала включение эротического контента. Несмотря на соответствие этой позиции прежним намерениям OpenAI внедрить это когда-то в будущем, сейчас компания не видит, как это сделать корректно без доп. исследований и доработок.
2👍72🤔24🤡15🔥9🌚3👎2💔11
Специалисты антивируса ESET обнаружили первый компьютерный вирус на основе... LLM. Вирус незаметно скачивает GPT-OSS-20B модель (14 гигабайт) и запускает её через Ollama API для того, чтобы агент на основе модели лазил по локальным файлам и принимал решения на лету.

В вирус захардкожено несколько промптов, которые:
— просят сгенерировать код на LUA, который обходит файлы в разных папках и печатает их контент
— определяют, есть ли в файлах чувствительная информация
— генерируют персонализированное сообщение для пользователя о том, как именно будет использоваться его контент (удаление/шифрование/публикация). В этот текст также добавляется биткоин-кошелек для перевода, правда это похоже на заглушку: адрес принадлежит создателю Bitcoin Satoshi Nakamoto
— генерируют код для шифрования файлов (правда я не понял, почему это нельзя было захардкодить — может потому что такой код легко обнаруживается антивирусами?)

В общем, скорее всего это прототип или разработка, а не полностью работоспособный вирус, развёрнутый в реальных условиях, но вот такой вот прецедент. Ещё 2-3 поколения локальных моделек, которые станут и умнее, и меньше — и сё!

Вирус назвали PromptLock 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤯241🔥48🤣36🌚16🤔9👍8🤡5👨‍💻333💩1
2025/10/22 00:20:07
Back to Top
HTML Embed Code: