Telegram Web Link
Forwarded from Denis Sexy IT 🤖
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности

Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации

Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:

– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры

– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения

С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов

Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность

25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса

В интернете будущего, нейронки будут спорить с нейронками, получается так
На Llama Con показали официальное API Llama

Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.

Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.

API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.

@ai_newz
Ну что, готовы к новому релизу от DeepSeek?

На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.

Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.

Веса

@ai_newz
Сбер представил первую на русском языке модель с нативным восприятием аудио

Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.

Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.

Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.

Пост на хабре
Гигачат

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от рекламы, на которой и держится бизнес модель поиск гугла. Но вот, видимо, дозрели.

Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"

Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат 😅).

https://x.com/OpenAI/status/1916947243044856255

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
В Yandex Cloud стали доступны VLM-модели через API

Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.

Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.

На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.

@ai_newz
F Lite — 10B t2i на лицензированных данных

Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.

Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.

Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.

Демо

Веса
Код
Техрепорт

@ai_newz
Сегодня день трудящихся, поэтому принес вам пример отличной карьеры трудяги.

Чел вырос с mid-level Research Scientist до Директора за 3.5 года! Еще и постит на LinkedIn неустанно.

В Nvidia уровни слегка более инфлированные, поэтому это равносильно росту с IC4 (Mid RS) до IC7 (Senior Staff RS) в Мете или Гугле за 3.5 года. Это очень-очень бодро – чел действительно должен офигеть как мощно перформить, либо ему должно очень везти с проектами.

У него в описании примерно видно, что именно нужно делать, чтобы так быстро расти. "Получил best-paper award на NeurIPS", "Основал новую команду по работе над Foundation Agent for Robotics".

Желаю всем читателям таких же успехов в карьере!

#карьера #bigtechlevels
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.5 Pro прошла Pokemon Blue

Всего пару месяцев назад Claude посадили играть в покемонов, где модель успешно застряла на одном моменте. Cейчас у Gemini 2.5 Pro вышло пройти игру полностью.

Достижение заметное, но не означает превосходство одной модели над другой — модели запускали в разных средах с разным доступом к инфе. К примеру, помимо картинки, Gemini получала некоторые данные напрямую из движка игры и имела несколько подсказок по прохождению в промпте, без этого у модели играть не выходит. Да и в тренировочных данных ллм было полно инфы и советов по прохождению, с новой игрой было бы сложнее.

Вообще хотелось бы, чтобы это оформили в виде бенчмарка, но тут важно чтобы не пришли юристы Нинтендо и не засудили всех причастных. А как такое появится, там и до спидранов недалеко.

@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже

Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Нейродайджест за неделю (#67)

LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)

Генеративные модели

- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.

Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.

> Читать дайджест #66

#дайджест
@ai_newz
Radiance Fields and the Future of Generative Media

Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?

Лекция на youtube

#ликбез
@ai_newz
2025/07/07 14:38:13
Back to Top
HTML Embed Code: