Telegram Web Link
встреча математика из мгу и основателя хедж фонда с каким-то очкариком
Forwarded from Denis Sexy IT 🤖
Тут это, инди игра про королев 190+ см в разработке, и в последнем патче даже VR поддерживает

GTA 6 еще не вышла, а уже проиграла:
https://www.patreon.com/GiantessWithUE5
https://www.wired.com/story/sam-altman-meta-ai-talent-poaching-spree-leaked-messages/

“And maybe more importantly than that, we actually care about building AGI in a good way,” he added. “Other companies care more about this as an instrumental goal to some other mission. But this is our top thing, and always will be. Long after Meta has moved on to their next flavor of the week, or defending their social moat, we will be here, day after day, year after year, figuring out how to do what we do better than anyone else. A lot of other efforts will rise and fall too.”


Привет мой хороший, поработаешь сегодня сверхурочно ради миссии за тот же прайс?
Спасибо.
(совершенно точно 1000 человек работающих над лламой не хватит)
Чем больше вчитываешься тем лучше
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Помните я много раз постил разные примеры, где нейронку пытаются использовать вместо игрового движка? Типа обучил на игре модель, и вот универсальный движок на все случаи жизни

Го играть в нейронное GTA
(с телефона не работает управление):
https://demo.dynamicslab.ai/chaos

Еще есть нейро-гонки, выглядит перспективно, дайте поиграться 🌚
Please open Telegram to view this post
VIEW IN TELEGRAM
>Frequently rotating the character and camera improves visual quality.
СКАНДАЛЫ
ИНТРИГИ
РАССЛЕДОВАНИЯ


Huawei 10 лет чо то ресерчили, ничего явно полезного не сделали, но дропнули недавно Pangu Moe , moe-global router, gqa, большой рассказ про то как на Ascend можно учить что либо(нет). По бенчам +- что то там бьет, что то не бьет(всем похуй, все равно пользоватся никто не будет).

И ТУТ ИЗ ПУСТОТЫ вылетает какой то чел и говорит - ну веса оч сильно коррелируют между QWEn 14b и Pangue.


Выводы делайте сами 🍿

пдфка и репа
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from айти канал
📦 Python пакет для TabM

Небольшая новость для тех, кто следит за DL для табличных данных. Мы тут выпустили Python пакет для TabM — нашей tabular DL архитектуры, о которой я рассказывал раньше.

С момента анонса TabM прошел проверку практикой, и если в одном предложении, то TabM значительно усилил нишу практичных бейзлайнов в табличном DL. То есть взять TabM и получить хорошие результаты люди смогли в самых разных контекстах: и на Kaggle, и на масштабе 100M объектов, и в академических исследованиях.

Пакет делает чуть более доступным как сам TabM, так и эффективное ансамблирование, и предлагает такое:
- PyTorch реализация TabM
- PyTorch слои и функции для построения своих эффективных ансамблей.
- Jupyter/Colab пример с обучением TabM.

💻 pip install tabm

Ссылки:
- Пакет
- Colab пример
- Статья
Forwarded from Kali Novskaya
🌸Спидраним NanoGPT агентами: новый бенчмарк🌸
#nlp #про_nlp #nlp_papers

На днях мы с коллегами опубликовали новую статью и бенчмарк для агентов, сделанный на основе NanoGPT speedrun от Карпаты:
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

NanoGPT speedrun — это открытый репозиторий, где сообщество соревнуется в оптимизации обучения мини-GPT2 модели. Бейзлайн — llm.c от Карпаты, написанный в рамках туториала на чистой C/CUDA.

У спидрана Карпаты есть публичный лидерборд с историей рекордов, кратким описанием изменений и кодом (сейчас их 21).

Все это делает его идеальным исходником для оценки агентов: смогут ли они воспроизвести и улучшить результаты?

🌸Дизайн бенчмарка:

В бенчмарке две основные группы задач:
🟣воспроизводимость — агенту нужно воспроизвести рекорд R+1, когда рекорд R дается в качестве бейзлайна для итерирования, со всей информацией об основных нововведениях.
🟣оптимизация — агенту нужно улучшить бейзлайн R, но безо всяких подсказок. Основная метрика — нормализованное улучшение рантайма обучения в среднем по всем попыткам.

Scaffold агента ученого реализует цикл экспериментирования, состоящий из нескольких этапов:

Можно использовать агентов с любыми скаффолдами, но в рамках работы мы продемонстрировали результаты на нескольких SOTA-бейзлайнах, включая AIDE и multi-AIDE. У каждого скаффолда есть циклы решений, состояние из
1) Идеации: генерации новых идей для проверки гипотез (в нашем случае идеи предоставляются непосредственно из задачи).
2) Реализация эксперимента: кодирование экспериментов, которые проверяют идеи, полученные на этапе формирования идей.
3) Выполнение эксперимента: запуск кода
4) Анализ результатов: извлечение идей из результатов

🌸Основные итоги:

Мы провели большое количество аблейшенов с разными моделями, чтобы сравнить, как scaffold и разные типы подсказок могут повлиять на качество агента.

Лучше всего показывают себя скаффолд Multi-AIDE, полный набор подсказок из псевдокода и текстового саммари.  В редких случаях, агент достигает 100% или даже 120% от существующего решения, но в большинстве случаев результат сильно ниже.

Все модели, включая топовые, со state-of-the-art scaffold, все равно испытывают трудности при воспроизведении результатов.

И даже больше, пока что существенная разница сохраняется, когда агентам дается максимально полная информация о том, что надо сделать, и псевдокод.  Хорошее качество воспроизводимости — из статей, репозиториев, инструкций — должно быть пререквизитом на пути к надежной и воспроизводимой автоматизации науки агентами.

🟣Статья https://arxiv.org/abs/2506.22419
🟣Бенчмарк https://github.com/facebookresearch/llm-speedrunner
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://habr.com/ru/articles/914392/

жесть красивая штука поверх qvikhr
2025/07/04 14:33:51
Back to Top
HTML Embed Code: