Telegram Web Link
Forwarded from See All
Попросил GPT-5 написать сценарий для Sora 2 с описанием того, что за бенчмарк этот ваш Frontier Math 😀 производим тиктокенизацию канала и распространения знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🤣268🔥96🌚3122👍21🤡1911💩7
Причина, по которой всем так важно продолжать делать вид, будто ИИ общего назначения (AGI) вот-вот появится, заключается в том, что на этой вере уже завязано более триллиона долларов инвестиций (либо уже потраченных, либо запланированных).

Текущие (и недавние) капитальные затраты невозможно оправдать существующими технологиями и сценариями их применения (на данный момент компании тратят 10–15 долларов, чтобы заработать 1 доллар). Чтобы когда-либо выйти в прибыль, нужны принципиально более совершенные технологии и приложения, причём нужны они быстро — до того, как нынешние дата-центры устареют, то есть в течение 3–5 лет.


— François Chollet, автор Keras и бенчмарка ARC-AGI.

1) В первом абзаце написан странный тезис. Если деньги выделялись на A, чтобы достичь B — понятно, что те, кому дали деньги, будут продолжать говорить про A и B. Другое дело достижимость этого B — реально ли получится? Знают ли люди, которые говорят, что это заведомо невозможно? Если да — получается, они врут, но если нет, то в чём проблема? Получается, подобное высказывание имеет мало смысла, если не давать аргументы, почему ты считаешь, что что-то недостижимо и/или почему люди про это врут.

2) Сам же François летом говорил про то, что его таймлайн для AGI подвинулся с 10 до 5 лет (это потому что рассуждающие модели от OpenAI зарешали его бенчмарк, который, как ему казалось, замеряет НАСТОЯЩИЙ ИНТЕЛЛЕКТ). То есть он... как будто бы не считает, что это недостижимо и находится где-то в невероятном будущем? 😑 Он верит, OpenAI верят, инвесторы считают, что видят достаточно доказательств — в чём тогда проблема 🤔

3) (более того, если совсем занудствовать, то верить нужно не в AGI, а в то, что OpenAI сможет разработать продукты, которые будут приносить выручку согласно их плану, $200 миллиардов в год в 2030м. AGI не AGI — не важно)

4) «затраты невозможно оправдать существующими технологиями и сценариями их применения» — это правда. Но ведь и деньги привлекаются ровно на то, чтобы продвинуть технологии, сделать их более доступными и потенциально открыть новые сценарии применения. Затраты делаются под будущие технологии.

5) «компании тратят 10–15 долларов, чтобы заработать 1 доллар» — это неправда. На данный момент экономика примерно 2-3 доллара на 1 доллар выручки для OpenAI; но важно понимать, что такая картина исключительно из-за огромных затрат на исследования для этих самых БУДУЩИХ технологий. Если их убрать — OpenAI будет в плюсе, по крайней мере на 2024-й год; там они потратили 2 миллиарда на инференс, включая сотни миллионов бесплатных пользователей, а выручка была больше 4 миллиардов.

6) «нужны принципиально более совершенные технологии и приложения, причём нужны они быстро — до того, как нынешние дата-центры устареют, то есть в течение 3–5 лет» — нет, нынешние датацентры стоят ничего по сравнению с тем, что построят в ближайшие 5 лет. Инвестиции были выделены не на содержание того, что уже стоит. Условно первые сто миллиардов из недавно анонсированных сделок будут потрачены, скажем, в 2026-м году, и вот с того момента действительно можно считать 3-5 лет. Но даже если от 2025-го — блин, сам же François считает, что до AGI осталось 5 лет! То есть время привлечения капитала и постройки датацентров идеальнее некуда.

Короче, я не понял, что он имеет в виду и что хотел сказать. С частью тезисов — например, что триллион не заработать на GPT-5, и нужны модели лучше — я согласен, другие не имеют смысла в контексте того, что автор сам верит в достижимость AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM
20143👍128🤔25🤡20🌚11💩9❤‍🔥5🔥53👎1
Наконец-то запустился фаб TSMC в Аризоне, способный печатать 3 нм чипы — в пятницу в США был произведён первый чип Blackwell (последнее поколение, не какое-то старьё) для видеокарт Nvidia за пределами Тайваня.

Для тех кто не следит за ситуацией — почти все чипы вокруг нас делаются одной компанией и в одной стране, на которую, к тому же, претендует Китай. Перенос части производства в другую страну — это очень большой проект, одна из основных сложностей которого заключается в передаче экспертизы, подготовке и найме кадров.

Для печати использую EUV-литографы от нидерландской ASML, которые устроены очень сложно (в них даже есть свой мини адронный коллайдер) — чуть больше писал тут.

Суммарно инвестиции в гигафабрику, состоящую из 6 фабов (отдельных фабрик), 2 современных упаковочных линии (высокоточная упаковка чипов друг на друге, а не просто обёртка 😂) и центра исследований и разработок, составляют $165 миллиардов.

Тут же в соседнем здании уже пару лет печатают чипы для процессоров Apple A16 в вашем айфоне, они попроще в производстве.

UPD: в чате поправили, что был произведен не полноценный чип, а wafer, «вафля» или заготовка, на которой EUV-литограф будет выжигать сам чип. Насколько удалось нагуглить, делаться это будет тоже здесь, в Аризоне, а вот для упаковки в финальную компоненту GPU чипы отправят в Тайвань. По плану, полностью завершить цикл в США удастся в 2028-м году.
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥156👍31🤯24🤣88🎉7👎3❤‍🔥1😈1
Возвращаем LLMки в школу: будем решать Кенгурёнка!

Большинство математических бенчмарков сосредоточены на текстовых задачах. Однако в реальной жизни математика часто связана с визуальными элементами, такими как геометрические фигуры, диаграммы и графики.

Авторы MathArena взяли варианты Кенгурёнка, олимпиады по математике для детей школьного возраста, от марта 2025-го года. Вероятность, что модели тренировались на этих данных, ненулевая, но очень маленькая. Взяли варианты из албанской версии — частично потому, что там выше качество иллюстраций, загруженных на сайт.

Всего вышло 168 задач, разбитых на 6 групп по классам: 1-2, 3-4 и так до 11-12; на них замерили GPT-5, Gemini 2.5 Pro, Grok 4 и пару открытых моделей.

Казалось бы, что чем выше возрастная группа детей, для которых предназначены задачи, тем ниже должна быть оценка моделей. А вот нифига — получилось ровно наоборот. Задачи начальной школы решают на 61-69%, а 11-12 класса — на 95%.

Почему так? В 80% задач для младших классов требуется интерпретация изображений, в то время как для старших классов это значение составляет всего 40% (то есть больше текстовых задач). Аналогично, варианты ответов представлены в виде изображений в 37% случаев для младших классов, но только в 4 из 90 задач для старших.

Но даже если брать срез только по задачам с картинками, то наблюдается та же закономерность. Авторы объясняют это так: задачи для младших классов чаще опираются на базовые визуальные навыки, такие как пространственное мышление, распознавание форм и простую 2D/3D визуализацию.

Именно в этих областях современные визуально-языковые модели (VLM) проявляют наибольшие слабости. Напротив, задачи для старших классов акцентируются на более абстрактных математических рассуждениях, с которыми модели справляются лучше.

Чтобы убедиться в этом, вручную выбрали четыре задачи, в которых модели терпели неудачу из-за сложности восприятия условия задачи, выраженного картинкой, хотя сами условия можно было полностью представить в виде текста.

Средняя точность на этих четырёх задачах возросла с 25% до 100%. Это подтверждает, что компонент рассуждений сам по себе полностью позволяет решать задачу; проблема именно в восприятии условий, модели не могут разглядеть, что там и как.

Так что всё, готовьтесь: придёт суперинтеллект, и нам только и останется что выполнять задачи для детей, посчитать кружочки или там определить цвет солнышка. Правы были те, кто смеялся над тем, что LLM не могут подсчитать количество букв. Ну вот и будем этим заниматься, пока последние придумывают лекарство от рака 👍

Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥11648👍2812🤡7🤯3❤‍🔥2🌚2🤔1🤣1
По исходу 3 недель с релиза Sora продолжает удерживать топ-1 в AppStore в категории бесплатных приложений, всё ещё опережая ChatGPT. К сожалению, другой статистики по использованию мне найти не удалось — помню только, что на первой неделе кто-то в интервью сказал, что было больше 2 миллионов пользователей, но это так, мало о чём говорит.

Если посмотреть видео из вкладки Top, которые, видимо, выбираются за последние сутки, то они набирают «всего» по 1800 лайков, причём уже после 30-40 видео лайки падают до сотни.

С другой стороны, Sama говорил почти сразу, что паттерн поведения пользователей отличается от ожидаемого: люди генерируют куда больше для узкой аудитории, для своих знакомых, и поэтому распределение просмотров ( ~= лайков) не скошено к топу, как это часто бывает. Кроме того, доля пользователей, которые что-то создают, гораздо выше других соц. сетей, где доля «view only» преобладает.

Люди что-то генерируют, затем скачивают без публикации и кидают в чаты/ленту в других соц. сетях. В твиттере регулярно вижу видео Sora 2 от разных нетехнических аккаунтов с очень приличными (>1M) просмотрами.

В приложении добавились камео нескольких публичных лиц, а вот генерации с MLK запретили. Так, например, Logan Paul говорил, что по подсчётам его агента видео от Sora с ним суммарно набрали больше 1 миллиарда просмотров (насколько я понимаю, почти все из них — за пределами приложения).

В целом не знаю, насколько хорошо или плохо, что аудитория вне приложения большая, и контент хавает: с одной стороны это говорит о том, что им интересно, и люди могут плавно перетекать в приложение, с другой — какой резон, если всё равно видео растаскивают по социальным сетям, в которых вы уже сидите? Тут, пожалуй, должна помочь фишка камео, которая позволит создавать видео с приятелями и знакомыми.

Продолжаем наблюдение ✍️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6533🤔10🤡5👨‍💻4🌚2
This media is not supported in your browser
VIEW IN TELEGRAM
Видимо, сегодня OpenAI представят свой браузер — ролик с намёком появился в твиттер-аккаунте компании.

Про браузер слухи ходили давно, но удивительно, что в последние месяца 2 никаких новостей не было — обычно за недельку появляются утечки.

Стрим через 2 часа. Perplexity Comet напрягся, я готовлюсь удалять Arc 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯9541🔥32👍19🤣5👨‍💻3👎2💩2🤡2
Пока ждём стрима — вот ещё интересная новость от Bloomberg:

— OpenAI привлекли более 100 бывших инвестиционных банкиров для обучения своих LLM созданию финансовых моделей, планируя заменить многочасовую рутинную работу, выполняемую младшими сотрудниками банковского сектора. Группа, в которую вошли бывшие сотрудники JPMorgan Chase & Co., Morgan Stanley и Goldman Sachs Group Inc., задействована в секретном проекте стартапа под кодовым названием Mercury, говорится в документах, с которыми ознакомился Bloomberg.

— Участники получают оплату в размере 150 долларов в час за написание промтов (запросов) и создание финансовых моделей для различных видов сделок, включая реструктуризацию и первичное размещение акций (IPO), сообщил источник, знакомый с деталями проекта. Кроме того, компания предоставляет подрядчикам ранний доступ к разрабатываемому искусственному интеллекту, который должен заменить начальные задачи в инвестиционных банках.

— Процесс отбора в проект Mercury почти полностью автоматизирован и практически не предполагает участия человека, сообщил источник на условиях анонимности. Первый этап отбора — это примерно 20-минутное интервью с чат-ботом, который задаёт вопросы по резюме кандидата. Второй этап проверяет знание финансовой отчётности, а заключительный этап — тестирование навыков построения финансовых моделей.

— Работа гибкая, подрядчики должны предоставлять одну модель в неделю. Инструкции включают написание промтов простыми словами и последующее создание самой модели. Участники разрабатывают эти модели в Excel, при этом от них требуется следовать отраслевым стандартам оформления, включая размеры полей и использование курсива для процентных показателей. Участники получают обратную связь от проверяющего и должны исправить ошибки, прежде чем результаты их работы будут загружены в систему OpenAI.

Вот и следующие 10 миллиардов выручки нарисовались...
👍63🌚1911🔥9🤡8🤣6🤔4
2025/10/21 16:32:55
Back to Top
HTML Embed Code: