Telegram Web Link
Давно хотел про это написать, а сейчас наткнулся на блог трёхлетней давности в Astral Codex Ten и решил пора.

В машинном обучении на самых ранних этапах знакомятся с метриками и объясняют простую и понятную вещь — если у вас задача бинарной классификации (да/нет), и один класс покрывает абсолютное большинство наблюдений, то вам нельзя использовать метрику «доля правильных ответов». Она не будет нести смысла.

Вот представьте онколога, который осматривает пациентов и определяет, есть ли у них рак. Представим, что из 1000 пациентов, проходящих чекап, рак в среднем есть у 1. То есть доктор 999 раз скажет «у вас нет рака», и 1 раз, по-хорошему, должен сказать «у вас рак».

Этого доктора можно заменить на камень, на котором написано «у вас нет рака». И камень будет на 99.9% точен. Он почти не ошибается. Множество благодарных и радостных пациентов узнали, что у них нет рака — ведь Великий Камень так сказал! А камень почти не ошибается.

То же самое с людьми, у которых AI — это «просто ещё один хайп». NFT помните? А крипту? Всё хайп. А доткомы? А озоновую дыру? и где она? А помните как эксперт X ошибся в предсказаниях? Ну и что что на полтора года, ошибся же? А у другого эксперта вообще есть материальная заинтересованность в одной позиции, поэтому ему нельзя верить, поэтому моя позиция — правильная, что и требовалось доказать.

У таких людей ничего никогда не случается, никаких прорывов, в новостях всегда повестка, все врут, все преследуют свои цели. Опубликованные исследования проплачены, результат подтасован, итд. И они получают дикую уверенность от того, что в 99.9% случаев оказываются правы. Они никогда не берут на себя риск сделать ставку на вещь, которая пойдет не по сценарию.

Но есть одна проблема: они ошибаются в 0.1% самых важных вещей. По сути эти люди — камни с надписью «nothing ever happens». Или говоря умным языком «эвристика».
Ну а камни нам в комментариях не нужны 😀🤣☺️

И на их фоне настоящие эксперты, которые делают аналитику, осторожные предсказания итд, могут просто выглядеть глупо — потому что ошибаются чаще

(а вам рекомендую за 5 минут прочитать блогпост по первой ссылке в посте, там есть пара занятных примеров)

Понятно, что в каждую тему не залезешь, не разберешься в нюансах и не выстроишь цельную картину — времени на всё не хватит. Но что уморительно — это что люди не отдают себе отчёта в своей заКАМЕНелости, и действительно считают, что выражают очень ценное и важное мнение: https://youtu.be/DJRL3OXKvME
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Ночью я твои посты только через manim либу буду читать
Forwarded from Denis Sexy IT 🤖
Короткая новость:
Объединенные Арабские Эмираты станут первой страной мира, которая выдаст доступ к ChatGPT Plus каждому своему гражданину

Это примерно ~1.5 миллиона человек

Молодцы, так и нужно
Forwarded from BOGDANISSSIMO
Это мы смотрим https://www.youtube.com/watch?v=uq1Vzi-52dA

Сон > Тренировки > Питание > Бизнес/Работа

🌙 1. Сон (должен быть твой №1 приоритет в жизни, non-negational)

- последний приём пищи за 2 часа, а лучше за 4 часа до сна
- wind-down за 1 час до сна: прогулки, книги, медитация - ок
- никаких экранов перед сном (мелатонин), минимум света
- постоянство: одно и то же время сна ежедневно (+- 30 мин)
- избегать кофе за 8-12 часов до сна

💪 2. Тренировки

- 30+ минут каждый день: кардио / силовые - не важно
- двигайся в течение дня [я сам хожу, когда думаю или на созвоне]

🧀 3. Диета (на 3 месте потому что когда хорошо спишь и тренируешься - хочется само собой хорошо питаться)

- никогда не надейся на силу воли, полагайся на дисциплину/систему [от себя добавлю, что насколько знаю к концу дня у нас спадает вниз уровень дофамина, меньше хочется напрягаться/поднимать жопу/решаться на что-то, поэтому к концу дня поддаться соблазнам проще, сила воли слабее - и это нужно учитывать!]
- избегай переедания, чувствовать лёгкий голод - это нормально [и даже полезно, потому что наш организм развивался, когда приёмы пищи были редкие и быть голодным было наше default state, состояние нашей максимальной продуктивности]
- придерживаться среднеземноморской диеты; не нужно задротить с питанием и подсчитывать каждую калорию [в этом плане приложения аля Cal AI / CalSnap несмотря на неточности уже вырабатывают правильную привычку сознательного отношения к питанию, но без задротства, которое только увеличивает стресс]
План миссии Flight 9.

Космос любит троицу, и это третья попытка запуска корабля Starship из Блока V2 после двух аварий, но на этот раз с важными отличиями в плане полёта. В этой миссии есть как и амбициозные задачи, так и консервативные. А главное — безопасно вывести Starship S35 на плановую незамкнутую орбиту. В общем, шаг вперёд и два назад.

Уникальные особенности этого тестового запуска:
Первый повторный полёт ускорителя Super Heavy, который ранее успешно сел во время Flight 7;
Переиспользование уже летавших 29 двигателей Raptor на ускорителе;
После 3 удачных посадок ускорителя на башню, в этот раз будут тестировать экстренную посадку в океан;
Первый полёт корабля Starship с функциональным железом для посадки на башню, но тоже пока в океан;

Основные задачи этой миссии: обязательно не взорваться, исправить болячки корабля V2, выгрузить макеты спутников Starlink V3, и провести эксперименты с посадкой Super Heavy B14-2 в заливе, а Starship S35 в нужную точку в Индийском океане.

На корабле вновь будет множество экспериментов теплозащиты, которые не успели провести в прошлый два раза, и вновь сняли часть плиток, так что риски потерять корабль при входе в атмосферу остаются высокими. Ну и внимательно следим за состоянием посадочных пилонов по бокам корабля.

Ключевые этапы миссии Flight 9:
⚪️ Старт и прохождение зоны Max Q;
⚪️ Горячее разделение по новой схеме с плановым отклоном ускорителя под нужным углом;
⚪️ Запуск 6 двигателей на Starship S35 и перезапуск 10 двигателей (3 будут работать) Super Heavy B14-2 для первого тормозного манёвра;
⚪️ Сброс HSR и вход Super Heavy B14-2 в атмосферу под более высоким углом с прохождением зоны максимальных нагрузок;
⚪️ Перезапуск 12 из 13 двигателей Super Heavy B14-2 для второго тормозного манёвра с плановым отключение одного из 3 центральных;
⚪️ Продолжение тормозного манёвра Super Heavy B14-2 по схеме 2+1: будут работать 2 центральных и 1 двигатель среднего контура;
⚪️ Безопасная утилизация Super Heavy B14-2 на большой скорости о поверхность воды;
⚪️ Выход корабля Starship S35 на плановую незамкнутую орбиту;
⚪️ Открытие шлюза грузового отсека;
⚪️ Демонстрация выгрузки 8 макетов спутников Starlink V3;
⚪️ Тест перезапуска 1 двигателя Raptor на орбите;
⚪️ Вход Starship S35 в атмосферу, и прохождение зоны максимального нагрева и нагрузок;
⚪️ Обрезанная теплозащита Starship S35 выдерживает вход в атмосферу, новые плавники и функциональный механизма посадки не расплавляются;
⚪️ Перезапуск 3 двигателей S35 с симуляцией мягкой посадки в океан в нужной точке — камеры с буя показывают посадку.

Время запуска Flight 9 на 27 мая:
- 18:30 CT
- 23:30 UTC
- 01:30 CET (28 мая)
- 02:30 MSK (28 мая)

Окно запуска продлится 60 минут.

Официальная трансляция в 4K тут - https://x.com/i/broadcasts/1OwxWXMRAXmKQ

Всем заранее приятного просмотра, команде удачи, и посетителям беречь уши.
И помните, что успех не гарантирован, но точно будет весело 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
VideoGameBench В последнее время LLM демонстрируют способность решать невероятно сложные задачи на рассуждения в математике и программировании. Многие из этих задач чрезвычайно сложны для среднего человека. С другой стороны, люди могут с лёгкостью проходить…
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла статья и результаты, сайт тут: https://www.vgbench.com/
Код тут: https://github.com/alexzhang13/VideoGameBench

В целом все модели около нуля, но Gemini 2.5 Pro и Claude 3.7 себя показывают чуть лучше.

Самое обидное, что никакого прогресса в Civilizaiton 1 модели не делают( надо бы заняться вопросом!

На видео: Gemini 2.5 Pro играет в Kirby's Dream Land в реальном времени, успешно проходя начальный уровень и достигая первой встречи с мини-боссом.
Сиолошная
Вышла статья и результаты, сайт тут: https://www.vgbench.com/ Код тут: https://github.com/alexzhang13/VideoGameBench В целом все модели около нуля, но Gemini 2.5 Pro и Claude 3.7 себя показывают чуть лучше. Самое обидное, что никакого прогресса в Civilizaiton…
Авторы отмечают, что у моделей большие проблемы с пониманием UI, и поэтому для тренировки предоставляют 3 игры:
— кликнуть на 10 зеленых кружков на экране за менее чем 250 действий
— перетаскивание объекта по траектории (только Sonnet 3.7 смог пройти первый уровень, перетащить по прямой горизонтальной линии)
— 2D навигация, нужно отдать команды, чтобы перейти из точки А в точку Б. Каждая задача тут решается за мене чем 10 шагов, то есть навигационная сетка относительно маленькая.
Всем доброго пятничного вечера, напишите пожалуйста в комментариях, если можете подарить инвайт в браузер Dia.

😏
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
План миссии Flight 9. Космос любит троицу, и это третья попытка запуска корабля Starship из Блока V2 после двух аварий, но на этот раз с важными отличиями в плане полёта. В этой миссии есть как и амбициозные задачи, так и консервативные. А главное — безопасно…
Не успел написать про результаты запуска сразу (или хотя бы на следующий день), да ещё и к тому же это был первый пуск, который я проспал...

Зато есть время поделиться шуткой, прочитанной в твиттере:
— Долгое время мы задавались вопросом: «какая компания сможет первой повторить успех SpaceX и пустить одну и ту же ракету во второй раз?». Оказалось, это будут сами же SpaceX спустя 9 лет! Да, та самая компания, те же инженеры, которые... не смогли сделать рабочую дверь для вывода полезной нагрузки...

TLDR запуска:
— всё ещё много проблем, пожар в двигательном отсеке
— но хотя бы смогли пройти дальше чем в прошлых двух неудачных пусках
— но корабль хотя бы повисел на орбите (дверь не открылась — не смогли вывести макеты спутников) и начал входить в атмосферу, минимальный прогресс есть
— ускоритель тоже не смог выполнить программу и взорвался сразу после включения двигателей для торможения
— надеюсь, что Elon не ошибся и что следующие несколько запусков и вправду будут проходить каждые 3-4 недели
Интересная информация от TheInformation:

Пока OpenAI защищает свою будущую корпоративную реструктуризацию от целого ряда критиков со стороны некоммерческих компаний, они, вероятно, довольны своим прошлогодним решением нанять ряд сотрудников с глубокими связями с демократами.

Эти назначения, включая демократа Chris Lehane, который возглавляет команду OpenAI по международным делам (global affairs team), выглядели просчетом, когда Donald Trump победил на президентских выборах, особенно учитывая прежнюю позицию CEO Sam Altman (он изменил свою позицию после выборов, пожертвовав 1 миллион долларов в инаугурационный фонд президента и сотрудничал с президентской администрацией над проектом дата-центра Stargate).

Но OpenAI удвоила ставку на демократов. После того как Lehane был нанят, команда Global Affairs привлекла Debbie Mesloh, которая консультировала Kamala Harris во время ее кампаний на посты генерального прокурора и сенатора, и Marisa Moret, ранее занимавшую должности управляющего юриста и руководителя аппарата городского прокурора Сан Франциско.

В качестве внешнего юрисконсульта OpenAI также наняла Ann O’Leary, которая ранее занимала пост руководителя аппарата губернатора Калифорнии Gavin Newsom и консультировала Hillary Clinton во время ее президентской кампании 2016 года. Юридическая фирма Ann O’Leary Jenner & Block — одна из фирм, против которых Президент недавно издал не самые приятные указы — за наем юристов, работавших над расследованиями против него самого.

Хотя демократы не у власти в Вашингтоне, OpenAI больше ориентируется на местный уровень. Все вышеперечисленные демократы помогают OpenAI сравняться по мощи с группами, выступающими против ее планируемой реструктуризации, включая коалицию из более чем 60 некоммерческих организаций, многие из которых базируются в Калифорнии и которые обратились к генеральному прокурору штата с петицией о вмешательстве. Критики реструктуризации утверждают, что некоммерческая организация, которая владеет и контролирует OpenAI, может быть обделена при реструктуризации ее коммерческой дочерней компании.

Fred Blackwell, CEO филантропического фонда San Francisco Foundation, и Orson Aguilar, президент и CEO правозащитной группы LatinoProsperity, возглавляют эту коалицию.

Blackwell и Aguilar встретились с представителями OpenAI в марте в сопровождении Julián Castro, который занимал пост министра жилищного строительства и городского развития во времена президенства Obama. С другой стороны стола находились Mesloh, Moret и Daniel Zingale, работавшие на трех губернаторов в Калифорнии.

Zingale собирает консультативную комиссию, которая в июле представит рекомендации совету директоров OpenAI относительно ее структуры управления и способов реализации ее благотворительной миссии. В состав комиссии из пяти человек входят два бывших руководителя California Endowment, одной из организаций в коалиции некоммерческих организаций, выступающих против преобразования, и Dolores Huerta, легендарная профсоюзная активистка, соосновательница профсоюза United Farm Workers вместе с Cesar Chavez.

В письме, отвечающем на требования коалиции, OpenAI заявила, что ее консультативная комиссия связалась с некоммерческими критиками для получения их мнения «о том, как Nonprofit может достичь реального воздействия в таких областях, как здравоохранение, образование, государственные услуги и научные открытия». Коалиция некоммерческих организаций и консультативная комиссия OpenAI должны встретиться на следующей неделе.

<А Маска забыли спросить 😀>
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from epsilon correct
Please open Telegram to view this post
VIEW IN TELEGRAM
Я смеюсь очень сильно уже 10 минут, спасибо @bogdanisssimo за мем
Forwarded from Denis Sexy IT 🤖
Google тизерит новый продукт:
Sparkify – это генератор коротких видео на пару минут в виде историй, где Gemini делает сюжет и текст, а Veo делает анимации, звук и музыку

В вейт лист можно добавиться тут:
https://sparkify.withgoogle.com/explore

Я буду скучать по видео с плохими анимациями в интернете 🥲
2025/06/27 17:05:11
Back to Top
HTML Embed Code: