Forwarded from SpaceX | Starship News
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Появилась очень интересная инфа, как раз в тему нашей сегодняшней статьи!
По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship
Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase
🤞
По слухам, в марте SpaceX планируют провести прожиг ранее летавшего Booster 14, а затем во второй раз(!) запустить его в 8-м полёте Starship
Таким образом, если все пройдёт согласно плану, то во время 8-го полёта будет первый случай повторного использования Super Heavy, а также первая попытка возвращения Starship в Starbase
🤞
👍125🔥89❤🔥17🤡11🤯6💩5👎3
Towards an AI co-scientist (блог, статья)
Вообще по-хорошему про эту работу нужно было писать длиннопост, как было с FunSearch. У меня за 3 дня только заметок на 7 страниц накопилось, и это без картинок. К сожалению, времени сейчас нет, поэтому будет усечённый формат, где я опущу часть деталей — но возможно кому-то захочется написать нормальный качественный пост (а не селф-промоушен), могу поддержать редактурой и фидбеком.
Так вот, в статье представляют AI-ко-саентиста (учёного, но я буду использовать слово саентист), мультиагентную систему от Google, построенную на обычной, не дообученной специально, версии Gemini 2.0. Ко-саентист — виртуальный коллаборатор, призванный помочь в генерации новых научных гипотез и предложений исследований.
В погоне за научными достижениями исследователи-люди сочетают изобретательность и креативность с проницательностью и экспертными знаниями, основанными на научной литературе, чтобы генерировать новые и жизнеспособные направления исследований. Во многих областях это представляет собой задачу необъятной широты и глубины, поскольку сложно ориентироваться в быстро растущей библиотеке научных публикаций, интегрируя идеи из мало/незнакомых областей. Тем не менее, преодоление таких проблем имеет решающее значение, о чем свидетельствуют многочисленные современные прорывы, возникшие в результате трансдисциплинарных усилий.
Самый известный тут пример, пожалуй — это Нобелевка 2020-го год по химии за технику модификации генов CRISPR-Cas9. Если упрощать, то два основных (и очень разных) открытия произошли достаточно давно, но никому не приходило в голову их совместить — либо это было неочевидно, либо было столько других кандидатов на совмещение знаний, что не счесть.
Ко-саентист призван помочь в определении гипотез для проверки и составлении протоколов экспериментов. Чем мне очень понравилась работа Google — это тем, что они прошли даже не одну, а три последние мили, и доказали на практике, что гипотезы, которые выдала модель, при тестировании в пробирке в реальной лаборатории показывают реальные результаты. Спойлер: AI НАШЕЛ НОВОЕ ЛЕКАРСТВО ОТ РАКА!!! (не шутка, но слегка преувеличенный факт). Но об этом позже.
===
Итак, что же это за система? Как написал выше, она состоит из нескольких агентов — то есть одной и той же модели Gemini 2.0, но с разными промптами, инструментами (поиск по базам / по интернету / запись в долгосрочную память / итд) и частотой их запуска. Ко-саентист анализирует полученную от человека цель в конфигурацию плана исследований (за это отвечает агент-супервизор).
Агент-супервизор назначает специализированных агентов в очередь и выделяет им вычислительные ресурсы. Такая конструкция позволяет системе гибко масштабировать вычисления и итеративно улучшать свои научные рассуждения в направлении указанной цели исследования. Например, в самом начале имеет смысл дать больший вес (ресурсов агенту) просто генерации рандомных гипотез, а на более поздних стадиях важно получать критику, применять её и адаптировать уже существующие гипотезы, внося уточнения и правки.
Дальше существует ещё 6 агентов: Генерирующий, Рефлексирующий, Ранжирующий, Эволюционирующий, Группирующий и Мета-оценщик. Про них вкратце, а потом про самый важный
Вообще по-хорошему про эту работу нужно было писать длиннопост, как было с FunSearch. У меня за 3 дня только заметок на 7 страниц накопилось, и это без картинок. К сожалению, времени сейчас нет, поэтому будет усечённый формат, где я опущу часть деталей — но возможно кому-то захочется написать нормальный качественный пост (а не селф-промоушен), могу поддержать редактурой и фидбеком.
Так вот, в статье представляют AI-ко-саентиста (учёного, но я буду использовать слово саентист), мультиагентную систему от Google, построенную на обычной, не дообученной специально, версии Gemini 2.0. Ко-саентист — виртуальный коллаборатор, призванный помочь в генерации новых научных гипотез и предложений исследований.
В погоне за научными достижениями исследователи-люди сочетают изобретательность и креативность с проницательностью и экспертными знаниями, основанными на научной литературе, чтобы генерировать новые и жизнеспособные направления исследований. Во многих областях это представляет собой задачу необъятной широты и глубины, поскольку сложно ориентироваться в быстро растущей библиотеке научных публикаций, интегрируя идеи из мало/незнакомых областей. Тем не менее, преодоление таких проблем имеет решающее значение, о чем свидетельствуют многочисленные современные прорывы, возникшие в результате трансдисциплинарных усилий.
Самый известный тут пример, пожалуй — это Нобелевка 2020-го год по химии за технику модификации генов CRISPR-Cas9. Если упрощать, то два основных (и очень разных) открытия произошли достаточно давно, но никому не приходило в голову их совместить — либо это было неочевидно, либо было столько других кандидатов на совмещение знаний, что не счесть.
Ко-саентист призван помочь в определении гипотез для проверки и составлении протоколов экспериментов. Чем мне очень понравилась работа Google — это тем, что они прошли даже не одну, а три последние мили, и доказали на практике, что гипотезы, которые выдала модель, при тестировании в пробирке в реальной лаборатории показывают реальные результаты. Спойлер: AI НАШЕЛ НОВОЕ ЛЕКАРСТВО ОТ РАКА!!! (не шутка, но слегка преувеличенный факт). Но об этом позже.
===
Итак, что же это за система? Как написал выше, она состоит из нескольких агентов — то есть одной и той же модели Gemini 2.0, но с разными промптами, инструментами (поиск по базам / по интернету / запись в долгосрочную память / итд) и частотой их запуска. Ко-саентист анализирует полученную от человека цель в конфигурацию плана исследований (за это отвечает агент-супервизор).
Агент-супервизор назначает специализированных агентов в очередь и выделяет им вычислительные ресурсы. Такая конструкция позволяет системе гибко масштабировать вычисления и итеративно улучшать свои научные рассуждения в направлении указанной цели исследования. Например, в самом начале имеет смысл дать больший вес (ресурсов агенту) просто генерации рандомных гипотез, а на более поздних стадиях важно получать критику, применять её и адаптировать уже существующие гипотезы, внося уточнения и правки.
Дальше существует ещё 6 агентов: Генерирующий, Рефлексирующий, Ранжирующий, Эволюционирующий, Группирующий и Мета-оценщик. Про них вкратце, а потом про самый важный
1❤🔥108🔥53👍38🤯11🤡1
Генерирующий агент:
— Агент инициирует процесс исследования, генерируя начальные области фокусировки, итеративно расширяя их и генерируя набор начальных гипотез и предложений, которые касаются целей исследования
— Ему доступен поиск по интернету и базе статей, однако на данный момент она содержит лишь публичные данные; статьи из платных журналов сюда не включены, что накладывает ограничения, зато предоставляет зону роста на будущее
— Во время генерации агент может симулировать дебаты между экспертами, добавляя «Критика» в процесс генерации (просто другой промпт для LLM)
Рефлексирующий:
— оценивает существующие экспериментальные данные за или против конрктеной гипотезы и строго проверяет новизну, правильность и качество полученных результатов.
— делает он это в три этапа: 1) Начальное ревью (LLM просто сама даёт оценки по новизне, правильности и качеству ) 2) полное ревью (то же самое, но теперь с поиском по всем статьям) 3) Глубокое верифицирующее ревью, в ходе которого гипотеза раскладывается на независимые низкоуровневые предположения, которые оцениваются по отдельности, опять же, через поиск по литературе
— Также в Рефлексирующего подаётся результат работы Ранжирующего агента (об этом ниже), что позволяет выявлять часто повторяющиеся проблемы и зоны улучшения гипотез (чтобы не делать одни и те же ошибки снова и снова)
Ранжирующий:
— это самое интересное, мне кажется, вся изюминка системы тут
— Ранжирующий выбирает пары гипотез и проводит между ними полноценные дебаты (LLM + промпт «твоя задача защитить или атаковать вот эту позицию»), а затем оценивает победителя
— по результатам большого количества попарных «сражений» строится рейтинг на основе системы Эло (как в шахматах).
— Чем больше рейтинг, тем, видимо, легче гипотезу отстоять в дебатах (то есть или там мало к чему есть подкопаться, или все аргументы имеют крепкую базу с опорой на литературу)
— Так как суммарное количество гипотез очень велико (авторы, к сожалению, никак не описывают порядок величин даже приблизительно), и провести игры каждый-с-каждым не получится, то здесь внедрено две оптимизации: 1) гипотезы с высоким рангом проводят более длинные дебаты (до 10 шагов в диалоге), а с низким — 1 или 3-5 2) гипотезы чаще сравниваются с похожими на них (то есть среди некоторой группы схожих идей проявляется самая сильная). Группировка по похожести делается Группирующим агентом, он строит граф близости (никаких деталей в статье нет)
— результаты дебатов суммаризуются и подаются в Рефлекирующего
Эволюционирующий агент постоянно совершенствует и улучшает существующие гипотезы и предложения, используя:
— упрощение
— объединение/комбинацию гипотез
— и ещё пару методов
Наконец, Мета-оценщик:
— агент работает с результатами дебатов в турнире и находит общие закономерности, выявленные в ревью и дебатах
— Объединяя информацию из всех обзоров, метаобзор предоставляет ценную обратную связь Рефлексирующему
— также в генерируемом мета-обзоре очерчиваются потенциальные области и направления исследований, обосновывается их важность и предлагаются конкретные эксперименты в рамках каждой области. Каждая область включает иллюстративные примеры тем.
— Агент инициирует процесс исследования, генерируя начальные области фокусировки, итеративно расширяя их и генерируя набор начальных гипотез и предложений, которые касаются целей исследования
— Ему доступен поиск по интернету и базе статей, однако на данный момент она содержит лишь публичные данные; статьи из платных журналов сюда не включены, что накладывает ограничения, зато предоставляет зону роста на будущее
— Во время генерации агент может симулировать дебаты между экспертами, добавляя «Критика» в процесс генерации (просто другой промпт для LLM)
Рефлексирующий:
— оценивает существующие экспериментальные данные за или против конрктеной гипотезы и строго проверяет новизну, правильность и качество полученных результатов.
— делает он это в три этапа: 1) Начальное ревью (LLM просто сама даёт оценки по новизне, правильности и качеству ) 2) полное ревью (то же самое, но теперь с поиском по всем статьям) 3) Глубокое верифицирующее ревью, в ходе которого гипотеза раскладывается на независимые низкоуровневые предположения, которые оцениваются по отдельности, опять же, через поиск по литературе
— Также в Рефлексирующего подаётся результат работы Ранжирующего агента (об этом ниже), что позволяет выявлять часто повторяющиеся проблемы и зоны улучшения гипотез (чтобы не делать одни и те же ошибки снова и снова)
Ранжирующий:
— это самое интересное, мне кажется, вся изюминка системы тут
— Ранжирующий выбирает пары гипотез и проводит между ними полноценные дебаты (LLM + промпт «твоя задача защитить или атаковать вот эту позицию»), а затем оценивает победителя
— по результатам большого количества попарных «сражений» строится рейтинг на основе системы Эло (как в шахматах).
— Чем больше рейтинг, тем, видимо, легче гипотезу отстоять в дебатах (то есть или там мало к чему есть подкопаться, или все аргументы имеют крепкую базу с опорой на литературу)
— Так как суммарное количество гипотез очень велико (авторы, к сожалению, никак не описывают порядок величин даже приблизительно), и провести игры каждый-с-каждым не получится, то здесь внедрено две оптимизации: 1) гипотезы с высоким рангом проводят более длинные дебаты (до 10 шагов в диалоге), а с низким — 1 или 3-5 2) гипотезы чаще сравниваются с похожими на них (то есть среди некоторой группы схожих идей проявляется самая сильная). Группировка по похожести делается Группирующим агентом, он строит граф близости (никаких деталей в статье нет)
— результаты дебатов суммаризуются и подаются в Рефлекирующего
Эволюционирующий агент постоянно совершенствует и улучшает существующие гипотезы и предложения, используя:
— упрощение
— объединение/комбинацию гипотез
— и ещё пару методов
Наконец, Мета-оценщик:
— агент работает с результатами дебатов в турнире и находит общие закономерности, выявленные в ревью и дебатах
— Объединяя информацию из всех обзоров, метаобзор предоставляет ценную обратную связь Рефлексирующему
— также в генерируемом мета-обзоре очерчиваются потенциальные области и направления исследований, обосновывается их важность и предлагаются конкретные эксперименты в рамках каждой области. Каждая область включает иллюстративные примеры тем.
8👍119🔥75❤🔥24🤯7🌚3👨💻3👎2🤡1
Далее систему тестировали в end-2-end режиме на трёх реальных исследовательских задачах, а результаты отсматривались специалистами в этих областях.
Тест первый.
Тестирование и одобрение новых лекарств — очень долгое и дорогое занятие; поэтому существует drug repurposing, когда уже одобреное и работающее лекарство пытаются использовать для чего-то, для чего оно изначально не предназначалось. Задача очень сложная и требует экспертизы в нескольких дисциплинах.
AI-ко-саентисту дали задачу найти лекарства из числа одобренных (примерно 2400 штук) для лечения одной из 30+ форм рака. Затем 30 самых высокооценённых гипотез отсмотрели эксперты-онкологи, для каких-то из них произвели анализ на основе методов вычислительной билогии), и закончили экспериментами в мокрой лаборатории с использованием линий раковых клеток (не полноценных опухолей).
Если интересно, вид рака, для которого проверялись гипотезы, был «Острый миелоидный лейкоз» (AML), редкий агрессивный вид рака крови. Так вот, было отобрано 5 лекарств, 3 из них показали результаты, и один показался прямо очень многообещающим. Я не буду притворяться, что что-то понял из медицинских объяснений в статье, поэтому больше деталей дать не могу🤷♂️ что и как они замеряли, что за графики, по которым можно увидеть действие — хз.
Это одно многообещающее — Binimetinib, который уже одобрен в качестве лечения для матастазирующей меланомы.
«Этот результат показывает, что препараты, предложенные ко-саентистом, являются многообещающими в качестве жизнеспособных кандидатов для клинических испытаний на повторное использование лекарств».
«ко-саентист смог предложить нового кандидата для лечения AML, помимо тех, которые могли быть выбраны с помощью других существующих подходов и экспертных источников. Это говорит о том, что система может быть способна генерировать новые, многообещающие гипотезы для исследователей»
«Даже немотря на то, что гипотеза, созданная ко-саентисом, хорошо проверена онкологами и подкреплена доклиническим обоснованием и сильными экспериментами в пробирке, это не гарантирует эффективность и успех в клинических испытаниях. Такие факторы, как биодоступность препарата, фармакокинетика, побочные эффекты и критерии отбора пациентов, могут повлиять на результаты последующих испытаний»
Тест первый.
Тестирование и одобрение новых лекарств — очень долгое и дорогое занятие; поэтому существует drug repurposing, когда уже одобреное и работающее лекарство пытаются использовать для чего-то, для чего оно изначально не предназначалось. Задача очень сложная и требует экспертизы в нескольких дисциплинах.
AI-ко-саентисту дали задачу найти лекарства из числа одобренных (примерно 2400 штук) для лечения одной из 30+ форм рака. Затем 30 самых высокооценённых гипотез отсмотрели эксперты-онкологи, для каких-то из них произвели анализ на основе методов вычислительной билогии), и закончили экспериментами в мокрой лаборатории с использованием линий раковых клеток (не полноценных опухолей).
Если интересно, вид рака, для которого проверялись гипотезы, был «Острый миелоидный лейкоз» (AML), редкий агрессивный вид рака крови. Так вот, было отобрано 5 лекарств, 3 из них показали результаты, и один показался прямо очень многообещающим. Я не буду притворяться, что что-то понял из медицинских объяснений в статье, поэтому больше деталей дать не могу
Это одно многообещающее — Binimetinib, который уже одобрен в качестве лечения для матастазирующей меланомы.
«Этот результат показывает, что препараты, предложенные ко-саентистом, являются многообещающими в качестве жизнеспособных кандидатов для клинических испытаний на повторное использование лекарств».
«ко-саентист смог предложить нового кандидата для лечения AML, помимо тех, которые могли быть выбраны с помощью других существующих подходов и экспертных источников. Это говорит о том, что система может быть способна генерировать новые, многообещающие гипотезы для исследователей»
«Даже немотря на то, что гипотеза, созданная ко-саентисом, хорошо проверена онкологами и подкреплена доклиническим обоснованием и сильными экспериментами в пробирке, это не гарантирует эффективность и успех в клинических испытаниях. Такие факторы, как биодоступность препарата, фармакокинетика, побочные эффекты и критерии отбора пациентов, могут повлиять на результаты последующих испытаний»
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍93❤🔥37🔥22🤯5👎2🤡2
Тест второй.
Деталей мало, «системе было поручено разработать экспериментально проверяемые гипотезы относительно роли эпигенетических изменений в фиброзе печени, а также определить препараты, воздействующие на эпигенетические модификаторы, которые можно было бы использовать для лечения фиброза печени».
Тут люди отобрали 3 из 15 самых высокооценённых гипотез, провели эксперименты, тоже все красиво, а детали ожидаются в статье, которую скоро напишут совместно со Stanford University, что, как мне кажется, указывает на уровень — если бы там совсем ничего нового не было, или что-то не работало, как ожидается, скорее всего так бы не делали.
Тест третий.
Тут сосредоточились на на создании гипотез, объясняющих механизмы эволюции переноса бактериальных генов, связанные с устойчивостью к противомикробным препаратам (AMR) — эволюционно развитыми механизмами микробов, позволяющими им противостоять препаратам для лечения инфекций.
Но тут произошла такая штука — вот прямо в феврале одна из исследовательских групп написала статью с реальными экспериментами, и они получили результат, который собираются публиковать в престижных научных изданиях. Но эта статья и результаты ещё нигде не были размещены онлайн, то есть модель не могла их найти.
И так вышло, что как раз одна из топовых гипотез, предложенных моделью, и показала себя в реальных экспериментах, проделанных исследователями (Fleming Initiative и Imperial College London) независимо.
BBC взяли интервью у одного из авторов не-AI-шного исследования, и я так понял, что это не гугловцы придумали именно такой запрос задать в ко-саентиста, а просто профессор был знаком с кем-то из команды, которая делала инструмент, и из любопытства (или его попросили) закинул свой самый свежий тезис, вот прям в котором он очень хорошо разбирается, и по которому у него готовится статья с экспериментальным подтверждением.
«Полное десятилетие, потраченное учеными, также включает время, которое потребовалось для доказательства исследования, что само по себе заняло несколько лет. Но они говорят, что если бы у них была гипотеза в начале проекта, это сэкономило бы годы работы»
«Дело не только в том, что главная гипотеза, которую ко-саентист выдвинул, была правильной», — сказал профессор. «Дело в том, что он выдвинули еще четыре, и все они имеют смысл. И об одной из них мы даже никогда не думали, и теперь мы работаем над ней».
Деталей мало, «системе было поручено разработать экспериментально проверяемые гипотезы относительно роли эпигенетических изменений в фиброзе печени, а также определить препараты, воздействующие на эпигенетические модификаторы, которые можно было бы использовать для лечения фиброза печени».
Тут люди отобрали 3 из 15 самых высокооценённых гипотез, провели эксперименты, тоже все красиво, а детали ожидаются в статье, которую скоро напишут совместно со Stanford University, что, как мне кажется, указывает на уровень — если бы там совсем ничего нового не было, или что-то не работало, как ожидается, скорее всего так бы не делали.
Тест третий.
Тут сосредоточились на на создании гипотез, объясняющих механизмы эволюции переноса бактериальных генов, связанные с устойчивостью к противомикробным препаратам (AMR) — эволюционно развитыми механизмами микробов, позволяющими им противостоять препаратам для лечения инфекций.
Но тут произошла такая штука — вот прямо в феврале одна из исследовательских групп написала статью с реальными экспериментами, и они получили результат, который собираются публиковать в престижных научных изданиях. Но эта статья и результаты ещё нигде не были размещены онлайн, то есть модель не могла их найти.
И так вышло, что как раз одна из топовых гипотез, предложенных моделью, и показала себя в реальных экспериментах, проделанных исследователями (Fleming Initiative и Imperial College London) независимо.
BBC взяли интервью у одного из авторов не-AI-шного исследования, и я так понял, что это не гугловцы придумали именно такой запрос задать в ко-саентиста, а просто профессор был знаком с кем-то из команды, которая делала инструмент, и из любопытства (или его попросили) закинул свой самый свежий тезис, вот прям в котором он очень хорошо разбирается, и по которому у него готовится статья с экспериментальным подтверждением.
«Полное десятилетие, потраченное учеными, также включает время, которое потребовалось для доказательства исследования, что само по себе заняло несколько лет. Но они говорят, что если бы у них была гипотеза в начале проекта, это сэкономило бы годы работы»
«Дело не только в том, что главная гипотеза, которую ко-саентист выдвинул, была правильной», — сказал профессор. «Дело в том, что он выдвинули еще четыре, и все они имеют смысл. И об одной из них мы даже никогда не думали, и теперь мы работаем над ней».
2👍117❤🔥60🤯45🔥36👎2🤡1💔1
Картинки
1) устройство системы и описание того, как общаются агенты между собой
2) Рост эло-рейтинга от количества времени работы системы (чем дольше работает, тем лучше получаются гипотезы). Плато пока не наблюдается, можно вкинуть в 10 раз больше ресурсов и посмотреть, что ко-саентист найдет. Так как рейтинг оценивается самой системой, то это не обязательно означает рост реального объективного качества гипотез, однако гугловцы сделали отдельный анализ корреляции качества ответов на GPQA (выбор ответов в сложных вопросах) и Эло оценки решений ответов, и подтвердили, что она высокая.
3) Сравнение эло-рейтинга гипотез системы с генерациями обычных моделей (как я понял, просто один раз просят сгенерировать что-то по нужному формату; а затем Ранжировщик оценивает и сравнивает). Обратите внимание, что o3(-mini-high) и R1 как обособленные модели сами по себе выдают очень сильные гипотезы даже без всех этих агентских обвязок! А представьте как себя покажет GPT-5?
Ахахах а ещё посмотрите как низко люди на последней картинке...
1) устройство системы и описание того, как общаются агенты между собой
2) Рост эло-рейтинга от количества времени работы системы (чем дольше работает, тем лучше получаются гипотезы). Плато пока не наблюдается, можно вкинуть в 10 раз больше ресурсов и посмотреть, что ко-саентист найдет. Так как рейтинг оценивается самой системой, то это не обязательно означает рост реального объективного качества гипотез, однако гугловцы сделали отдельный анализ корреляции качества ответов на GPQA (выбор ответов в сложных вопросах) и Эло оценки решений ответов, и подтвердили, что она высокая.
3) Сравнение эло-рейтинга гипотез системы с генерациями обычных моделей (как я понял, просто один раз просят сгенерировать что-то по нужному формату; а затем Ранжировщик оценивает и сравнивает). Обратите внимание, что o3(-mini-high) и R1 как обособленные модели сами по себе выдают очень сильные гипотезы даже без всех этих агентских обвязок! А представьте как себя покажет GPT-5?
Ахахах а ещё посмотрите как низко люди на последней картинке...
👍91❤🔥29🔥19🤔5👨💻5🤡3👎2
У этой работы есть ограничения, некоторые из которых плавно перетекают в намёки на то, что именно ждать от второй версии системы. Уверен, что Google по аналогии с AlphaFold будут толкать тему дальше, и возможно уже через год результат лучших гипотез будет неоспорим:
— используется только открытая литература, доступная без подписок. Наверное, логично скооперироваться с парой крупшейших издателей, заплатить десяток миллионов и почивать, пока TPU гудят
— из-за предыдущего пункта система скорее всего имеет ограниченный доступ к негативным экспериментальным результатам или записям об неудачных экспериментах. В науке в целом так вышло, что такие данные публикуются реже, чем положительные, и потому какие-то из гипотез, которые ко-саентист мог отсечь, всё ещё остаюстя
— система работает только с текстом, хотя Gemini 2.0 должна хорошо понимать картинки в статьях и отчётах об экспериментах
— так как это ранний прототип, то точно можно существенно прокачать проверку всех гипотез, включая улучшение литературных обзоров, добавление перекрестных проверок с внешними инструментами, улучшение проверки фактов и цитирований
— «Будущая работа будет сосредоточена на обработке более сложных экспериментальных проектов, таких как многошаговые эксперименты. Интеграция ко-саентиста с системами автоматизации лаборатории может потенциально создать замкнутый цикл для проверки и обоснованную основу для итеративного улучшения» (тут речь про то, что уже существуют программируемые лаборатории, которые могут проводить эксперименты, описанные кодом. Модель выдаёт код на питоне, он исполняется, реактивы смешиваются, туда сюда, центрифуга, и готово).
— Авторы уже попробовали подключить AlphaFold 3 в качестве инструмента, говорят, заработало, но никакими деталями не делятся. Такие модели смогут усилять систему за счёт возможности проверки некоторых гипотез и предположений на лету, без реальных экспериментов.
===
«Эти достижения имеют значительные последствия для различных биомедицинских и научных областей. Например, интеграция ко-саентиста в процесс выбора кандидатов на лекарства представляет собой значительный прогресс в поиске повторного использования лекарств. Помимо простого поиска литературы, соученый может быть способен синтезировать новые идеи, соединяя молекулярные пути, существующие доклинические данные и потенциальные терапевтические приложения в структурированные, проверяемые конкретные цели»
===
3 теста это здорово, но мало, очень хотелось бы увидеть через полгода-год масштабирование на десятки-сотни и коллаборации с ведущими экспертами в разных областях. Такое, к сожалению, пока ограничено нашей естественной скоростью проведения тестов и бюрократии🥺
О и да, инструмент пока в закрытом доступе, Google ищет партнёров-учёных👍
UPD: короткий разбор = 6 постов😀
— используется только открытая литература, доступная без подписок. Наверное, логично скооперироваться с парой крупшейших издателей, заплатить десяток миллионов и почивать, пока TPU гудят
— из-за предыдущего пункта система скорее всего имеет ограниченный доступ к негативным экспериментальным результатам или записям об неудачных экспериментах. В науке в целом так вышло, что такие данные публикуются реже, чем положительные, и потому какие-то из гипотез, которые ко-саентист мог отсечь, всё ещё остаюстя
— система работает только с текстом, хотя Gemini 2.0 должна хорошо понимать картинки в статьях и отчётах об экспериментах
— так как это ранний прототип, то точно можно существенно прокачать проверку всех гипотез, включая улучшение литературных обзоров, добавление перекрестных проверок с внешними инструментами, улучшение проверки фактов и цитирований
— «Будущая работа будет сосредоточена на обработке более сложных экспериментальных проектов, таких как многошаговые эксперименты. Интеграция ко-саентиста с системами автоматизации лаборатории может потенциально создать замкнутый цикл для проверки и обоснованную основу для итеративного улучшения» (тут речь про то, что уже существуют программируемые лаборатории, которые могут проводить эксперименты, описанные кодом. Модель выдаёт код на питоне, он исполняется, реактивы смешиваются, туда сюда, центрифуга, и готово).
— Авторы уже попробовали подключить AlphaFold 3 в качестве инструмента, говорят, заработало, но никакими деталями не делятся. Такие модели смогут усилять систему за счёт возможности проверки некоторых гипотез и предположений на лету, без реальных экспериментов.
===
«Эти достижения имеют значительные последствия для различных биомедицинских и научных областей. Например, интеграция ко-саентиста в процесс выбора кандидатов на лекарства представляет собой значительный прогресс в поиске повторного использования лекарств. Помимо простого поиска литературы, соученый может быть способен синтезировать новые идеи, соединяя молекулярные пути, существующие доклинические данные и потенциальные терапевтические приложения в структурированные, проверяемые конкретные цели»
===
3 теста это здорово, но мало, очень хотелось бы увидеть через полгода-год масштабирование на десятки-сотни и коллаборации с ведущими экспертами в разных областях. Такое, к сожалению, пока ограничено нашей естественной скоростью проведения тестов и бюрократии
О и да, инструмент пока в закрытом доступе, Google ищет партнёров-учёных
UPD: короткий разбор = 6 постов
Please open Telegram to view this post
VIEW IN TELEGRAM
127👍198❤🔥91🔥41🤯5👎3 3🤡2
Телеграм в третий раз за 2 недели стёр пост из черновиков, поэтому поста не будет 🤷♂️ Ещё раз — и пишу Дурову 👶
Держите ссылку https://epoch.ai/gradient-updates/ai-progress-is-about-to-speed-up и тезисы на англисйком:
> The release of GPT-4 in March 2023 stands out because GPT-4 represented a 10x compute scale-up over the models we had seen before. Since then, we’ve not seen another scale-up of this magnitude: all currently available frontier models, with the exception of Grok 3, have been trained on a compute budget similar to GPT-4 or less
> Grok 3 represent more than an order of magnitude scale-up over GPT-4, and perhaps two orders of magnitude when it comes to reasoning RL. Based on past experience with scaling, we should expect this to lead to a significant jump in performance, at least as big as the jump from GPT-3.5 to GPT-4.
> The models are initially going to be perhaps an order of magnitude bigger than GPT-4o in total parameter count so we’ll probably see a 2-3x increase in the API token prices and around 2x slowdown in short context decoding speed when the models are first released, though these will improve later in the year thanks to inference clusters switching to newer hardware and continuing algorithmic progress.
> What should we make of Grok 3?
It’s possible to make both a bullish and a bearish for scaling based on Grok 3. The bullish case is that Grok 3 is indeed state-of-the-art as a base model with a meaningful margin between it and the second best models, and this is what we would expect given its status as a “next generation model” with around 3e26 FLOP of training compute. The bearish case is that the gap between Grok 3 and models such as Claude 3.5 Sonnet seems much smaller than the gap between GPT-4 and GPT-3.5, despite both representing roughly an order of magnitude of compute difference.
> I think the correct interpretation is that xAI is behind in algorithmic efficiency compared to labs such as OpenAI and Anthropic, and possibly even DeepSeek. This is why Grok 2 was not a frontier model despite using a comparable amount of compute to GPT-4, and this is also why Grok 3 is only “somewhat better” than the best frontier models despite using an order of magnitude more training compute than them.
> Putting all of this together, I think Grok 3 gives us more reasons to be bullish than bearish on AI progress this year.
===
> In addition, a counterintuitive prediction I’m willing to make is that most of the economic value of AI systems, in 2025 and beyond, is actually going to come from these more mundane tasks that currently don’t get much attention in benchmarking and evaluations [про это я писал в канале в посте с критикой Gemini 2.0 Pro; ожидаю, что OpenAI смогут донести ценность]. The smaller improvements in long-context performance, ability to develop plans and adapt them to changing circumstances, a general ability to learn quickly from in-context mistakes and fix them, etc. are going to drive more revenue growth than the math, programming, question answering etc. capabilities that AI labs like to evaluate and demo.
Держите ссылку https://epoch.ai/gradient-updates/ai-progress-is-about-to-speed-up и тезисы на англисйком:
> The release of GPT-4 in March 2023 stands out because GPT-4 represented a 10x compute scale-up over the models we had seen before. Since then, we’ve not seen another scale-up of this magnitude: all currently available frontier models, with the exception of Grok 3, have been trained on a compute budget similar to GPT-4 or less
> Grok 3 represent more than an order of magnitude scale-up over GPT-4, and perhaps two orders of magnitude when it comes to reasoning RL. Based on past experience with scaling, we should expect this to lead to a significant jump in performance, at least as big as the jump from GPT-3.5 to GPT-4.
> The models are initially going to be perhaps an order of magnitude bigger than GPT-4o in total parameter count so we’ll probably see a 2-3x increase in the API token prices and around 2x slowdown in short context decoding speed when the models are first released, though these will improve later in the year thanks to inference clusters switching to newer hardware and continuing algorithmic progress.
> What should we make of Grok 3?
It’s possible to make both a bullish and a bearish for scaling based on Grok 3. The bullish case is that Grok 3 is indeed state-of-the-art as a base model with a meaningful margin between it and the second best models, and this is what we would expect given its status as a “next generation model” with around 3e26 FLOP of training compute. The bearish case is that the gap between Grok 3 and models such as Claude 3.5 Sonnet seems much smaller than the gap between GPT-4 and GPT-3.5, despite both representing roughly an order of magnitude of compute difference.
> I think the correct interpretation is that xAI is behind in algorithmic efficiency compared to labs such as OpenAI and Anthropic, and possibly even DeepSeek. This is why Grok 2 was not a frontier model despite using a comparable amount of compute to GPT-4, and this is also why Grok 3 is only “somewhat better” than the best frontier models despite using an order of magnitude more training compute than them.
> Putting all of this together, I think Grok 3 gives us more reasons to be bullish than bearish on AI progress this year.
===
> In addition, a counterintuitive prediction I’m willing to make is that most of the economic value of AI systems, in 2025 and beyond, is actually going to come from these more mundane tasks that currently don’t get much attention in benchmarking and evaluations [про это я писал в канале в посте с критикой Gemini 2.0 Pro; ожидаю, что OpenAI смогут донести ценность]. The smaller improvements in long-context performance, ability to develop plans and adapt them to changing circumstances, a general ability to learn quickly from in-context mistakes and fix them, etc. are going to drive more revenue growth than the math, programming, question answering etc. capabilities that AI labs like to evaluate and demo.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡105👍63 24💔17👎12🔥8🌚7💩5❤🔥4👨💻3🤣1
Чуть больше 2 лет назад узнал тут, что в США есть список запрещённых букв, с которых не может начинаться трёхбуквенное название аэропорта. Одна из них — Q. Почему? Потому что с Q начинаются некоторые из служебных сообщений при телеграфировании (да-да, том настукивании точка точка тире точка).
Сегодня из Википедии узнал, что один из кодов QNB означает:
— (запрос) QNB = «Сколько кнопок на вашем радио?»
— (ответ) «QNB 100/5»
...100/5 означает, что кнопок 100, но отправитель знает, что делают лишь 5 из них. Интересно как после этого происходило дальнейшее общение))
Ну и чтоб два раза не вставать, ещё одно весёлое: QLF, «Ты посылаешь левой ногой? Попробуй посылать левой ногой!» — юмористически-уничижительный комментарий о качестве отправленного человеком сообщения. Буду теперь в комментах иногда писать QLF, вот😀
Сегодня из Википедии узнал, что один из кодов QNB означает:
— (запрос) QNB = «Сколько кнопок на вашем радио?»
— (ответ) «QNB 100/5»
...100/5 означает, что кнопок 100, но отправитель знает, что делают лишь 5 из них. Интересно как после этого происходило дальнейшее общение))
Ну и чтоб два раза не вставать, ещё одно весёлое: QLF, «Ты посылаешь левой ногой? Попробуй посылать левой ногой!» — юмористически-уничижительный комментарий о качестве отправленного человеком сообщения. Буду теперь в комментах иногда писать QLF, вот
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣255👍68🌚30 17🤡10🔥5👎2❤🔥1😈1
Jimmy Apples, несколько раз дававший точные инсайды про релизы AI лаб, написал, что сегодня Anthropic вот покажут! А что покажут?
Anonymous Poll
12%
Claude 4 (с Opus)
10%
Claude 4 (без Opus)
28%
Claude Reasoner (по цене не меньше x2 от Claude Sonnet 3.5)
16%
Claude Reasoner (по цене меньше чем x2 от Claude Sonnet 3.5)
34%
Ничего не покажут...
🌚41🤣24👍15👨💻10💩4👎1🤡1
(аххаха новую модель 3.7 назвали)
Источник
(релиз видимо вечером, это пока текстовый блок в коде сайта)
👀 ☠️ а с меня только вчера списало $200 за подписку на OpenAI... ни дай бог в течение 2 недель не дадут пощупать GPT-4.5 👊 😡
UPD:🙂 зато модель Elon Musk была самой уумной... меньше недели 🔪
anthropic.claude-3-7-sonnet-20250219-v1:0
Claude 3.7 Sonnet is Anthropic's most intelligent model to date and the first Claude model to offer extended thinking - the ability to solve complex problems with careful, step-by-step reasoning.
Anthropic is the first AI lab to introduce a single model where users can balance speed and quality by choosing between standard thinking for near-instant responses or extended thinking or advanced reasoning.
Claude 3.7 Sonnet is state-of-the-art for coding, and delivers advancements in computer use, agentic capabilities, complex reasoning, and content generation. With frontier performance and more control over speed, Claude 3.7 Sonnet is the ideal choice for powering AI agents, especially customer-facing agents, and complex AI workflows.
Supported use cases: RAG or search & retrieval over vast amounts of knowledge, product recommendations, forecasting, targeted marketing, code generation, quality control, parse text from images, agentic computer use, content generation
Источник
(релиз видимо вечером, это пока текстовый блок в коде сайта)
UPD:
Please open Telegram to view this post
VIEW IN TELEGRAM
15🤣286👍36🤡22❤🔥12🌚8 7🎉6🔥4👎3😈3
Сиолошная
(аххаха новую модель 3.7 назвали) anthropic.claude-3-7-sonnet-20250219-v1:0 Claude 3.7 Sonnet is Anthropic's most intelligent model to date and the first Claude model to offer extended thinking - the ability to solve complex problems with careful, step-by…
Уже на claude.ai (даже для бесплатных пользвателей!)
офф пост: https://www.anthropic.com/news/claude-3-7-sonnet
офф пост: https://www.anthropic.com/news/claude-3-7-sonnet
2🔥126👍26❤🔥15 5👎2🎉2🌚2🤡1
Сиолошная
Уже на claude.ai (даже для бесплатных пользвателей!) офф пост: https://www.anthropic.com/news/claude-3-7-sonnet
Метрички из блогпоста
❤🔥78 31🔥16👨💻4👎2🤡1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔95🔥44 25👍12🤡11🤯3👎2
Цена использования такая же, как у Sonnet 3.5 — не ожидал, думал, побольше сделают.
Указание бюджета на генерацию работает иначе, чем у OpenAI: можно прямо указать, сколько токенов хотите оплатить (`"budget_tokens": 16000`).
На второй картинке пример масштабирования метрик от бюджета на рассуждения.
Указание бюджета на генерацию работает иначе, чем у OpenAI: можно прямо указать, сколько токенов хотите оплатить (`"budget_tokens": 16000`).
На второй картинке пример масштабирования метрик от бюджета на рассуждения.
🔥99👍15👨💻6 3👎1🤡1