Как обещал - другая планета.
❤34
Forwarded from AI Product | Igor Akimov
Вот уже результаты бенчмарков от Artificial Analysis:
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%. Обратите внимание, что наш бенчмарк использует исходный набор данных HLE (январь 2025 г.) и запускает текстовую часть без каких-либо инструментов.
- Совместный наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%. Обратите внимание, что наш бенчмарк использует исходный набор данных HLE (январь 2025 г.) и запускает текстовую часть без каких-либо инструментов.
- Совместный наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
❤10
Forwarded from AI Product | Igor Akimov
Вот уже результаты бенчмарков от Artificial Analysis:
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%.
- Наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
- Grok 4 достиг индекса искусственного интеллекта (ИИ) 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 0528 (68).
- Цена Grok 4 эквивалентна Grok 3: 3/15 долларов США за 1 млн токенов ввода/вывода (0,75 доллара США за 1 млн токенов кэшированного ввода). Цена за токен идентична Claude 4 Sonnet, но выше, чем у Gemini 2.5 Pro (1,25/10 долларов США за <200 тыс. токенов ввода) и o3 (2/8 долларов США после недавнего снижения цены).
- Grok 4 лидирует не только по индексу искусственного интеллекта, но и по индексу программирования (LiveCodeBench и SciCode) и индексу математики (AIME24 и MATH-500).
- Рекордный результат в GPQA Diamond — 88%, что значительно выше предыдущего рекорда Gemini 2.5 Pro в 84%.
- Рекордный результат в Humanity's Last Exam — 24%, что превышает предыдущий рекорд Gemini 2.5 Pro в 21%.
- Наивысший результат для MMLU-Pro и AIME 2024 — 87% и 94% соответственно.
- Скорость: 75 выходных токенов/с, медленнее, чем o3 (188 токенов/с), Gemini 2.5 Pro (142 токена/с), Claude 4 Sonnet Thinking (85 токенов/с), но быстрее, чем Claude 4 Opus Thinking (66 токенов/с).
- Окно контекста на 256 тыс. токенов. Это ниже контекстного окна Gemini 2.5 Pro в 1 миллион токенов, но выше, чем у Claude 4 Sonnet и Claude 4 Opus (200 тыс. токенов), o3 (200 тыс. токенов) и R1 0528 (128 тыс. токенов).
- Поддерживает ввод текста и изображений. Аудио пока нет.
- Поддерживает вызов функций и структурированный вывод.
❤11
Forwarded from Machinelearning
🩺 Боксер 5 лет жил с щелчком в челюсти.
За долгие годы 17 врачей не смогли ему помочь, рентген ничего не показывал.
Чат-бот выдал диагноз за минуту: смещение сустава и рекомендовал сделать - простое упражнение языком.
Он попробовал — и щелчок исчез.
🔜 Добро пожаловать в эру ИИ-медицины.
Пациенты загружают симптомы или даже МРТ — и получают точные диагнозы с вероятностью до 92%.
LLM доверяют сложнейшие кейсы: спинальные патологии, редкие болезни крови и другие «неуловимые» диагнозы.
📊 Новые метрики подтверждают эффективность ИИ:
— MAI-DxO — MAI-DxO — это система оркестрации медицинского ИИ (AI orchestration system), разработанная для объединения разных моделей и инструментов диагностики в единую "умную" систему, которая диагностирует в 4 раза точнее, чем врачи
— HealthBench -это открытый бечмарк для оценки медицинских навыков и точности диагностики, содержит 5000 реальных медицинских cлучаев в формате чатов между пациентом и моделью.
Что самое интересно:
— Когда ИИ работает один — точность диагнозов 95%
— Когда вмешивается человек — точность диагноза падает до 75%: врачи зачастую занижают тревожность, упускают детали
Иногда именно ИИ замечает то, что упустили 17 специалистов.
📌 Источник
@ai_machinelearning_big_data
#ai #ml #medecine
За долгие годы 17 врачей не смогли ему помочь, рентген ничего не показывал.
Чат-бот выдал диагноз за минуту: смещение сустава и рекомендовал сделать - простое упражнение языком.
Он попробовал — и щелчок исчез.
Пациенты загружают симптомы или даже МРТ — и получают точные диагнозы с вероятностью до 92%.
LLM доверяют сложнейшие кейсы: спинальные патологии, редкие болезни крови и другие «неуловимые» диагнозы.
— MAI-DxO — MAI-DxO — это система оркестрации медицинского ИИ (AI orchestration system), разработанная для объединения разных моделей и инструментов диагностики в единую "умную" систему, которая диагностирует в 4 раза точнее, чем врачи
— HealthBench -это открытый бечмарк для оценки медицинских навыков и точности диагностики, содержит 5000 реальных медицинских cлучаев в формате чатов между пациентом и моделью.
Что самое интересно:
— Когда ИИ работает один — точность диагнозов 95%
— Когда вмешивается человек — точность диагноза падает до 75%: врачи зачастую занижают тревожность, упускают детали
Иногда именно ИИ замечает то, что упустили 17 специалистов.
📌 Источник
@ai_machinelearning_big_data
#ai #ml #medecine
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤44
Forwarded from All is Gucci
Quartermast выпустили свежий отчет по сделкам в экономике креаторов за первую половину 2025 года. Круто видеть, что в индустрию снова хлынули деньги. По сравнению с прошлым годом количество M&A выросло на 73%. Более того за эти шесть месяцев закрыли 52 сделки, столько же было за весь 2023 год. Особенно охотно покупают софт, агентства и медиа ресурсы.
Средняя оценка колеблется от 5× до 8× EBITDA. Для SaaS — 4.5×–7.4× ARR. Частный капитал тоже оживился, деньги активно вливают PSG Equity, BlackRock, Clarion, Andreessen Horowitz. 79% сделок заключили в США, но интерес к Европе и Латинской Америке тоже растет. Появляются неожиданные покупатели в виде фудтехов и модных брендов.
💙 Publicis купила платформу Captiv8 за $175M
💙 PSG Equity взяла контрольный пакет Uscreen за $150M (Look Mom! 😁)
💙 Wonder (фудтех) заплатили за Tastemade $90M
💙 у Later теперь Mavely (social commerce) за $250M
💙 Publicis также выкупила бразильское агентство BR Media Group за почти $100M
Также Quartermast поделились своими прогнозами до конца года, там:
💙 100+ сделок к концу года
💙 консолидация в сфере талант-менеджмента
💙 рост M&A вне США
💙 новая волна покупок платформ в инфлюенс-маркетинге
Полная версия
Средняя оценка колеблется от 5× до 8× EBITDA. Для SaaS — 4.5×–7.4× ARR. Частный капитал тоже оживился, деньги активно вливают PSG Equity, BlackRock, Clarion, Andreessen Horowitz. 79% сделок заключили в США, но интерес к Европе и Латинской Америке тоже растет. Появляются неожиданные покупатели в виде фудтехов и модных брендов.
Также Quartermast поделились своими прогнозами до конца года, там:
Полная версия
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Видите мужичка с мешком? Всмотриесь в его лицо внимательно. У этого человека 3 важных достижения:
1. Он - первый в мире, кто доставил почту самолетом.
2. Он - тот, кто построил самолет, на фоне которого он снят.
3. Он основал компанию Boing, начиная с одного маленького самолета, и превратил ее в крупнейший мировой авиакосмической концерн.
Его зовут Билл Боинг, и его родители эмигрировали из Германии. Он получил образование инженера, поехал на 1-е в мире авиашоу и заболел самолетами. Видно, что человек не боялся работы и риска.
1. Он - первый в мире, кто доставил почту самолетом.
2. Он - тот, кто построил самолет, на фоне которого он снят.
3. Он основал компанию Boing, начиная с одного маленького самолета, и превратил ее в крупнейший мировой авиакосмической концерн.
Его зовут Билл Боинг, и его родители эмигрировали из Германии. Он получил образование инженера, поехал на 1-е в мире авиашоу и заболел самолетами. Видно, что человек не боялся работы и риска.
❤125