Telegram Web Link
Media is too big
VIEW IN TELEGRAM
OpenAI показали GPT-4o (omni), выбрал главное

Доступна для бесплатных пользователей

Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде

Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом

Она может петь

Нейронка понимает видео в реальном времени

У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!

В два раза быстрее и дешевле GPT-4 Turbo

Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов

За счёт этого модель суммарно в 3.5 раза дешевле для русского языка

Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам

Разговорный режим будет доступен для подписчиков Plus в ближайшие недели

Более продвинутые аудио и видео возможности дают ограниченным группам пользователей

Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.

>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Завтра Google I/O и они тизерят апдейты Gemini

Так же как и в GPT-4o есть поддержка видео, но задержка звука после презентации OpenAI ощущается ужасно - больше 3 секунд против 300 миллисекунд у GPT-4o.

@ai_newz
"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"

Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев

Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀

Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.

Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.

@ai_newz
Через двадцать минут основная презентация Google I/O, так что вот мой минимальный список ожиданий:

* Релиз Gemini 1.5 Pro за пределами AI Studio

* Анонс (и желательно релиз) Gemini 1.5 Ultra

* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung

* Память и аналог GPTs для Gemini

* Видео функционал который они тизерили вчера

Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.

Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).

@ai_newz
Forwarded from khamidov
Google в 2018: Фантастическая технология Duplex, бронирует за тебя встречи, общается как реальный человек

Google спустя 6 лет:
This media is not supported in your browser
VIEW IN TELEGRAM
Выкатили улучшенную Gemini 1.5 Pro.

- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.

- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".

- Обещают вскоре добавить поддержку видео - до 1 часа.

- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!

https://blog.google/products/gemini/google-gemini-update-may-2024/

@ai_newz
Gemini 1.5 Flash - легкая и быстрая модель

На сцену выпустили Демиса Хассабиса, главу Google DeepMind.

Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут

Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.

>> Подбробности

@ai_newz
Imagen 3 - новая моделька для генерации изображений.

Лучше понимает длинные промпты и рендерит текст.

Будет несколько версий Imagen 3, каждая оптимизирована для разных задач. От быстрой генерации скетчей, до high-res изображений.

>> Подробности | Записаться в вейтлист

@ai_newz
Veo - конкурент Sora от Google

Понимает промпты в виде текста, видео и картинок, генерит в 1080p.

Модель доступна через вайтлист на labs.google, заявки уже принимаются.

@ai_newz
Новое железо!

1. Представили новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus

2. Гугл создал свой собственый Arm CPU: Axion для датацентров.

https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu

@ai_newz
эйай ньюз
Veo - конкурент Sora от Google Понимает промпты в виде текста, видео и картинок, генерит в 1080p. Модель доступна через вайтлист на labs.google, заявки уже принимаются. @ai_newz
А вот примеры генерации с помощью Veo.

Говорят, что могут сгенерит до 60 секунд в 1080p. Но почему-то все примеры в твиттере, кроме одного, по 8 сек.

Собака, кстати, вообще не очень-то черипикнутая вышла.

Это все также Latent Diffusion на Трансформере, как и Сора.

> Больше примеров тут
> Подробности

@ai_newz
Gems - аналог GPTs для Gemini.

- Подписчики Gemini Advanced скоро смогут создавать Gems - персонализированные версии Gemini (потому что одного Gemini вам явно мало).
- Вы cможете создать любой Gem. Например, партнер по тренажерному залу, су-шеф или партнер по программированию.
- Их легко настроить с помощью промпта. Просто опишите, чего вы хотите от своего Джема и как он должен отвечать (например, "будь моим беговым тренером, давай мне ежедневный план и будь позитивным и мотивирующим")
- Gemini возьмет эти инструкции и однимкликом улучшит их, чтобы создать Gem, который соответствует вашему запросу.

Как всегда, не релизят сразу, Джемы будут доступны только через несколько месяцев.

@ai_newz
Опенсорс: Gemma 2 и Visual LLM PaliGemma 3B

Gemma 2 релизнут в опенсорс уже в следующем месяце.
К существующим 2B и 7B (на самом деле 8B) размерам добавится ещё 27B моделька.

Ещё прямо сейчас релизнули визуальную LLM PaliGemma на 3B, веса уже тут.

>> Подробности

@ai_newz
Media is too big
VIEW IN TELEGRAM
Тут, кажется, все пропустили Music Ai Sandbox. Первая music2music моделька! Это уже полноценный инструмент со своим интерфейсом, который дорабатывает готовые сэмплы, а еще делает style transfer и вариации. Короче, диванным-продюсерам наконец-то есть с чем поэкспериментировать. Хотя, если честно, я действительно вижу, как настоящие музыканты могли бы ее использовать в своем workflow (см пример на видео, как hip-hop исполнители ее используют для создания сэмплов).

Гугл об этом инструменте писал еще в Ноябре 2023 года (модель Lyria). Его только переименовали в Music Ai Sandbox теперь, и, наверное, доработали. Но сейчас, как и тогда, инструмент доступен только узкому кругу музыкантов. 😢

Еще примеры работы тут.

@ai_newz
Провел гугл свою презентацию Google I/O

Смотреть стало скучно спустя 0 секунд, начиная с речи ни о чем от Сундара Пичалька. Фото из зрительского зала прикрепляю.

Показали свою новую Сору, а еще поржали сами над собой, посчитав, что сказали "AI" 121 раз. Ну, были, конечно, и крутые штуки вроде Gemini 1.5 Pro с 1-2 млн токенов контекста, которую открыли для премиум подписчиков.

Почти все презентованное будет доступно... когда-то...

В целом, это был рассказ о том, как Google видит свое будущее в AI или AI будущее в себе. Gemini запихнули ну куда только можно, о чем директор каждого отдела с большой гордостью отчитался. Такое ощущение, что у них там устроили конкурс, кто больше придумает юзкейсов и интеграций в интерфейсы своих приложух. Ну а в итоге, все говорили об одном и том же.

Акции GOOGL немножко приподнялись в моменте, думаю в этом и была цель — закинуть удочку на будущее для инвесторов.

При всем при этом вот что я думаю:
Gemini со всеми этими приколюхами может стать go-to нейронкой для обывателей, так как он торчит из всех щелей, бесплатный и бесшовно встраивается в существующие привычки пользователей. Я говорю о том, что в Chrome ты так и так зайдешь, а вот сайт OpenAI не каждый обыватель специально откроет.

@ai_newz
Gemini Nano встроят в следующую версию Chrome

Кроме того, что зарелизили мультимодальную супер-легковесную Gemini Nano, предназначенную бегать на Edge девайсах, ее теперь еще и встраивают в Chrome!

Запускаться будет прямо на девайсе (!), что даст очень хороший автокомплит всюду в браузере. Но главное - разработчикам сайтов дадут доступ к модельке, в том числе через специальные упрощенные API (пока обещают перевод, суммирование текста, транскрибирование аудио). Сайтам теперь не нужно будет платить за дорогие облачные LLM, всё будет на клиенте.

Кажется, это может стать киллер-фичей для Хрома.

Работать это всё пока будет через WebGPU, но вроде обещают в будущем запускать модельку на NPU. Как и всё на Google I/O, эта фича ещё в превью. Но релиз будет уже в Chrome 126, который выходит 5 июня.

Теперь Хром ещё больше полюбит оперативку

Блогпост
Податься на превью можно тут

@ai_newz
2024/05/15 00:25:49
Back to Top
HTML Embed Code: