This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 2 — новая SOTA видео-генерация?!
Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.
Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.
Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.
Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.
@ai_newz
Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.
Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.
Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.
Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.
@ai_newz
🔥86👍37❤18⚡4🤯2😁1🤩1
Сбер выпустил в опенсорс три модели для русского языка
Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.
GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.
GigaEmbeddings - 2.5B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.
GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.
Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.
@ai_newz
Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.
GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.
GigaEmbeddings - 2.5B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.
GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.
Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.
@ai_newz
🔥192😁59👍38❤17🦄9🫡7❤🔥1🤩1🙏1
9 стрим OpenAI - апдейты API
⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.
⏳Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плюс интегрировать будет куда проще.
🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.
@ai_newz
⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.
⏳Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плюс интегрировать будет куда проще.
🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.
@ai_newz
🔥104👍37❤20🦄3😱2
Тут по интернету пронеслась новость о том, что ключевой свидетель в деле против OpenAI о нарушении авторского права и бывший сотрудник все той же компании был найден мертвым у себя дома (совпадение?).
Конечно же, бравые СМИ недвусмысленно прогремели тревогу, мол, смотрите, корпорация зла наняла хитмэна, чтобы сделать всё "чисто".
Кмк, что это всё байт на классы: никто никого в таком деле не стал бы убивать. Ведь всем и так понятно, что данные OpenAI парсят со всего интернета. Вопрос лишь в том, является ли это fair use или нет.
Пока никакого четкого закона на этот счёт нет, и, надеюсь, не будет, потому что запретить парсить интернет — значит убить всю индустрию AI в своей стране. Никакие "пруфы" от инсайдера о том, что OpenAI крадёт чужие работы, этого не изменят.
Его главный довод из интервью с NYT:
Но разве хоть кто-то когда-либо писал что-то совершенно новое?
Семье погибшего — мои соболезнования.
@ai_newz
Конечно же, бравые СМИ недвусмысленно прогремели тревогу, мол, смотрите, корпорация зла наняла хитмэна, чтобы сделать всё "чисто".
Кмк, что это всё байт на классы: никто никого в таком деле не стал бы убивать. Ведь всем и так понятно, что данные OpenAI парсят со всего интернета. Вопрос лишь в том, является ли это fair use или нет.
Пока никакого четкого закона на этот счёт нет, и, надеюсь, не будет, потому что запретить парсить интернет — значит убить всю индустрию AI в своей стране. Никакие "пруфы" от инсайдера о том, что OpenAI крадёт чужие работы, этого не изменят.
Его главный довод из интервью с NYT:
The outputs aren’t exact copies of the inputs, but they are also not fundamentally novel.
Но разве хоть кто-то когда-либо писал что-то совершенно новое?
Семье погибшего — мои соболезнования.
@ai_newz
👍82🤯39🫡23😁15❤11😱11🦄8💯3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
😁245🔥36💯13❤🔥7⚡3😱2
Всем пользователям GitHub, при использовании VS Code, даётся 2000 дополнений кода в месяц и 50 сообщений к GPT-4o и Sonnet 3.5. Pro подписка за $10 всё ещё даёт сильно большие лимиты и доступ к o1-preview/o1-mini.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
❤149🔥74👍29🤯12😁5🙏3🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ElevenLabs Flash 2.5
Звук генерится всего за 75 миллисекунд, предназначено это для риалтайм разговоров с ИИ. Доступно только по API, а жаль, локальный хостинг позволил бы срезать несколько десятков миллисекунд сетевой задержки.
Хоть задержка у сетапа на основе такой модельки будет заметно побольше (но не факт), чем у омни-моделей вроде GPT-4o или Gemini 2.0 Flash, но тут больше и контроля - одни кастомные голоса чего стоят.
@ai_newz
Звук генерится всего за 75 миллисекунд, предназначено это для риалтайм разговоров с ИИ. Доступно только по API, а жаль, локальный хостинг позволил бы срезать несколько десятков миллисекунд сетевой задержки.
Хоть задержка у сетапа на основе такой модельки будет заметно побольше (но не факт), чем у омни-моделей вроде GPT-4o или Gemini 2.0 Flash, но тут больше и контроля - одни кастомные голоса чего стоят.
@ai_newz
👍116🔥44🤯12❤11
This media is not supported in your browser
VIEW IN TELEGRAM
Pika 2.0 теперь можно попробовать бесплатно
Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.
pika.art
@ai_newz
Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.
pika.art
@ai_newz
🔥57👍15❤13😁7
Вчера Google показал превью своего конкурента o1. Пока он работает на основе Flash модели, а сам процесс размышлений показывается, в отличие от той же o1. Модель неплохая, но сильно уж маленькая, из-за чего есть лёгкие проблемы.
Судя по недавним превью (r1 lite, QwQ), даже у компаний второго эшелона уже есть рецепты для inference time compute scaling работающие на маленьких модельках. Сейчас они их дорабатывают и потом будут масштабировать на модельки побольше. Через пару месяцев у всей индустрии будет "o1 дома".
o1 - это сейчас последнее оставшееся большое технологическое преимущество OpenAI. Veo 2 уверенно бьёт Sora, в генерации картинок их не обскакал только ленивый и т.д. А ведь у других лаб есть свои заметные преимущества, которые OpenAI всё не может реплицировать - к примеру, гигантский контекст Gemini и посттрейн магия Claude.
И в этот момент из OpenAI гуськом уходят очень заметные кадры - вон вчера ушёл автор оригинальной GPT, Alec Radford, перед ним ушли CTO и CRO компании. И это только за последние три месяца, а до этого была вся драма с Ильёй Суцкевером.
Через полчаса у OpenAI будет последний из их 12 стримов. Хоть анонсы они и затянули - вчера, вместо интересных анонсов, чел просто играл на саксофоне, но на последнем явно покажут что-то особенное. По слухам, покажут o3 - сиквел к o1 (название O2 занято британским мобильным оператором).
Непонятно, хватит ли этого, чтобы заметно оторваться от Gemini 2.0 Ultra с включённым Thinking или от результатов гигантского трейнинг рана Anthropic, который уже несколько месяцев ощущают все пользователи Claude (другого объяснения этим всем лагам я не знаю). Но главный вопрос - сможет ли OpenAI, с такой текущей кадров, совершить следующий большой прорыв и сохранить лидерство.
@ai_newz
Судя по недавним превью (r1 lite, QwQ), даже у компаний второго эшелона уже есть рецепты для inference time compute scaling работающие на маленьких модельках. Сейчас они их дорабатывают и потом будут масштабировать на модельки побольше. Через пару месяцев у всей индустрии будет "o1 дома".
o1 - это сейчас последнее оставшееся большое технологическое преимущество OpenAI. Veo 2 уверенно бьёт Sora, в генерации картинок их не обскакал только ленивый и т.д. А ведь у других лаб есть свои заметные преимущества, которые OpenAI всё не может реплицировать - к примеру, гигантский контекст Gemini и посттрейн магия Claude.
И в этот момент из OpenAI гуськом уходят очень заметные кадры - вон вчера ушёл автор оригинальной GPT, Alec Radford, перед ним ушли CTO и CRO компании. И это только за последние три месяца, а до этого была вся драма с Ильёй Суцкевером.
Через полчаса у OpenAI будет последний из их 12 стримов. Хоть анонсы они и затянули - вчера, вместо интересных анонсов, чел просто играл на саксофоне, но на последнем явно покажут что-то особенное. По слухам, покажут o3 - сиквел к o1 (название O2 занято британским мобильным оператором).
Непонятно, хватит ли этого, чтобы заметно оторваться от Gemini 2.0 Ultra с включённым Thinking или от результатов гигантского трейнинг рана Anthropic, который уже несколько месяцев ощущают все пользователи Claude (другого объяснения этим всем лагам я не знаю). Но главный вопрос - сможет ли OpenAI, с такой текущей кадров, совершить следующий большой прорыв и сохранить лидерство.
@ai_newz
❤73👍46🫡14🔥5❤🔥2🤯1
o3 и o3-mini - разрыв бенчмарков
Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов.
🎓 SOTA результаты по Frontier Math выросли с 2% до 25%.
💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%.
👨💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO.
🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча.
👨🎓 На GPQA и AIME тоже очень хороший прогресс.
Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже.
@ai_newz
Это ещё не AGI, но точно SOTA на всём что только можно. Стоимость тоже гигантская - на решение одного единственного таска могут уйти тысячи долларов.
🎓 SOTA результаты по Frontier Math выросли с 2% до 25%.
💻 На SWE-Bench модель набрала 71,7%. Чтобы вы понимали, в этом году стартап смог поднять 200 миллионов долларов с результатами 13,86%.
👨💻 ELO на Codeforces - 2727, в мире всего у 150 человек больше ELO.
🔥На ARC-AGI модель набрала 87,5%, бенчмарк пять лет не могли покорить. Авторы уже партнёрятся с OpenAI чтобы создать вторую версию бенча.
👨🎓 На GPQA и AIME тоже очень хороший прогресс.
Сегодня дают доступ ресёрчерам безопасности к o3-mini, простым смертным доступ к o3-mini дадут в конце января, к o3 чуть позже.
@ai_newz
1🔥181🤯85👍16❤11😁10🦄9🫡5
А вот и несколько задачек из ARC-AGI, на которых валится o3, даже в high-compute режиме (где на одну задачу уходят десятки миллионов токенов, стоимостью в несколько тысяч долларов).
Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?
@ai_newz
Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?
@ai_newz
10😁209🫡27👍22❤10🔥9