Telegram Web Link
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs тизерит конкурента Suno

Пока есть только пара демо-треков, по первым впечатлениям - выносят Suno по качеству. И не удивительно - ElevenLabs лучше всех умеют в клонирование голоса, что, надеюсь, они прикрутят и сюда.

Главная проблема тут, как и со всей ИИ музыкой — копирайт. Если не понятно на чём модель тренировали, то при использовании в чём-либо серьёзном есть нехилые шансы нарваться на многомилионный иск, музыкальная индустрия их любит. Решается это лишь полным лицензированием трейнинг сета, что сделали пока что лишь для Stable Audio (которая не умеет генерить вокал).

Как вы думаете, когда увидим первые судебные иски?

@ai_newz
Сначала не обратил внимания на эту программулину. Но теперь очевидно, насколько это мощный инструмент.

IC Light выкатили обновление, которое позволяет матчить освещение двух картинок.

i.e. поместить предмет на фон и сделать так, чтобы свет на этот предмет падал в соответствии с освещением фоновой картинки.

Можно долго рассказывать про то, как на протяжении веков фотошоперы мучились и страдали от того, что не могли скомпозить две картинки из-за не совпадающего освещения. Но теперь вот вопрос решился ;)

Демо на обнимающем лице (пока без фоновой картинки)
GitHub

IC Light пока нет в a1111, но есть в ComfyUI

@ai_newz
А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.

На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.

@ai_newz
Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.

Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.

Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.

- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.

- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.

- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.

Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷‍♀️

Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)

High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост

@ai_newz
Немного с задержкой, но вот все-таки он:

Нейродайджест за неделю (#17)

1. Ла Лэ Мэ
  - Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
  - Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
  - Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
  - В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.

2. Тизеры и релизы
  - ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
  - IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.

3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
  - Пускаем скупую мужскую слезу на олдскульные девайсы.


> Читать дайджест #16

#дайджест
@ai_newz
Курс по квантизации для тех, кто хочет быть в теме

Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.

Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.

Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.

Ссылочка на курс

#ликбез
@ai_newz
2024/05/29 02:18:05
Back to Top
HTML Embed Code: