Telegram Web Link
Forwarded from Сиолошная
Тезисно:
— Anthropic представили новую возможность для публичного тестирования: использование компьютера (уже доступно в API). Разработчики могут давать Claude использовать компьютер так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст.
— Claude 3.5 Sonnet — первая передовая модель, предлагающая использование компьютера в публичной бета-версии (ну, из коробки да, но для других моделей это уж было года два...на GitHub. А тут они прям уверены!)
— этими возможности уже тестируют Asana, Canva, Cognition (которые Devin делали), DoorDash, Replit, и The Browser Company (это браузер Arc, на котором я сижу; они делают большую ставку на AI в браузере для выполнения действий вместо вас)
— The Browser Company отметили, что при использовании модели для автоматизации веб-задач Claude 3.5 Sonnet превзошла все модели, которые они тестировали до этого (но без деталей. Ждём обновление браузера? 🙂)
— новая модель сильно прокачалась в кодинге. На бенчмарке по внесению изменений в код на уровне целого большого репозитория (десятки тысяч строк кода) SWE-bench Verified качество выросло с 33.6% до 49% — это если сравнивать старый Sonnet и новый с использованием SWE-Agent (открытый фреймкорк из Berkley). Но были и другие решения, которые заточены именно на улучшение оценки, но недоступны нам — они выдавали 45.2%. Они, наверное, пробьют 55% просто через замену модели.
— Haiku (младшая версия, дешёвая) получает 40.6% на этом бенчмарке, что лучше старого Sonnet 3.5. Видно, что Anthropic вложились в ИИ-агентов и/или reasoning

Что это за "использование компьютера"? Claude транслирует ваши инструкции вроде «возьми данные с моего компьютера и из Интернета для заполнения вот этой формы и пройдись по всем полям») в компьютерные команды (прочитать таблицу на экране; переместить курсор, чтобы открыть веб-браузер; перейти на соответствующие веб-страницы; заполнить форму данными с этих страниц и т. д.)

Пока работает с достаточно базовыми командами и на разных бенчмарках вроде OSWorld выдаёт всего 22% (прошлый лучший результат был 7.8%, если использовать только скриншоты экрана, без трансляции в специльную форму для слабовидящих). Однако компания ожидает быстрых улучшений в ближайшем будущем через сбор обратной связи от разработчиков. Тут они сильно обошли OpenAI и других — как мы знаем, данные это новая нефть, и каждый день отставания других игроков приносит ценность. Очень ждём, что ответят OpenAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍269
Хочу порекомендовать вам канал про инди-хакинг, который читаю сам: @its_capitan

Мне нравится как они в реальном времени показывают как разрабатывают, продвигают и сколько зарабатывают на запусках небольших-проектов.

Подборка постов, которые мне зашли:
- Пост про то, почему американцы платят $40 за простой конвертер картинок, который сделали за 4 недели несмотря на то, что вокруг полно бесплатных аналогов.
- Пост про то, как за 2 недели запустили темную тему с тарифами от $5 до $99. Четыре таких продукта пассивно приносят как зп среднего разработчика.
- Как все может грустно закончиться, если 2 года пилить сложный продукт, не показывая его рынку.

Здесь можно подписаться на канал, чтобы подглядеть за их запусками. А может, и попробовать сделать такой простой продукт самому)
👍28👎206🤬3
5744😢28🤔1
Борис опять
Photo
Claude обновился, так что время протестировать его на единственном достойном бенчмарке: рисовании svg.

Напомню промпт:
Using SVG, draw a blue cube half behind a red cube on top of a yellow cube, with a purple cube in the background to the right

12
По сравнению с предыдущей версией все параллелипипеды стали кубами, правда с недостающими сторонами, но добавился лишний темно-красный куб и перепутан порядок. Старый справился лучше. Правда если сделать несколько генераций, то можно получить то, что выдавал старый.

Что это говорит о моделях и искусственном интеллекте? Ничего.
👍3024🤔2😢1
Forwarded from Galqiwi's boredom
Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео
👍37🔥17👎82
# Кратко про книги

Когда мне предложили писать научно-просветительскую книгу я изучал вопрос почти месяц и поговорил с несколькими лауреатами премии "Просветитель." Поделюсь с вами тем, что узнал.

## Деньги
Денег не будет. Сразу это обозначим. Если вы работаете с издательством, то получаете роялти около 20% от оптовой цены печатного экземпляра. Если книга стоит 400 руб, то автор получит примерно 20 рублей. Можно задрать цену книги, но тогда ее никто не купит. С электронными и аудио книгами порядок такой же. Успешные по меркам рынка книги продаются всего по несколько тысяч экземпляров, так что можете сами посчитать потенциал.

В случае самиздата вы получаете больше денег с продажи, но скорее всего гораздо меньше продаж.

На Хабре есть статья писательницы, которая выпустила нон-фикшн книгу про карьеру в IT и за два года заработала 26 тысяч рублей. Это выручка, то есть не считая расходы.

## Издательство или самиздат?
Есть два пути.

Самиздат: делаешь, что хочешь и публикуешь рукопись в электронном виде через Ридеро или ЛитРес. Эти площадки предоставляют услуги издательства по модели pay2win. То есть дерут с вас деньги везде, где могут. Вы сами платите за корректуру, редактуру, обложку, иллюстрации, запись аудиокниги и так далее.

Главный плюс этого пути: полный контроль. Второстепенный: вы забираете почти все деньги с продаж. Но денег не будет, так что это не важно.

Меня интересовала такая схема:
1. Публикую книгу в open-source по главам.
2. С выходом каждой главы собираю обратную связь и навожу суету.
3. Когда книга готова публикую через самиздат.
4. Когда книга успешно продаётся через самиздат иду в издательства и предлагаю масштабировать.
Звучало хорошо, но ниже расскажу, почему отказался от этой идеи.

Издательство: вы передаете исключительную лицензию на распространение на 5-7 лет, получаете роялти от продаж в районе 20%, а взамен они делают примерно все кроме написания рукописи от редактуры до продвижения. Последнее важно: издательство может продать вашу книгу в сетевые книжные магазины, а попасть туда самостоятельно у вас фактически нет шансов. Издательство может номинировать книгу на премию "Просветитель", а сами вы этого не можете сделать если не являетесь академиком РАН или кем-то еще очень особенным.

Взамен вы отдаете контроль. Вы больше не можете выбрать название или обложку. Конечно никто не сделает чего-то не спросив вас, но в конце концов решающий голос по многим вопросам у издательства. Так же вы теряете возможность выбирать где и как продается книга на время действия лицензии. Например, вы не можете продавать ее у себя на сайте.

В конечном итоге я решил работать с издательством. Я понял, что для меня критично, чтобы книга случилась, и чтобы ее прочитало как можно больше людей. Для обоих целей лучше писать с издательством.

По части моей схемы с open-source: никто так не делает. Слишком непредсказуемо. Даже если все получится издательства могут не взяться распространять книгу, которая уже лежит в открытом доступе. Мне конечно кажется, что самостоятельно я бы сделал все лучше всех, но объективно это не так. Наконец, я просто не потянул бы целую вторую работу в незнакомой сфере.

К тому же, мне само написало хорошее издательство и мне понравилось с ними взаимодействовать.

## Ты предлагаешь или тебе предлагают

Обычный сценарий написания книги: автору неймётся, он пишет рукопись, потом ходит и пытается кого-то убедить её напечатать. В большинстве случаев издательства отказываются, выдвигают не лучшие условия или делают все за деньги автора.

Другой сценарий этоткогда приходят к вам. Мой случай. Значит о вас узнали и есть запрос. Здесь вы минуете самую болезненную фазу.

Однако это не значит, что все схвачено. Сотрудник издательства предлагает вам писать, но далее вы готовите документ в свободной форме, где продаете свою книгу. Пишете о чем книга, для кого, кто вы, почему вас будут читать, как планируете продвигать и пример текста. Питчдек в мире книг. Редакционный совет издательства читает и решает, работать с вами или нет.

Одобрение совета было для меня дополнительным сигналом, что стоит писать.
👍308🔥7
## Масштабы продаж

Издательство не может просто взять права на распространение, положить их на полку и ничего не выпустить. По договору они обязаны напечатать хотя бы один тираж. Размер этого обязательного тиража намекает на то, каких продаж можно ожидать. Как думаете, сколько? Ответ: 2 - 4 тысячи.

Если было продано несколько тысяч экземпляров, то книга считается бестселлером. Подавляющее большинство книг выпускается только в виде первого тиража, который потом утилизируется, потому что не продается.

Продажи книг это мир power law распределений: победитель получает все.

## Сроки

6-9 месяцев вы пишете рукопись. В процессе периодически показываете материал продюсеру от издательства, который дает обратную связь.

Вы сдаёте рукопись и 3-4 месяца идут редактура, корректура, дизайн обложки и прочее. Далее книга появляется в продаже. Примерно за месяц до этого начинается продвижение.

Пока что я пишу слишком медленно и не укладываюсь в сроки, что вызывает трясучку.

В случае самиздата, я уверен, все сроки умножаются на два.

———

В общем, со всех сторон план надёжный как швейцарские часы: денег не будет, продаж можно не ждать (но стремиться к ним я буду!), времени не много, а работы очень много. Зачем тогда? Потому что хочется сделать что-то стоящее и есть основания считать, что у меня получится.

Интересующимся очень советую эту серию постов на Хабре, где девушка описывает весь процесс написания, продаж и продвижения книги как раз по моей схеме от опенсорса к самиздату и до издательств. Она очень подробно разбирает все моменты, сравнивает предложения разных издательств и прочее прочее.
139👍22🔥1
Олимпиадники опять не дают делать комментарии под последним постом, так что пишите под этим
58
Новый поиск в ChatGPT реально хорош.

На запросах вида "как приготовить куриный суп" выдача намного лучше, чем у Google. Просто по делу и не нужно продираться через стену копирайта.

Можно придраться только к цензуре. Поисковик который не хочет искать порно какие-то вещи на свое усмотрение это неприятно.

Но не все пока закрыто наглухо, торрент трекеры выдает :)
60🔥84👍4
Finally, AGI
😢5752
114🤔17👍6
Ярослав закончил МФТИ, делает свою студию по хардкорному внедрению ML/AI на производствах и рассказывает об этом в своем канале.

Причём проекты из реального сектора о которых мало где услышишь: литье стали, измерение объёма древесины, окллюзии мозга. Мне после применения CV на вертикальных фермах в Planet Farms очень откликается.

Приятно, что в канале нет новостей из мира AI, генераций картинок, освой профессию будущего и всего такого. И написано не слишком серьёзно, легко читать.

Такого контента про внедрения ML/AI очень мало, так что честно рекомендую: @r77_ai
🔥3720👎15👍12🤬32
#обзор_статьи
# Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy

Ребята из T-Bank AI Research продолжают радовать вместе с МФТИ и МИСИС, на этот раз в области CV и робастности.

Вечная проблема ML это надежность. ML отлично работает в границах применимости модели, но может делать непредсказуемые вещи на данных непохожих на тренировочные. Очень тяжело понять, находимся мы в границах применимости или уже нет. Задача Out Of Distribution детекции состоит в том, чтобы определить насколько стоит доверять предсказанию на конкретном примере.

В DL эта задача решается в том числе с помощью ансамблирования. Если мы используем несколько разных моделей и они дадут несогласованные предсказания, значит пример скорее всего OOD.

Вечная проблема ансамблей в ML это диверсификация. Если все модели действуют одинаково, то ансамблировать их бесполезно. Обычно ансамбли делают используя разные архитектуры моделей или изменяя данные на входе.

Авторы предлагают новый метод обучения ансамблей нейронных сетей: Saliency-Diversified Deep Ensembles (SDDE). Он основан на идее, что можно понять насколько модели диверсифицированы по тому на какие признаки они опираются в предсказаниях.

Здесь нужно вспомнить такой метод интерпретации нейронных сетей как saliency maps. Для одной модели saliency map это когда мы сопоставили каждому пикселю входного изображения число которое тем больше, чем больший вклад он внес в предсказание модели. Есть разные методы вычислять такие карты, но наиболее стандартный GradCAM.

Идея авторов: если мы натренируем ансамбль так, чтобы saliency maps моделей в нем отличались, то получим диверсифицированные модели, которые будут принимать решения разными методами и следовательно их согласованность поможет отличать OOD примеры.

Как часто бывает в DL это достигается через дополнительную функцию ошибки: среднее косинусное расстояние между saliency maps рассчитанных с помощью GradCAM.

Авторы аггренируют предсказания ансамбля усредняя логиты моделей перед софтмаксом.

В результате такой ансамбль показывает лучшую калибровку, то есть вероятности на выходе больше схожи с настоящими (при идеальной калибровке если модель предсказывает 20%, то она оказывается права в 20% таких случаев). Метрики по точности на OOD датасетах лучше. При визуализациях так же видно, что модели ансамбля фокусируются на разных частях изображений.

Статья кстати очень хорошо, понятно и красиво написана.
🔥46👍197👎2
Скинули в нашем Опять чате
91🔥10
2025/07/10 23:35:35
Back to Top
HTML Embed Code: