Telegram Web Link
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Сейчас все обсуждают статью от Microsoft "Рассвет больших языковых моделей: предварительные эксперименты с GPT-4V(ision)", где у GPT-4 появилось "зрение".

В кругах, которые занимаются Computer Vision легкий шок, от "а что так можно было" и "как же это круто" до "а что теперь делать/чем заниматься, если вдруг 90% планируемых к решению задач вдруг решены"(утрирую, конечно).

Но я хочу процитировать один пост, в котором рассматривается влияние этого прорыва на психологию. Как человек, больной на всю голову, я неровно дышу к идее изучения психологического устройства кожаного мешка через издевательства на большими языковыми моделями.

"Для нас как психологов особенно важными являются 7 и 8 параграфы, описывающие способность GPT-4V(ision) эффективно решать тесты на невербальный и эмоциональный интеллект, в которых стимулы предъявляются в зрительной модальности – так же, как и человеку. Описывается успешная работа GPT-4V(ision) с тестом Равена, тестом Векслера, тестом на распознавание лицевых экспрессий и др. В целом, когнитивный успех GPT-4V(ision) подтверждает стремительно множащиеся сейчас слухи, что в недрах OpenAI, на самом деле, уже создана сверхмощная мультимодальная модель, гораздо более приближенная к AGI, чем любая из публично представленных версий GPT-4"

Подробнее вот тут: https://www.tg-me.com/andrey_kiselnikov/714
Там же ссылка на саму статью.
🔥4
Forwarded from Трендоскоп
Новенькое в сфере GenML

Прошлая неделя выдалась насыщенной на релизы:

1. Mistral 7B — опенсорсная языковая модель с открытой лицензией Apache. По отзывам, качество генерации выше чем в Llama 2 и сравнимо с GPT-3.5. Практически не зацензурирована, благодаря чему более полезна. Можно запустить локально.

2. Cohere Chat + RAG — новый чатбот и API от команды Cohere. Позволяет подгрузить в чат любые внешние источники данных (например, pdf-ки или результаты поиска).

3. Claude открыл API для всех. Их киллер-фича — контекстное окно в 100k токенов, в 3 раза выше чем у GPT-4. Также ребята плотно запартнерились с Амазоном и получили от него монстр-раунд инвестиций в $4В.

4. PaLM 2 API от Гугла тоже открыт для всех разработчиков. Ещё Google сделали low-code инструмент MakerSuite для быстрого создания прототипов ИИ-приложений.

5. NexusRaven-13B — опенсорсная LLM, заточенная на function calling. На этой задаче модель сравнима с GPT-3.5.

6. Workers AI от Cloudflare — serverless inference для языковых моделей на базе инфраструктуры Cloudflare. Поддерживают Llama2, Whisper и несколько других опенсорсных моделей.
Forwarded from partially unsupervised
Понравился LiteLLM - LLM Ops здорового человека. TL;DR: тонкий враппер с общим поверх популярных провайдеров LLM, с кэшированием, обработкой ошибок и бюджетированием.

Вообще я не спец в LLM, но сделал сколько-то прототипов на коленке, и считаю, что правильный воркфлоу - делать proof of concept поверх самого дорогого и предсказуемого на текущий момент API (читай GPT-4), и держать в уме опцию миграции в будущем. Уже в паблике есть и жирная Falcon-180B 🐪, и крутой для своего размера Mistral 7B 🇫🇷, и разные затюненные Llama-2. Лень сетапить инференс - пожалуйста, есть Replicate или Deepinfra.com под ваш форк Лламы, и Antropic через AWS Bedrock; все они обойдутся дешевле, чем GPT.

Если совсем полетит, то на собранном датасете можно будет тюнить свою кастомную модель, если лицензия позволит 🏴‍☠️. Но скорее всего, YAGNI.
3🤮1
Forwarded from Трендоскоп Lab (Александр)
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs выкатили Dubbing — инструмент для ИИ-перевода видео/аудио между 29 языками (русский также присутствует). При этом сохраняется голос и манера речи говорящего.

Липсинка пока нет, но обещают в скором будущем.
Channel name was changed to «Generative Ai»
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
🎞 Generative Fill для видео от Adobe.

Новинка Project Fast Fill создана на основе технологии генеративной заливки и позволяет быстро удалять объекты с видео или менять фон по простому текстовому описанию.

Изменения автоматически применяются на всё видео, без необходимости покадрового редактирования.
🔥2
Питер Норвиг, соавтор классического учебника по AI, соавтор первого MOOC (который тоже был про AI) и вообще значимый человек ещё лет десять назад, которого я уже давно не слышал, вместе с вице-президентом Google Research написали статью про то, что AGI уже здесь.

Nevertheless, today’s frontier models perform competently even on novel tasks they were not trained for, crossing a threshold that previous generations of AI and supervised deep learning systems never managed. Decades from now, they will be recognized as the first true examples of AGI, just as the 1945 ENIAC is now recognized as the first true general-purpose electronic computer.

https://www.noemamag.com/artificial-general-intelligence-is-already-here
👍2🔥2
AIIA-Enterprise_GenAI_Adoption-upodate-2.pdf
1.9 MB
Статья основана на опросе более 1000 крупных компаний об использовании ими искусственного интеллекта и машинного обучения.

67% компаний считают приоритетом внедрение генеративных ИИ моделей типа GPT в 2023 году.

Главные препятствия - настройка моделей под нужды компании, сохранение интеллектуальной собственности, нехватка ресурсов.

58% компаний считают, что у них недостаточно бюджета и персонала для внедрения ИИ.

Большинство планируют использовать готовые модели, а не обучать с нуля.

У многих проблемы с показом ROI от ИИ инвестиций. Более половины понесли крупные убытки.

Но ИИ уже стал критически важен в маркетинге, продажах, продуктах. Ожидается дальнейший рост использования.

Компании остаются оптимистичны и ожидают, что ИИ принесёт больше выручки и сократит затраты.

Происходит индустриализация ИИ - переход от исследований к реальным бизнес-приложениям.

https://ai-infrastructure.org/enterprise-generative-ai-adoption-report-aug-2023/
1
https://github.com/dgarnitz/vectorflow

VectorFlow - это высокопроизводительный конвейер для встраивания векторов, который принимает исходные данные, преобразует их в векторы и записывает в выбранную вами векторную базу данных​ (milvus, weaviatte)
👍3
Forwarded from Трендоскоп Lab (Александр)
Разговор с картинками в ChatGPT

OpenAI начали раскатывать обещанную фичу для подписчиков ChatGPT Plus. Посмотрел примеры, бот справляется неплохо даже на русском — анализирует графики, проверяет технику бега, генерит фронтенд-код по скриншоту, объясняет мемы.

Пока ждём API, можно попробовать опенсорсного конкурента — LLaVa v1.5, по отзывам тоже работает хорошо.
🔥2
Forwarded from эйай ньюз
На каждой крупной конференции выбираются несколько лучших статей и им вручают "призы". Обычно это статьи, которые перевернули область с ног на глову, либо те, что имеют потенциал очень сильно повлиять на ход исследований. Еще отдельно выделяют лучшую статью, где первый автор - студет (включая аспирантов). #конфа

В этом году на ICCV 2023 победили следующие работы.

1️⃣ Лучшие статьи:
- ControlNet [Stanford]
- Passive Ultra-Wideband Single-Photon Imaging [UoT]

2️⃣ Почетное упоминание - Segment Anything (SAM) [Meta AI]

3️⃣ Лучшая студенческая статья - Tracking Everything Everywhere All At Once [Cornell + Berkeley + Goolge]

---

В разные года выбор лучших статей у меня вызывал сомнения, но ControlNet, хоть и технически простой, это действительно заслужил. От появляния на arxiv в феврале, до публикации на ICCV работа успела набрать 24k звезд на гитхабе, >300 цитирований, и используется в сотнях пет-проектах с SD.

SAM - тут просто без коментариев, работа супер влиятельная.

Tracking Everything - Универсальный трекер. Тоже крутая работа, по духу да и по названию похожа на Segment Anything.

Про Single-Photon Imaging ничего сказать не могу, не моя тема совсем. Разве что, коммиссия любит выбирать что-то неортодоксальное, но потенциально с большим импактом.

@ai_newz
2
Forwarded from Трендоскоп Lab (Александр)
MemGPT — дорога LLM к операционным системам

На днях вышла работа MemGPT — метод расширения контекстных окон LLM. Он учит языковые модели «виртуальной памяти», подобно тому как ОС управляют своей оперативной памятью.

Способ позволяет создавать вечных чат-ботов и Q&A для больших документов. А в потенциале открывает дорогу к AI OS. Можно запустить и локально, подробные инструкции есть на Гитхабе.
🔥4
AutoGen.

LLM-модели, такие как GPT-3 и GPT-4, становятся ключевыми строительными блоками для разработки мощных агентов, способных мыслить, использовать инструменты и адаптироваться. Учитывая расширяющиеся возможности LLM и увеличивающуюся сложность задач, использование нескольких сотрудничающих агентов является естественным подходом для расширения возможностей агентов. Предыдущие исследования также указывают на то, что мультиагентные системы могут способствовать разнонаправленному мышлению, улучшать рассуждения и обеспечивать валидацию.



https://github.com/microsoft/autogen

https://arxiv.org/abs/2308.08155
2025/07/09 14:04:41
Back to Top
HTML Embed Code: