Telegram Web Link
Forwarded from Rebels AI news
DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.

Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?

Ответы если коротко без сенсаций:

- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может

AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.

DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например индуцированное генеративной музыкой состояние транса вопрос открытый.

Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.

Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.
This media is not supported in your browser
VIEW IN TELEGRAM
Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится

Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.

Кода пока нет, но автор обещал выложить.

P.S. Лица психонавтов и биохакеров представили 🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
Чем живет российский ИИ-рисерч.

Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»
This media is not supported in your browser
VIEW IN TELEGRAM
360-панорамы в 8К! Вот это уже интересно!

Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.

Виарщеги, пишите, что думаете, выглядит нарядно.

https://www.blockadelabs.com/
This media is not supported in your browser
VIEW IN TELEGRAM
Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.
This media is not supported in your browser
VIEW IN TELEGRAM
Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!
Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4
Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно:
Forwarded from Labrats
Учите программирование в любом возрасте.

Я
тут порылся в сохраненном и неопубликованном и нашел ответ на вопрос из поста выше.
Похоже, что для того, чтобы было меньше таких заголовков из последнего поста, надо учить кожаных программированию (в любом возрасте).
Есть вот такая работа:

"Если LLM - волшебник, то код - волшебная палочка: Обзор того, как код позволяет большим языковым моделям служить в качестве интеллектуальных агентов"

Вывод такой: если замешивать в обучение не только "обычные" тексты, но и большое количество кода, то модель точно становится умнее и приобретает навыки критического мышления и декомпозиции задач. Последнее очень важно для медленного "размышления" в отличие от быстрых принятия решений.

Если подробнее, то включение кода в датасеты повышает навыки программирования у моделей, позволяя им писать код на нескольких(!) языках. Тут вроде банально, но с разными языками очень круто.

Структурные ответы: генерация контента с помощью жестко-структурированных данных, таких как HTML или таблицы. Тут тоже предсказуемо. Но глядя на то как некоторые кожаные мычат, пытаясь сформулировать простые мысли, хочется послать их на курсы бейсика.

Дальше интереснее, обученные на добавленном коде LLM демонстрируют навыки сложного рассуждения и тех самых chain of thoughts. Декомпозиция и размышление.

Авторы предполагают, что такие LLM легче превращаются в продвинутых интеллектуальных агентов, способных принимать решения и самостоятельно решать задачи.

Я понял, что написал какой-то рекламный проеспект курсов по программированию:

Учите программирование (сами и с детьми) и вы:
будете умнее
получите скилл критического мышления и сопоставления фактов
научитесь не мычать, а внятно излагать свои мысли
приобретете способность делать речерч в своей кожаной голове, а не только реагировать на тиктоки

И все это просто подмешав немного кода в вашу кожаную голову.

Маркетологи забирайте, дорого!

Сама работат вот тут:
https://openreview.net/pdf?id=8dmNOD9hbq
Помните как год назад Уиилл Смиит ел спагетти?
Была также версия с пиццей, год назад.
А теперь оцените прогресс за год в ИИ-поедании пиццы (слева и справа).
Свежая версия подъехала на реддит:
https://www.reddit.com/r/aivideo/s/ACvEQqafVz

Прогресс, конечно, не как в картинках, а Сору нам только в мечтах показывают.

Где это сделано ищите по логотипу вверху справа. Смотреть со звуком. ИИмоции у него на лице - огонь, конечно.

Сора, выходи из внутреннего тестирования! Иначе наркоманские видео заполнят интернет и проникнут в датасеты.

Короче, подписчики предлагают измерять прогресс в ИИ-видео в вилсмитах. Год назад было 0.1, щас где-то 0.4 вилсмита.
Когда начнет пиццей в рот попадать с первого раза будет 0.8 вилсмитов.
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Умельцы из твиттера сделали инфографику о том, как топ ChatBot Arena менялся за последний год.

Чат-гпт все ещё держится, но ей дышать в затылок. Конкуренция идёт серьезная. Посмотрим, есть ли у ClosedAI ещё козыри в рукаве.

Что такое ChatBot Arena – тут.

@ai_newz
Forwarded from Сиолошная
Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4 🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше 🤷‍♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ для хардкорных композеров.

Как обработать группу снимков одним щелчком мыши, как автоматически маскировать, отслеживать объекты, автоматически нажимать клавишу, автоматически применять удаление. Как применять различные модели машинного обучения и как создавать новые модели, адаптированные к вашему материалу.

Все это на русском с подробными объяснениями от Влада Ахтырского. В начале хороший ностальгический проброс в Ванкувер 2018, где мы с Владом отжигали на Сигграфе. До ковида, войны и вот этого вот всего.

Для тех, кто шарит за взрослый композ и знает, что такое деспил.

И да, это та самая кнопка "Сделать Всё" в виде системы Junior.
https://www.youtube.com/watch?v=YRktwxF6CPU

Ну, за джунов.
Вышла llama-3-8b с контекстным окном в 1 миллион токенов.
И это можно запускать локально у себя на компе. Клод с своими 200К нервно закуривает в облаке.
Куда катится мир!
Посмотрите, пожалуйста, в следующем посте, что теперь можно вытворять с таким контекстом.
https://www.reddit.com/r/singularity/comments/1cgsmqt/you_can_use_llama3_8b_with_1_million_tokens/
Forwarded from Denis Sexy IT 🤖
Новое обновление про полезные локальные модели:
Вчера вышла версия llama-3-8b с контекстным окном в 1 миллион токенов (!). Это значит, что задачи анализа большого количества текста можно теперь делать локально (точно на английском, с другими языками я это не тестил), до этого я ходил в Claude 3 Opus 200k.

Зачем это нужно?
Расскажу на живом примере: мы готовим новый продукт к анонсу, это что-то вроде AI фото студии но на вход мы берем всего одно фото пользователя, не 10-20; что сильно дешевле чем файнтюн модели дримбудкой, а значит, мы можем снизить цену на продукт для юзеров.

У продукта уже есть конкуренты — это классно, потому что это значит, что в нише есть выручка. Конкуренты уже успели обрасти органическим трафиком – это мы и учитываем при запуске нового продукта:
Я выгрузил из SEO анализатора органический трафик по которому находят наших конкурентов в гугле, скормил все это в контекстное окно как часть промпта и запросил у LLM популярные стили генераций, по которым пользователи ищут наших конкурентов.

В итоге, на запуске, мы получили топ-10 стилей которые точно востребованы в интернете.

Ради теста я сравнил результаты своего анализа между Claude 3 Opus 200k и Llama-3-8B-Instruct-Gradient-1048k, и могу сказать что локальная модель отлично справилась для своего размера и действительно смогла написать важные стили, похожие на то что выдал Opus. Так что теперь вы можете делать анализ больших корпусов текста дома.

Сама модель тут (gguf версия для адептов llama.cpp)

P.S. Для этой задачи важно ставить температуру 0, а то напридумывает деталей моделька. Указывая контекстное окно в 100k+ будьте готовы что памяти компа вам не хватит.

P.P.S. Как водится, делюсь промптом который специально собрал для llama3 формат под эту задачу, там видно куда нужно поместить большой объем текста.

#пропродукт
This media is not supported in your browser
VIEW IN TELEGRAM
GPT-4 - самая тупая модель, которую кому-либо из вас когда-либо придется использовать снова.

"GPT-4 is the dumbest model any of you will ever ever have to use again, by a lot."

Сама, два вопроса:

1. За что мы платим 20 баксов в месяц?
2. Где нетупая модель?

https://twitter.com/smokeawayyy/status/1785899419076112761
Unity 6 наперевес с ИИ в виде Sentis.

https://blog.unity.com/engine-platform/unity-6-preview-release

В шестерку напихали много чего, но нас ведь интересуют ИИ-фишки прежде всего.

Если вкратце, то теперь вы можете брать модели с Hugging Face, ужимать их и присовывать в свои проекты. Чтобы они крутились локально, могли взаимодействовать друг с другом, управлять персонажами, распознавать картинки и пр.

Я стал переводить и понял, что по английски звучит понятнее, вот держите:

The Unity 6 Preview ships with Unity Sentis, a neural engine for integrating AI models into the runtime. Sentis makes new AI-powered features possible, like object recognition, smart NPCs, graphics optimizations, and more.

We now support AI model weight quantization (FP16 or UINT8) in the Unity Editor if you want to reduce your model size by up to 75%. Model scheduling speed was also improved by 2x, along with reduced memory leaks and garbage collection. Lastly, we now support even more ONNX operators.

Now you can instantly find “grab and go” AI models for Unity Sentis from Hugging Face to ensure easy integration. We introduced a new Functional API that helps to build, edit, and chain AI models.

Ждем ответочки от Эпика.

И кстати, Mattew Bromberg, former EA and Zynga Executive назначен новым CEO Unity.
https://youtu.be/SExCOuTggCQ?t=1005
2024/05/20 12:29:37
Back to Top
HTML Embed Code: