⚡️ AI-агенты в девелопменте
Делимся интересным кейсом. red_mad_robot рассказывают на Хабре, как внедрили в бизнес-процессы девелопера ГК ФСК смарт-платформу с двумя AI-агентами.
Первый — для клиентов: встроен в чат-бот на сайте и отвечает на вопросы о квартирах. Второй — для сотрудников: ищет данные в корпоративных системах, будь то регламенты или спецификации жилых комплексов. Оба работают на RAG-технологии, которая подтягивает актуальные данные из базы.
В статье интересно описаны технические детали решения, например, проверка точности ответов с помощью RAGAS. Почитать подробнее можно по ссылке.
@bigdatai
Делимся интересным кейсом. red_mad_robot рассказывают на Хабре, как внедрили в бизнес-процессы девелопера ГК ФСК смарт-платформу с двумя AI-агентами.
Первый — для клиентов: встроен в чат-бот на сайте и отвечает на вопросы о квартирах. Второй — для сотрудников: ищет данные в корпоративных системах, будь то регламенты или спецификации жилых комплексов. Оба работают на RAG-технологии, которая подтягивает актуальные данные из базы.
В статье интересно описаны технические детали решения, например, проверка точности ответов с помощью RAGAS. Почитать подробнее можно по ссылке.
@bigdatai
Forwarded from Machinelearning
OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.
Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X
Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).
ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov
Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml
MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.
SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github
Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.
Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com
Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.
Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts
Модели легко импортируются в Blender.
Krea
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 LLM Scraper — инструмент для структурированного парсинга веб-страниц через языковые модели.
В отличие от традиционных парсеров, проект понимает контекст страницы — например, может корректно распознать список товаров даже при изменении вёрстки. Также в инструмент интегрирован Playwright для рендеринга JavaScript-страниц, есть поддержка четырёх форматов входных данных: от HTML до скриншотов.
🤖 GitHub
@bigdatai
В отличие от традиционных парсеров, проект понимает контекст страницы — например, может корректно распознать список товаров даже при изменении вёрстки. Также в инструмент интегрирован Playwright для рендеринга JavaScript-страниц, есть поддержка четырёх форматов входных данных: от HTML до скриншотов.
🤖 GitHub
@bigdatai
Причем это не просто архив исторических котировок. Здесь собраны:
▪️Технические данные (от тиковых данных до индикаторов PER/PBR)
▪️Отчётность, дивиденды, выручка
▪️Фьючерсы, опционы
▪️Ставки ЦБ, сырьё, облигации
💯 При этом проект полностью открыт и ориентирован на образовательные цели. Данные доступны через простой Python-клиент, что делает FinMind удобной альтернативой платным Bloomberg Terminal или Quandl для учебных проектов и прототипирования.
🤖 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Исследователи Дартмутского университета провели первое клиническое испытание чат-бота Therabot на основе генеративного ИИ, который показал значительные улучшения у пациентов с депрессией, тревогой и расстройствами пищевого поведения. Участники, взаимодействуя с ботом через приложение, в среднем на 51% снизили симптомы депрессии, на 31% — тревоги, а в группе с риском расстройств питания прогресс превысил контрольные показатели на 19%, что соответствует результатам, полученным от лучших терапевтов.
Therabot, обученный на методах когнитивно-поведенческой терапии, адаптировал диалоги под пользователей, предлагая стратегии в реальном времени. За 8 недель участники провели с ботом около 6 часов — эквивалент 8 сеансов терапии.
dartmouth.edu
Microsoft празднует 50-летие своей деятельности, отмечая путь от небольшого стартапа в Альбукерке, основанного Биллом Гейтсом и Полом Алленом в 1975 году, до мирового технологического лидера со штаб-квартирой в Редмонде, штат Вашингтон.
В честь этого знаменательного события соучредитель компании Билл Гейтс опубликовал исходный код Altair BASIC, первого продукта компании, который сыграл решающую роль в запуске революции персональных компьютеров. Гейтс назвал код "самым крутым из всего, что я когда-либо писал".
news.microsoft.com
Google представила новую функцию "Discover Sources" для сервиса NotebookLM, позволяющую пользователям искать в Интернете релевантную информацию по запросу. Она позволяет задать целевую тему, после чего NotebookLM формирует коллекцию из 10 релевантных источников со всего интернета.
Discover Sources доступно для всех пользователей. Оно расширяет функциональность NotebookLM, интегрируя веб-поиск непосредственно в проекты пользователя.
blog.google
Эта версия представляет собой полную переработку предыдущей архитектуры, включая обновленные наборы данных и улучшенные методы обработки языка.
Улучшенное понимание текстовых запросов: Модель стала точнее интерпретировать пользовательские промпты, что приводит к более релевантным результатам.
Повышенное качество изображений: Благодаря новой архитектуре и обновленным наборам данных, изображения стали более детализированными и эстетически привлекательными.
- Режим Draft Mode: Этот новый режим позволяет создавать изображения в 10 раз быстрее и вдвое дешевле стандартного режима, что особенно полезно для быстрого прототипирования.
- Персонализация: V7 впервые вводит возможность настройки модели под индивидуальные визуальные предпочтения пользователя, что достигается путем оценки около 200 изображений для создания персонального профиля.
Midjourney
За первую неделю после запуска новой функции генерации изображений:
Функцию 130 протестировали уже человек
Создано более 700 млн изображений.
📈 Рекордный рост пользователей:
+1 млн новых юзеров в час на пике (для сравнения: такой рост при запуске ChatGPT занял 5 дней).
Индия — лидер по темпам роста интереса к ChatGPT.
Новый подкаста, в котором Скотт Александер и Дэниел Кокотайло обсуждают сценарий развития искусственного интеллекта вплоть до предполагаемого "интеллектуального взрыва" в 2027 году. Скотт Александер известен своими блогами Slate Star Codex и Astral Codex Ten, а Дэниел Кокотайло ранее работал в OpenAI, но ушел оттуда в 2024 году, отказавшись от соглашения о неразглашении. В подкасте они подробно рассматривают события, которые могут произойти в сфере ИИ в ближайшие годы.
Youtube
Сейчас выходит бесчисленное количество новых агентов.
Будем надеяться, что версия 2 получше. Цена от 20 долларов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Research повышает планку: Новый бенчмарк для оценки LLM на задачах Международных Научных Олимпиад.
Интересный материал об оценке реальных способностей LLM к научному мышлению.
Стандартные бенчмарки вроде MMLU важны, но часто не отражают глубину рассуждений, необходимую для решения сложных научных задач. Google предлагает новый подход.
Существующие метрики оценки LLM недостаточны для измерения способностей к решению нетривиальных научных проблем, требующих многошаговых рассуждений и глубокого понимания предметной области.
Новый бенчмарк "SciOlympiad": Google собрал датасет из задач Международных Научных Олимпиад (ISO) по физике, химии, биологии, математике и информатике. Это задачи экспертного уровня, разработанные для выявления лучших человеческих умов.
▪ Фокус на Reasoning (Рассуждениях): Оценка делается не только по финальному ответу, но и по качеству и корректности "цепочки мыслей" (Chain-of-Thought). Для сложных задач привлекались люди-эксперты для верификации логики рассуждений модели.
📌 ✔️ Результаты state-of-the-art LLM (включая Gemini Ultra):
▪ Модели показывают определенный прогресс, но их производительность значительно ниже уровня победителей-людей на ISO.
▪ Наблюдается сильная вариативность по предметам: модели лучше справляются там, где больше символьных манипуляций (математика, информатика), и хуже – где требуется глубокое концептуальное понимание (физика, химия).
▪ Даже продвинутые LLM часто допускают фундаментальные концептуальные ошибки и сбои в многошаговой логике, которые не свойственны экспертам.
▪ SciOlympiad – это ценный, хоть и очень сложный, бенчмарк для стресс-тестирования реальных научных способностей LLM.
▪ Результаты подчеркивают текущие ограничения LLM в области сложного научного мышления и решения проблем.
▪ Исследование указывает на направления для будущей работы: необходимо совершенствовать не только знания моделей, но и их способности к глубоким, надежным и креативным рассуждениям.
🔗 Статья
#LLM #AI #MachineLearning #Evaluation #Benchmark #ScientificAI #Reasoning #GoogleResearch #NLP
Интересный материал об оценке реальных способностей LLM к научному мышлению.
Стандартные бенчмарки вроде MMLU важны, но часто не отражают глубину рассуждений, необходимую для решения сложных научных задач. Google предлагает новый подход.
Существующие метрики оценки LLM недостаточны для измерения способностей к решению нетривиальных научных проблем, требующих многошаговых рассуждений и глубокого понимания предметной области.
Новый бенчмарк "SciOlympiad": Google собрал датасет из задач Международных Научных Олимпиад (ISO) по физике, химии, биологии, математике и информатике. Это задачи экспертного уровня, разработанные для выявления лучших человеческих умов.
▪ Фокус на Reasoning (Рассуждениях): Оценка делается не только по финальному ответу, но и по качеству и корректности "цепочки мыслей" (Chain-of-Thought). Для сложных задач привлекались люди-эксперты для верификации логики рассуждений модели.
▪ Модели показывают определенный прогресс, но их производительность значительно ниже уровня победителей-людей на ISO.
▪ Наблюдается сильная вариативность по предметам: модели лучше справляются там, где больше символьных манипуляций (математика, информатика), и хуже – где требуется глубокое концептуальное понимание (физика, химия).
▪ Даже продвинутые LLM часто допускают фундаментальные концептуальные ошибки и сбои в многошаговой логике, которые не свойственны экспертам.
▪ SciOlympiad – это ценный, хоть и очень сложный, бенчмарк для стресс-тестирования реальных научных способностей LLM.
▪ Результаты подчеркивают текущие ограничения LLM в области сложного научного мышления и решения проблем.
▪ Исследование указывает на направления для будущей работы: необходимо совершенствовать не только знания моделей, но и их способности к глубоким, надежным и креативным рассуждениям.
🔗 Статья
#LLM #AI #MachineLearning #Evaluation #Benchmark #ScientificAI #Reasoning #GoogleResearch #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑💻 AIDE — проект, предлагающий целый набор умных инструментов прямо в VSCode. Это не просто ещё один ChatGPT-плагин, а продуманный набор функций, который действительно помогает в повседневной работе с кодом.
Расширение умеет не только комментировать и оптимизировать код, но и преобразовывать его между языками, предлагать осмысленные имена переменных, а также обрабатывать сразу несколько файлов по заданным правилам. При этом все действия выполняются контекстно, с учётом конкретного участка кода.
🤖 GitHub
@bigdatai
Расширение умеет не только комментировать и оптимизировать код, но и преобразовывать его между языками, предлагать осмысленные имена переменных, а также обрабатывать сразу несколько файлов по заданным правилам. При этом все действия выполняются контекстно, с учётом конкретного участка кода.
🤖 GitHub
@bigdatai
Мы в своих ML-моделях на столько преисполнились…
Что ML-команда Купер.тех собрала новый материал для митапа!
24 апреля в 19:00 зовём на Data Science Meetup, соберёмся в Москве и онлайн!
В программе доклады и QA-сессия:
⚡️Как мы делали матчинг в Купере». Николай Чугунников, Machine Learning Engineer, Купер.тех
⚡️«Uplift Space Oddity, или как запустить ML-космолёт и не упасть». Екатерина Апраксина, Machine Learning Engineer, Купер.тех
⚡️«Как делать рекомендации не с нуля». Александр Лоскутов, Machine Learning Team Lead, Купер.тех
Регистрируйся, чтобы попасть в офлайн или не пропустить ссылку на трансляцию!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFHodKNx
Что ML-команда Купер.тех собрала новый материал для митапа!
24 апреля в 19:00 зовём на Data Science Meetup, соберёмся в Москве и онлайн!
В программе доклады и QA-сессия:
⚡️Как мы делали матчинг в Купере». Николай Чугунников, Machine Learning Engineer, Купер.тех
⚡️«Uplift Space Oddity, или как запустить ML-космолёт и не упасть». Екатерина Апраксина, Machine Learning Engineer, Купер.тех
⚡️«Как делать рекомендации не с нуля». Александр Лоскутов, Machine Learning Team Lead, Купер.тех
Регистрируйся, чтобы попасть в офлайн или не пропустить ссылку на трансляцию!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFHodKNx
👾 ReasonReact — проект, предлагающий писать React-компоненты на ReasonML — типизированном языке c безупречным выводом типов и синтаксисом, вдохновлённым OCaml.
Это не новый фреймворк, а скорее "обёртка" над обычным React, которая добавляет автоматическую проверку типов и минимальный рантайм. Вы по-прежнему можете использовать существующие JavaScript-библиотеки, но с гарантией, что пропсы и состояния компонентов будут корректны на этапе компиляции.
🤖 GitHub
@bigdatai
Это не новый фреймворк, а скорее "обёртка" над обычным React, которая добавляет автоматическую проверку типов и минимальный рантайм. Вы по-прежнему можете использовать существующие JavaScript-библиотеки, но с гарантией, что пропсы и состояния компонентов будут корректны на этапе компиляции.
🤖 GitHub
@bigdatai
Forwarded from Python/ django
Он основан на системе LangGraph, использует анализ кода, документации и сигналов из сообщества, чтобы отфильтровывать малоизвестные, но перспективные проекты.
Ключевые возможности:
▪ Семантическая проверка: ищет не просто по ключевым словам, а «понимает» содержание.
▪ Многогранный анализ: учитывает не только код, но и документацию, активность и отзывы сообщества.
▪ GitHub-интеграция: фокусируется на данном экосистемном источнике, упрощая отбор качественных проектов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Пользователи недовольны LLaMA-4 Maverick — и сомневаются в честности рейтингов на LMSYS Arena
Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.
В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.
И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.
Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.
@bigdatai
Оценки модели Maverick вызвали бурную реакцию: многие посчитали, что она незаслуженно получает высокие места. Подозрения оказались настолько массовыми, что организаторам LMSYS Arena пришлось опубликовать более 2000 реальных баттлов с участием Maverick.
В каждом баттле — текст запроса, два ответа от разных моделей (включая Maverick) и выбор пользователя. Все можно проверить по ссылке: https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles
На первый взгляд — всё прозрачно. Но возникают вопросы. Например: в одном из примеров Maverick отвечает менее точно, зато эмоционально и со смайликами — и пользователь отдает голос ей.
И это ещё не всё: на арене используется кастомизированная версия Maverick, оптимизированная под предпочтения людей. Она отличается от той, что лежит на HuggingFace и других открытых платформах — там загружена лишь базовая версия Instruct.
Организаторы заявили, что не знали о различиях, и пообещали в ближайшее время загрузить на арену оригинальный чекпоинт.
@bigdatai
🧮 Модели решают математику… но не совсем
Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?
📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:
MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).
MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).
🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.
📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.
MATH-Perturb — отличный способ отделить память от мышления.
🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/
Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?
📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:
MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).
MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).
🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.
📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.
MATH-Perturb — отличный способ отделить память от мышления.
🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/
Растите сильную команду. Топ-5 курсов Яндекс Практикума для IT
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqubEfu3
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqubEfu3
Forwarded from Machinelearning
Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.
Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google
С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com
Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.
Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.
Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com
Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.
Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.
Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com
Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.
Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🐙 TruLens - Инструмент для глубокого анализа LLM-приложений. Проект предлагает целую экосистему для отслеживания работы всех компонентов LLM-стека — от промптов до ретриверов.
Недавно в систему добавили концепцию RAG Triad, позволяющая оценивать релевантность, groundedness и полезность ответов. В отличие от поверхностных проверок, TruLens даёт возможность выявлять системные проблемы: например, когда модель генерирует правдоподобные, но оторванные от контекста ответы.
🤖 GitHub
@bigdatai
Недавно в систему добавили концепцию RAG Triad, позволяющая оценивать релевантность, groundedness и полезность ответов. В отличие от поверхностных проверок, TruLens даёт возможность выявлять системные проблемы: например, когда модель генерирует правдоподобные, но оторванные от контекста ответы.
🤖 GitHub
@bigdatai
Forwarded from Machinelearning
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM