Telegram Web Link
OpenAI o1 - новая модель для выполнения сложных рассуждений

o1 думает, прежде чем ответить - модель может создать длинную внутреннюю цепочку мыслей, прежде чем ответить пользователю

OpenAI o1-preview уже утром появится в Upgraide.me 👨‍💻

Как оценивали?

В Open Ai научили модель продуктивно мыслить, используя свою цепочку мыслей. И чем больше вы обучаете ее, тем лучше она начинает понимать и предлагать.

Чтобы подчеркнуть улучшение по сравнению с GPT-4o, модели протестировали на разнообразном наборе человеческих экзаменов и ML-эталонов. На бенчмарках показано, что o1 значительно превосходит GPT-4o на подавляющем большинстве этих задач, требующих усилий для рассуждений.

Результаты математики сравнили на AIME - экзамене, разработанном для самых способных студентов-математиков средней школы в Америке.

На экзамене AIME 2024 года GPT-4o решил в среднем только 12 % (1,8/15) задач. o1 показал 74 % (11,1/15) при решении задачи с одним образцом, 83 % (12,5/15) при консенсусе среди 64 образцов и 93 % (13,9/15) при повторном ранжировании 1000 образцов с помощью выученной функции оценки. Оценка в 13,9 балла ставит его в число 500 лучших студентов по стране и превышает отбор на Математическую олимпиаду США.

OpenAI o1 занимает 89-е место в процентах по результатам конкурсных вопросов по программированию (Codeforces), и превосходит точность человека на уровне доктора наук в решении задач по физике, биологии и химии (GPQA).

Новую модель оценили и по GPQA diamond, сложному эталону интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, привлекли экспертов с докторской степенью для ответов на вопросы GPQA-diamond. o1 превзошла результаты этих экспертов-людей, став первой моделью, которой удалось это сделать в принципе. Эти результаты не означают, что o1 способнее доктора философии во всех отношениях - только то, что модель лучше решает некоторые задачи, которые, как ожидается, должен решать доктор философии.

Как работает?

Как человек может долго думать, прежде чем ответить на сложный вопрос, так и o1 использует цепочку мыслей при попытке решить проблему. Благодаря обучению:

1️⃣распознает и исправляет свои ошибки

🔟разбивает сложные шаги на более простые

3️⃣пробует другой подход, если текущий не работает

Чтобы проиллюстрировать способность размышлять в официальном релизе приводят цепочку размышлений o1-preview над несколькими сложными проблемами.

Что выбирают?

Разработчики оценили и предпочтения людей между o1-preview и GPT-4o. В этой оценке людям показывали анонимные ответы на подсказки от двух моделей и голосовали за то, какой ответ предпочтительнее. Новая модель уже выигрывает gpt-4o с большим отрывом в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в задачах, связанных с естественным языком, o1-preview не получил признания, что говорит о том, что он подходит не для всего.

Видно, как модель думает?

Процесс размышлений модели в Open Ai назвали скрытой цепочкой мыслей. И именно она представляет уникальную возможность для наблюдения за моделями. Если предположить, что она верна и читаема, скрытая цепочка мыслей позволяет пользователям "читать мысли" модели и понимать их ход.

В будущем мы можем захотеть отслеживать цепочку мыслей, чтобы понять - манипулирует ли ИИ нами. Но для этого модель должна иметь свободу выражения своих мыслей в неизменном виде, поэтому в Open Ai указали, что они не могут настраивать цепочку мыслей на соответствие политике или предпочтениям пользователя. Но будет ли видна цепочка мыслей обычному пользователю тоже пока неизвестно.

#CreateUpgraide #ChatGPT #OpenAIo1
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В Upgraide.me уже доступны две модели рассуждений:

💥o1-preview: ранняя версия модели o1, разработанная для рассуждений о сложных проблемах с использованием широких общих знаний о мире.

⚡️o1-mini: более быстрая и дешевая версия o1, особенно эффективная в задачах кодирования, математики и науки, где не требуются обширные общие знания.

Если вам нужны анализ изображений или стабильно быстрое время отклика, модели GPT-4o и GPT-4o mini по-прежнему будут лучше. А если нужен более качественный брейншторм - то пробуем новые модели.

Заходите в Upgraide - модели доступны во всех тарифах 🔥

#OpenAIo1
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот и советы по использованию от Open Ai:

1️⃣Просто и прямо:

модели отлично понимают и отвечают на краткие и четкие инструкции, не требующие подробных указаний. Кажется, заготовленные промпты скоро станут не актуальны :(

2️⃣Не рассуждайте за модель:

поскольку эти модели проводят рассуждения внутренне, не стоит просить их "продумать шаг за шагом" или "объяснить свои рассуждения". Эта стратегия уже устарела.

3️⃣Разделители:

ставьте разделители, такие как тройные кавычки, XML-теги или названия разделов, чтобы четко разделить данные на входе и не запутать модель.

4️⃣Меньше контекста с расширенным поиском (RAG):

прикрепляя дополнительный контекст или документы, включайте только самую важную информацию, чтобы модель не усложняла ответ.

@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Как самому в 2 клика создать удобное приложение Upgraide.me, чтобы быстрее получать к нему доступ?

Подготовили мини-инструкцию для пользователей, как получить доступ к сервису без поиска вкладок среди миллиона других. Подойдет, если вы хотите быстрый доступ и если у вас браузер Chrome :)

1. Откройте браузер Chrome на компьютере

2. Перейдите на страницу с Upgraide.me

3. В правом верхнем углу окна нажмите на значок с тремя точками 👉Транслировать, сохранить, поделиться 👉Установить страницу как приложение

4. В появившемся диалоговом окне: оставьте название приложения по умолчанию или переименуйте его

5. Нажмите Создать

6. Закрепите открывшееся окно в панели задач

Поздравляем! Теперь наш сервис доступен для вас по первому клику на панели задач в отдельном окне, даже если у вас скрыт браузер или рабочий стол с ярлыком на приложение.

Инструкция для Android, iOS
Please open Telegram to view this post
VIEW IN TELEGRAM
На днях у Anthropic вышел курс по оценке промптов LLM 🤖

Курс бесплатный, профессиональный, подойдет скорее командам разработки, предприятиям и тем, кто знаком с API.

О чем идет речь в курсе:

Он состоит из 9 глав и был создан на основе руководства, которое использует Anthropic, внедряя в систему крупных компаний LLM. В него входят и структура самой оценки, и процесс ее создания.

#Anthropic@upgraide_ru
#курсы@upgraide_ru
@upgraide_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Upgraide.me vs Chat GPT

Одна из киллер фич нашего сервиса - это формирование вашей базы данных в чате. Вы можете загружать документы, и ответы любой модели будут именно по ним. Чуть позже мы расскажем про фичу подробнее, а пока поделимся наблюдением.

В официальном Open Ai тоже можно загружать документы и работать с ними. Но не с новой моделью - OpenAi o1. К ней эту возможность не подвезли.

А в Upgraide.me эта модель так же может размышлять над вашей базой данных. Уже проверили на себе, работает без перебоев :)

#CreateUpgraide
@upgraide_ru
Доброе утро, день или вечер? В какое время вы чаще всего заходите в телеграм? (Время по Москве)
Anonymous Poll
8%
1:00 - 3:00
8%
4:00 - 6:00
28%
7:00 - 9:00
45%
10:00 - 12:00
30%
13:00 - 15:00
53%
16:00 - 18:00
48%
19:00 - 21:00
53%
22:00 - 00:00
Ликвидируем неграмотность словариком с основными терминами по нейросетям! 📕 🤖


⚫️Промпт — это краткая инструкция или вопрос, который вы пишете в чате с нейросетью. Это помогает ИИ понять, что именно вы хотите, чтобы он ответил или сделал.

⚫️LLM (Large Language Model) — большая языковая модель, которая обучена на огромном количестве текстовых данных и способна понимать, обрабатывать и генерировать любой контент. Наиболее понятное обозначение для любых моделей, например Claude Sonnet 3.5 — это LLM.

⚫️Токен — кусочек текста, который нейросеть преобразует для себя в ряд чисел, чтобы лучше понимать и обрабатывать ваши запросы. Например токеном может быть целое предложение, слово или даже часть слова. В Open AI 1 русское слово = 1.7 токену, а в Anthropic — 4 токенам. Токенизация в Upgraide.me — 1 к 1 с оригинальным поставщиком моделей.

⚫️AI (Artificial Intelligence) — искусственный интеллект (ИИ), способный выполнять задачи, предлагаемые людьми.

⚫️Контекстное окно — максимум токенов, который нейросеть сможет обработать за раз. Если токены не вмещаются в контекстное окно, то нейросеть забудет, что вы ей написали в начале. Но благодаря функции памяти, такой проблемы вы не узнаете.

⚫️Upgraide.me — сервис для работы и анализа с самыми эффективными LLM и инструментами. Ваша личная команда нейросетей.

А чтобы закрепить теорию, попрактикуйтесь на нашем сайте.

#словарь_upgraide
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from SciOne
#освоёмнейронном

Делюсь большой гордостью. Большая — потому что таких возможностей в работе с текстовыми нейронками сейчас нет даже в ChatGPT или Claude (если вы не умеете работать с ними через API).

Записал короткое видео, чтобы показать наглядно: https://youtu.be/tGv95ihmz1o

А вот текстом, чуть подробнее о том же самом:

Берете охапку материалов (статьи, книги, обзоры, отчеты) по вопросу или теме, с которыми работаете. Загружаете в свою личную библиотеку в Upgraide.me (пока до 1 Гб или 5 файлов, потом без ограничений) и теперь любой факт, концепцию, идею, цитату нейронка вам достает из загруженных вами ДОКУМЕНТОВ. Работает с тем, что есть, а не выдумывает, поэтому точность, достоверность максимальные на сегодня.

И не важно, сколько длится чат, галлюцинации не лезут, потому что нейронка (хоть GPT, хоть Claude, хоть другие, что у нас есть) постоянно работает с конкретными документами, и в принципе удерживать что-то в "памяти" им теперь не нужно.

Кто активно пользуется ChatGPT, знает, что пообщался с ним по одному или двум документам, уже через несколько страниц обсуждения (а это, считай, только начал), уже всё, работать невозможно. Захлопнулось контекстное окна. А Claude так вовсе начинает назойливо предупреждать "чат слишком длинный, лучше начните новый". Как работать, если у тебя десятки, сотни и тем более тысячи документов, а работы с ними не на один день или даже месяц?

Так что попробуйте функцию Библиотеки в Upgraide.me, и пишите о багах, если выловите (можно прям из аккаунта, можно в комментариях, где удобно). Это всё еще ранняя версия, что-то может и будет ломаться, но чиним оперативно. И еще быстрее улучшаем)

И вот сообщество Upgraide.me, где можно более оперативно следить за новостями проекта.
2025/07/04 03:51:33
Back to Top
HTML Embed Code: