Telegram Web Link
Хоба
🔥59🥰28👏13🍾95💋1
Опрос

Достаточно давние читатели этого блога знают, что я крайне скептично настроен относительно того, что называют UX-исследованиями в российских реалиях: слишком много вкусовщины, слишком много элементов поп-психологии, проблем с методологией. Большая часть исследователей цифровых продуктов, кажется, оказывается в заложниках небольшого числа мифов про маленькие выборки, влияние эмпатии или про кастдев.

Но это лишь отчасти верно — во многом проблема заключается в некоторой оторванности от тем и историй в мире. Прежде всего, речь идёт о предыдущем «родителе» UXR — когнитивной инженерии (собственно, так себя и называли юзабилисты типа Дональда Нормана), когнитивной системной инженерии (которая акцентируется не только на проблемах восприятия и взаимодействия человека с системой, но и на всех составных частях системы — тема Расмуссена, описание системы), а также нового поколения эргономики и human factors с большим акцентом на анализ интеллектуальных операций сотрудников, например, Naturalistic Decision Making.

Всё это имеет значение ещё и потому, что речь идёт о проектировании не услуг или сервисов, а систем, инструментов и производств.

Вероятно, новые методы, такие как анализ когнитивных задач, анализ когнитивной работы и анализ рабочей области, лучше объясняют, как устроено взаимодействие между живыми и неживыми (технологичными) агентами.

Вопрос: если я создам методологический семинар по изучению проблем когнитивной эргономики и современной ситуации, насколько это будет интересно?

Что будем делать:

1. Лекция + интерактивная дискуссия — одна из ключевых тем когнитивной инженерии. Например, аллокация функций, ирония и парадоксы автоматизации, подходы к анализу нагрузки и т.д.
2. Кейсы и разбор кейсов. Попробую показать, что получилось сделать у меня, и изучить публичные западные кейсы, поделимся разборами решений.
3. Классические исследования когнитивной инженерии и способы применения методов в современных интерфейсах.
4. Создание чек-листов и гайдлайнов для проведения такого рода исследований на русском языке.
24🔥7💯4💋1
Ок, определенный кворум относительно семинара-рабочей группы, допустим, есть

Ниже ссылка на поле обратной связи, чтобы я мог спланировать время, темы и подумать над содержанием - ваши ожидания, мнения и поле сбора никнейма в телеграм.
https://forms.yandex.ru/cloud/68e54d2cd046883ca84c2d9e

Возникает вполне естественный вопрос - а что, собственно, можно считать темой для такого рода методов или семейства методов human factors для современного рынка цифровых продуктов, да еще и в РФ. У меня есть несколько набросков и идей, которые я собирал раньше, иногда показывал, но допустим, вот примерно так.
ПДФ в комментариях
🔥7💋31
Учебник по human factors

Много заявок в итоге на рабочую группу — с многими знаком, с кем-то ещё предстоит познакомиться. Я запланирую эту активность где-то на ноябрь и напишу всем, кто оставил заявку. Отвлечёмся пока от наполеоновских планов. Спасибо, друзья!

Вместе с тем случилось страшное: я нашёл хороший хендбук, который поразил меня в самое сердце. По долгу службы часто смотрю на пособия и учебники по исследованиям опыта пользователя, но всё не то, сомнительное.
Есть оксфордский Introduction to Human-Computer Interaction 2025. Он свежий, с хорошими иллюстрациями и интересный, но это скорее красивые истории про HCI.

Да, есть любимый хендбук от Jacko (Human-Computer Interaction Handbook: Fundamentals ), но это справочник на 1500 страниц. Весело ссылаться и иметь под рукой на ноутбуке, чтобы найти картинки по исследованиям космонавтов или спортсменов, но не более того.
Есть Handbook of Usability and User Experience Marcelo M. Soares и User Experience Methods and Tools от Constantine Stephanidis, но у обоих есть проблема: они написаны коллективами, разные главы — разными авторами, и это создаёт дисбаланс.

Но вот гораздо интереснее — Handbook of Human Factors and Ergonomics Methods. Он написан по принципу: «один метод — одна глава — одна инструкция с пошаговыми описаниями». Как делать то-то и то-то — буквально книга рецептов для исследователя человеческого фактора, банальная и прямолинейная. Анализ задач, проблема человеческих ошибок, нюансы проведения того или иного метода. Исследования показывают, что эргономисты склонны ограничиваться двумя-тремя своими любимыми методами проектирования систем, несмотря на множество вариаций проблем, с которыми они сталкиваются - здесь их аж 80+

В открытом доступе везде примерно, но все равно в комменатриях к посту
5👍3💋3
красота
💋3🔥1😭1
80-е годы “Технической эстетики”

Общие темы 80-х годов уже начали затрагивать вопросы, которые были гораздо ближе к защите прав потребителей, анализу потребностей пользователей, касались экономики и проблем дефицита. На наш взгляд, это сближает тематику этого периода советской эстетики с вопросами, характерными для многих стран. Так, например, появляются статьи о потребностях и дизайне, возможностях проектирования потребностей и, что характерно для советской плановой экономики, избегания избыточного потребления. Например, философ Гофман в своей статье 1979 года “Потребности в вещах: ориентир для проектирования или объект регулирования?” рассуждает: ориентироваться ли на потребности потребителя? Но потребитель ограничен рамками сложившейся реальности форм и вещей, часто плохо информирован о лучших изделиях или не обладает развитым вкусом. В случае принципиально новых видов изделий потребность в них может быть исключена, так как потребитель не может их предвидеть: нельзя знать то, что еще не существует.

Например, как можно было представить потребность в телевизоре до его создания? Ориентация на потребности, ограниченные сегодняшними представлениями о вещах, тормозила бы развитие дизайна, призванного обновлять и совершенствовать мир вещей, воспитывать вкусы потребителя, а не приспосабливаться к ним.

Кроме того, что считать потребностью, а что нет? Одна и та же потребность может удовлетворяться различными предметами благодаря так называемой пластичности потребностей. За рубежом, в социологии и дизайне, иногда звучат призывы отказаться от понятия потребности из-за его неопределенности. Чтобы вещь стала объектом социально-психологической потребности личности, недостаточно ее создания. Необходимо, чтобы ее образ утвердился в общественном сознании как функционально необходимый, а потребление стало социальной ценностью и нормой, распространяемой через моду или обычай. На стадиях распространения и рекламы роль дизайна в формировании потребностей велика и зависит от его способности учитывать и удовлетворять их.


Эти и другие вопросы особенно характерны для экономики дефицита, что делает пафос Александра Бенционовича несколько многозначным. Рискнем выразить осторожную гипотезу: базовый дефицит предметов быта, электроприборов и электронной вычислительной техники был тем вызовом, с которым приходилось сталкиваться даже той части проектировщиков и дизайнеров, которая традиционно была связана с тяжелым промышленным производством, а не только с дизайном предметов массового спроса, и нехватка внимания к потреблению обусловило конец и СССР, и ВНИИТЭ.
🔥3💋2
Тем не менее, нельзя сказать, что инновации на страницах “Технической эстетики” исчезли. Еще с конца 1970-х годов формируется понятие “дизайн-программы”. В начале 1970-х годов дизайнеры Всесоюзного научно-исследовательского института технической эстетики (ВНИИТЭ) начали применять принципиально новый метод проектирования изделий и управления проектной деятельностью, который получил название “дизайн-программа”. Дизайн-программы были ориентированы на формирование крупных многопредметных комплексов с единой функцией. Теоретиком, разработчиком и практиком, впервые применившим этот метод, был Дмитрий Азрикан — руководитель сектора перспективных разработок и дизайн-программ ВНИИТЭ. Смысл заключался в проектировании не отдельных предметов, а целых систем и связей между ними.
Обычно исследователи вспоминают дизайн-программу “Электромера”. Вместо разработки отдельных устройств Азрикан инициировал пересмотр всего ассортимента приборов, сделав их совместимыми и комбинируемыми. Основная идея заключалась в создании “языка коммуникации” между техникой и оператором, где каждый прибор проектировался как часть единой системы, в которой ключевую роль играют связи между элементами. Специалисты ВНИИТЭ, включая большинство отделов и филиалов института, разработали комплект универсальных элементов, включающий панели управления, корпусные детали и несущие конструкции. Были созданы принципы визуального представления информации, включая приборный шрифт и условные знаки, соответствующие ГОСТам, которые применяются до сих пор. Также были спроектированы типовые решения для производственной среды, одежды и упаковки. Впервые продукция целой отрасли промышленности рассматривалась и проектировалась как единый объект.

По словам Азрикана, подход, при котором продукция крупной корпорации воспринимается как единое целое с проектированием от общего к частному, был революционным для своего времени. Использование системы “Электромера” позволило бы сократить затраты и повысить эффективность в четыре раза. Здесь заметно влияние Щедровицкого как одного из членов ВНИИТЭ, который также пытался дать определение подобным решениям.

Дизайн-программа, как и любая другая программа, — это предписание плана действий и операций для достижения поставленной цели. Она включает следующие ключевые элементы: концепцию, обосновывающую цели и задачи программы; модель функционирования и развития объекта; методы и способы проектирования; организацию и развертывание процесса (стратегию) проектирования объектов; этапы и сроки конкретных разработок.
1🔥1💋1
Дизайн-программа "Электромера"
🔥2🤔2👎1💋1
Мне кажется, что такого рода подходы data-ориентализма могут быть способом описывать культурные особенности на уровне интерфейсов культур, как наиболее прикладных отраслей разработки программного обеспечения
Подписывайтесь на канал "Южной Луны", кстати
2👎1💋1
🖥 Интерфейсы ориентализма — это концепт, который можно рассматривать в контексте востоковедения (ориенталистики) как дисциплины, изучающей культуры, истории и общества Востока. Чтобы ответить на вопрос, может ли востоковедение изучать интерфейсы, нужно сначала определить, что подразумевается под "интерфейсами" в данном контексте, и как они связаны с ориентализмом. Постараемся объяснить кратко, с учетом теоретической базы и современных интерпретаций. 🌙

☸️Что такое ориентализм?🕋

Ориентализм, как его определил Эдвард Саид в своей книге "Ориентализм" (1978), — это западный способ восприятия, представления и изучения Востока, часто через призму стереотипов, экзотизации и власти. Это не только академическая дисциплина, но и культурный, политический и идеологический феномен, создающий "Восток" как объект изучения, отличный от "Запада". Саид подчеркивал, что ориентализм часто служил инструментом колониальной власти, формируя образы Востока как "другого".

📟Что такое интерфейсы в контексте ориентализма?🕉

Под "интерфейсами" можно понимать точки соприкосновения, взаимодействия или посредничества между различными культурами, дискурсами или системами знания. В контексте ориентализма интерфейсы могут включать:

1. Культурные интерфейсы: способы, которыми Восток и Запад взаимодействуют через искусство, литературу, медиа, переводы или путешествия.
2. Технологические интерфейсы: цифровые платформы, базы данных, виртуальные музеи или алгоритмы, представляющие восточные культуры.
3. Академические интерфейсы: методы и практики востоковедения, включая архивы, библиотеки, системы классификации знаний.
4. Социальные интерфейсы: межкультурные контакты, диаспоры, миграции, где происходит обмен между "восточными" и "западными" идентичностями.

🔍 Может ли востоковедение изучать интерфейсы? 🔬

Да, востоковедение может и должно изучать интерфейсы, так как они являются ключевыми для понимания, как формируются представления о Востоке и как они взаимодействуют с другими культурами. Вот несколько аспектов, почему это возможно и актуально:

1. Критический анализ представлений: Востоковедение, особенно в постсаидовском ключе, изучает, как Восток конструируется в западных дискурсах. Интерфейсы — это медиаторы таких представлений. Например, анализ того, как восточные культуры представлены в западных медиа или цифровых платформах (видеоигры, фильмы, социальные сети), позволяет понять современные формы ориентализма.

2. Технологические измерения: С развитием цифровых технологий востоковедение может исследовать, как алгоритмы, ИИ или базы данных (например, цифровые архивы восточных рукописей) формируют доступ к знаниям о Востоке. Это включает вопросы о том, кто контролирует эти интерфейсы и какие нарративы.

📚Статьи и исследования🧪

1. Cyber-Orientalism and the Virtualization of an Image: Edward Said's Legacy for a Digital Century (2014)

Исследует, как виртуализация и цифровые технологии продлевают наследие Саида, анализируя ""кибер-ориентализм"" как форму представления Востока в онлайн-пространствах, включая базы данных и виртуальные архивы.

2. China’s Rise as an Advanced Technological Society and the Rise of Digital Orientalism (2022)

Описывает "цифровой ориентализм"" как новый тип стереотипов о Китае в контексте технологического прогресса, с акцентом на алгоритмы и медиа-платформы

3. Data orientalism: on the algorithmic construction of the non-Western other (2020)

Критический анализ алгоритмов (например, в поисковых системах и соцсетях), которые конструируют ""не-западного другого"" через данные, усиливая ориенталистские нарративы.

4. Unpacking Digital Orientalism (2025)

Обзор цифрового ориентализма в онлайн-новостях и развлечениях, с примерами стереотипов о Ближнем Востоке и Азии в алгоритмизированных платформах.

5. Digitalizing cultural heritage through metaverse applications: challenges, opportunities, and strategies (2024)

Обсуждает метавселенные как виртуальные музеи для восточного наследия, с фокусом на алгоритмы и базы данных, но предупреждает о рисках искажений.
5💋2👎1🔥1
Почему нужны национальные LLM? UX и культурное выравнивание языковых моделей

На схеме нет конфуцианских ллм(исключен из-за цензуры моделей), ну и мистраль, наверное, все-таки католический

Я достаточно сомневаюсь в самой диаграмме Инглхарта с его измерением ценностей, но естественно, что лонгитюдные исследования опросов будут коррелировать с речевым поведением LLM
Популярная статья: https://shav.dev/blog/cultural-bias
Серьезная статья с архиворг: https://arxiv.org/pdf/2410.10489

Авторы создали датасет из 21 пар страна-язык с 94 вопросами, верифицированными носителями языка, чтобы измерить точность представления ценностей.

Авторы подчёркивают новую грань закона мощности Каплана: размер датасета влияет на культурную fidelity - лояльность культурным стереотипам. Может ли ЛЛМ быть оружием культурной борьбы? Чем больше цифровых данных доступно на определённом языке, тем лучше LLM способны улавливать и воспроизводить социальные ценности, связанные с этим языком и культурой.

Некоторая замечание на полях: согласно мониторингу W3Techs (анализ топ-10 млн сайтов), русский контент занимает 3.7% и находится на 7-м месте, что очень много, учитывая не такое большое население, хотя Китая в рейтингах нет
🙏32👍2🔥2💋1👀1
Странные интерфейсы

«Телесема» использовалась в парижском отеле Élysée Palace в 1890-х годах. Телесема была разработана для того, чтобы гости отеля могли сообщать персоналу о ошеломляющем множестве желаний и потребностей, не разговаривая с человеком. Согласно инструкции, гостям предлагалось переместить указатель, который можно было складывать и разворачивать, на квадрат, соответствующий их желанию («винная карта», «моя горничная», «лимонный сквош»), а затем нажать кнопку внизу.

Отели, особенно крупные роскошные отели середины XIX – середины XX веков, исторически довольно быстро внедряли новые технологии связи. Такое устройство, как «Телесема», было бы символом изысканности и изысканного сервиса – по крайней мере, на несколько десятилетий. Работа с «Телесемой», описанная в журналах «The Electrician» в 1895 году и «Electrical Engineer» в 1896 году, была сложной. В офисе отеля дежурный за стойкой следил за небольшим дисплеем, на котором была изображена пронумерованная ячейка для каждого номера

https://en.wikipedia.org/wiki/Teleseme
143🔥3👍2💋1
UXAgent: An LLM Agent-Based Usability Testing Framework for Web Design

Фреймворк на базе LLM для автоматизированного usability-тестирования веб-дизайна; тестирование на 100+ сайтах показало ускорение и удовлетворенность живых исследователей.

В чем проблема? В том, что это преимущественно количественный метод, который симулирует поведение больших сегментов для взаимодействия
https://arxiv.org/abs/2502.12561

UXAgent — система, которая может генерировать LLM-агентов как участников тестирования удобства использования в большом масштабе и проводить симулированные взаимодействия с заданной веб-средой для сбора данных о поведении пользователей.

Система состоит из нескольких ключевых компонентов: модуль генератора персон создает разнообразный набор персон в большом масштабе, которые передаются в LLM-агент. LLM-агент взаимодействует с браузером Chrome через модуль универсального браузерного коннектора. Этот модуль анализирует необработанный HTML, извлеченный из Chrome, и упрощает его для агента. Агент выполняет действия, такие как нажатие на кнопку поиска, которые универсальный браузерный коннектор переводит в необработанные действия, например, нажатие на определенные координаты. HTML, действия агентов и трассы памяти собираются для дальнейшего анализа

Для поддержки крупномасштабной симуляции разнообразных пользовательских фонов наша система позволяет генерировать разнообразные персоны агентов.

В нашем исследовании мы использовали модуль генератора персон для создания 60 персон агентов с равномерным распределением по гендерным группам (мужчины, женщины, небинарные) и группам дохода ($0–$30 тыс., $30–$58 тыс., $58–$94 тыс., $94–$153 тыс., $153 тыс.+). Затем мы провели одну симуляционную сессию для каждой из этих 60 персон с использованием UXAgent на WebArena. Результаты симуляции выявили различия в покупательском поведении в зависимости от групп дохода: средняя сумма покупки увеличивалась с ростом дохода — $28,41 для группы $0–$30 тыс., $15,99 для $30–$58 тыс., $54,85 для $58–$94 тыс., $41,03 для $94–$153 тыс. и $75,34 для $153 тыс.+. Мы предоставили результаты симуляции участникам-исследователям UX для анализа, как если бы они проводили эти пользовательские исследования. Поскольку задача покупок представляет собой распространенное, высоко персонализированное действие, которое люди совершают ежедневно и позволяет агентам демонстрировать разнообразное поведение, мы выбрали задачу «купить куртку» как начальное намерение агентов в нашем исследовании. На основе этого намерения наша система смогла сгенерировать результаты симуляции, включая память и трассы действий агентов, видеозаписи и конечный результат (например, купленный товар или завершение сессии).

В исследовании участникам было поручено сначала заполнить предварительный опрос, а затем получить краткое введение в задачи исследования. В 40-минутном исследовании участники должны были провести пользовательское исследование для измерения поведения клиентов при покупках на веб-сайте. Результат анализа ситуации оценивался группой исследователей достаточно высоко, как реалистичный, несмотря на то, что были элементы галлюцинаций

По сути эта статья, опубликованная сотрудниками университета Нотр-Дам предлагает принципиально другой подход, чем евангелисты искусственных персон - количественное генерация большого объема данных (тысячи персон) , дата сегмента пользователей и их последующий человеческий анализ.
👍3💋21
Новости опросов и опросников. Пользователи в мире стали реже отвечать на опросы, даже если это негативный и сильный фидбек

Ежегодный отчет Qualtrics удивил, но не удивил радикально. Пока в РФ обсуждают телефоннике в мире умирают опросы, что заставляет задуматься о новых инструментах сбора обратной связи с клиентов

Хотя опросы остаются популярным способом оценки отзывов клиентов, потребители всё реже к ним прислушиваются. 30% потребителей теперь предпочитают молчать после негативного опыта (+9% за пять лет), что является рекордным показателем с начала исследования в 2021 году.

Но это не просто проблема клиентского опыта (CX) — это проблема бизнеса. На каждые 10 негативных отзывов приходится 5, которые приводят к снижению или полной отмене расходов. Компании, полагающиеся исключительно на опросы для понимания причин оттока клиентов, всё чаще остаются в неведении. Только 3 из 10 клиентов напрямую сообщают о проблеме. Эта тенденция не нова — количество прямых отзывов сокращается из года в год с 2021 года. Однако с каждым годом необходимость в действиях становится всё более насущной, поскольку нерешённые проблемы подталкивают разочарованных клиентов к конкурентам, которые готовы их выслушать.

Вот в чём суть: сигналы клиентов никуда не исчезли — они рассеялись. Ни один канал обратной связи не способен дать полную картину. В 2026 году процветать будут компании, которые смогут объединить данные об опыте, поведении и операционные данные, чтобы глубже понять путь клиента и количественно оценить влияние своих действий.
💯74👍4💋1
Инциденты кибербезопасности часто объясняются «человеческим фактором».

Книга «Человек и кибербезопасность: как организации могут повысить устойчивость с помощью человеческого фактора» предлагает прикладной подход к выявлению и снижению риска человеческого фактора в кибербезопасности и предполагает, что изменить организационную практику проще, чем поведение отдельных лиц.

В комментариях, свежая, 2025 год
🔥64👍1💋1
Изучая "Техническую эстетику" 80ых и экспертные методы оценки в СССР

При этом ряд авторов, например, в статье ЮРОВИЦКИЙ М. И. Количественная оценка компоновки приборных панелей — № 3 по прежнему занимаются классическими темами в духе расположения рук на панели. Эта статья интересна тем, что предлагается отойти от старых, известных еще теоретикам НОТ и психотехникам подсчетов в духе гомс переходит к экспертным оценкам и эвристикам.

Использование расчетных методов, основанных обычно на определении длины маршрута переноса взгляда или рук оператора, предполагает наличие точного алгоритма работы — фиксированной последовательности использования оператором средств отображения информации и управления. Применение экспериментальных методов оценки компоновки также не всегда оказывается возможным (например, на стадии проектирования рабочего места оператора).

Как описывает метод автор?

Эксперты проводят ранжирование балльной оценки, устанавливая определенную шкалу баллов для выражения степени важности в относительных единицах. Для этого необходимо выявить факторы, определяющие или являющиеся исходными при определении значимости средств отображения информации. Эта значимость зависит от частоты и продолжительности фиксаций взгляда оператора (показания индикаторов могут использоваться оператором непрерывно, периодически или эпизодически в зависимости от различной вариабельности параметров, наличия дублирующих сигнализаторов) и от весомости новой информации, которую они предоставляют оператору с точки зрения безопасности эксплуатации.

Подобного рода методы используются с оглядкой на первые работы советских экономистов, которые уже провели определенную формализацию аппарата по созданию экспертных оценок для планирования работ в народном хозяйстве. Речь идет, главным образом, о работе Семена Давидовича Бешелева, автора книги по экспертным оценкам в 1975 году, вероятно, первой книге в СССР где описываются деревья принятия решений, экспертные оценки и методы типа Дельфы. Авторы вводят системный анализ как способ разбивать большие проблемы на подзадачи. Основные инструменты — логические сети, матрицы и "деревья" (деревья целей и деревьев решений), которые помогают структурировать задачи, устанавливать связи между этапами и количественно сравнивать варианты.

Проблема в том, что авторы достаточно ригидно воспринимают систему экспертов, предполагая, что вес экспертизы отражается в регалиях в виде научных степеней. Пример такой ригидности на скриншоте из книги, мне кажется, что тут видна проблема экспертных оценок в советский период. А что делать с беспартийными?
👍4💋2
Understanding preference: A meta-analysis of user studies
https://www.sciencedirect.com/science/article/pii/S1071581924001915

Предпочтение пользователя одной системы перед другой, вероятно, является самым базовым показателем пользовательского опыта (UX), однако исследования пользователей часто фокусируются на производительности, а предпочтения рассматриваются как вспомогательные. Этот метаанализ 144 исследований показывает, что, хотя пользователи в целом предпочитают системы, с помощью которых они достигают меньшего времени выполнения задач и меньшего количества ошибок, они более последовательно и более выраженно предпочитают системы с меньшей рабочей нагрузкой.

Рабочая нагрузка касается баланса или дисбаланса между требованиями, предъявляемыми задачей, системой, используемой для ее выполнения, и возможностями пользователя, выполняющего задачу (Hart and Staveland, 1988). То есть рабочая нагрузка касается человеческих усилий, необходимых для выполнения задачи. Распространенным инструментом для измерения рабочей нагрузки является индекс нагрузки задачи (TLX), который состоит из шести пунктов: умственная нагрузка, физическая нагрузка, временная нагрузка, усилия, производительность и фрустрация (Hart and Staveland, 1988). TLX измеряет самооценку рабочей нагрузки и настолько широко используется, что де Винтер (2014) утверждает, что «рабочая нагрузка стала синонимом TLX». Однако рабочую нагрузку также можно измерить аналитически, физиологически и с помощью вторичной задачи (Gawron, 2019).

Во-первых, предпочтения в целом связаны с рабочей нагрузкой, временем выполнения задачи и уровнем ошибок. В 60% из 144 включённых исследований пользователи предпочитают систему, с которой они испытывают меньшую рабочую нагрузку, меньшее время выполнения задачи и меньший уровень ошибок.

Во-вторых, рабочая нагрузка является более сильным предиктором предпочтений, чем производительность. Вариации в рабочей нагрузке объясняют 54% вариаций в предпочтениях, в то время как вариации во времени выполнения задачи объясняют 36%, а вариации в уровне ошибок — 19%.

В-третьих, время выполнения задачи является более сильным предиктором предпочтений, чем уровень ошибок.

В-четвёртых, предпочтения иногда не связаны с рабочей нагрузкой, временем выполнения задачи или уровнем ошибок. В четырёх из каждых десяти исследований пользователи предпочитают систему, с которой рабочая нагрузка, время выполнения задачи или уровень ошибок выше, но не обязательно значительно выше

В-пятых, уровень опыта и критичность для безопасности влияют на результаты

Это интересный срез библиографии, надо подумать - я все еще немного не понимаю, что мы понимаем под workload
🔥5👍1💋1
Почему разные симуляторы юзеров проваливаются?

Хорошая статья от jessy lin

Why user simulators fail

There are some modern environments that implement user simulators: tau-bench (customer service), DialOp (personal assistants / decision-making), ChatShop (shopping), USimAgent (search), SWEET-RL (website generation), and underspecified SWE-bench (code). Typically, these benchmarks implement user simulators simply by prompting another language model to behave as a human. The prompt typically includes a specification of (1) the simulated user’s goal (“You want to exchange the size 6 Adidas for size 7…”) (2) the user’s behavior policy (“You are concise, …”). Note that the user simulator does not need to be the same model that ultimately scores the interaction as a success or failure — the reward model in code, for example, can simply be whether the final program is correct. However, the important piece is that the model needs to interact with a user to solve the task. Even without considering fuzzy and difficult-to-verify goals that users might have (a reward model problem), even just simulating the interaction with a user poses challenges (an environment design problem).

While prompting this way yields user simulators that can carry out realistic dialogues, we’ll argue that their behaviors are actually narrow and limited in important ways, leading to problems if we want to optimize against simulators to learn to better solve these tasks.

https://jessylin.com/2025/07/10/user-simulators-1/

Там все хорошо и прекрасно:

Модели уже эксперты.
У моделей идеальная память.
Модели подпевалы и стремятся угодить
Люди все равно их превосходят (Привет, список Фиттса)
«Поверхностное актерство»: модели не «хотят» чего-то по-настоящему.
У моделей нет последовательных знаний или убеждений.
🔥53🙏1💋1
ЧАЙНОВА Л. Д., СУСЛОВА Т. А., КОНЧА Л. Н., ЛИДОВА В. Б. Оценка бытового оборудования в процессе проектирования методами, применяемыми в дизайне и эргономике — № 5, 1980 , "Техническая эстетика"

Показательно, что Чайнова - это известный автор концепций функционального комфорта в истории ВНИИТЭ, а вот остальные авторы - анатомы, биологи, конструкторы
🔥32🤔2💋1
2025/10/27 04:55:10
Back to Top
HTML Embed Code: