вычислить по IP

Как раз в тему к предыдущему посту, ибо тут не обойтись без Deus ex machina.

На YouTube и в TikTok заблокировали в общем более 25 аккаунтов, распространявших сгенерированные с помощью ИИ проповеди нового Папы Римского Льва XIV.

Люди хотят узнать, что новый понтифик думает о тех или иных событиях в мире, поэтому спрос на такие видео высок, так что не удивительно, что такие видео-генерации появились.

Раньше для появления новых течений в религии нужны были споры о филиокве, злоупотребление индульгенциями и желание развестись с женой (привет Генриху VIII), а сейчас новое понимание веры может зародиться в генерациях, и чем не высший разум?

1.5K viewsAnastasia Skovpen, edited 16:48

вычислить по IP

Мем смешной - ситуация тоже смешная. Пока есть задор удалять со звонков непрошеных ИИ агентов для транскрипции речи. Ибо все что возникло за контуром компании - остается вне контура компании.

Рассказывайте, как в ваших больших фирмах воюют с этой напастью? Блокировка сторонних приложений, ликбез, угрозы, порча, офлайн встречи, бдительность (простигосподи)?

У меня сегодня был улов из read AI и otter AI, последние стали особенно известны тем, что сотрудник отдела продаж техкомпании из Небраски использовал ассистента для записи и расшифровки закрытых онлайн встреч.

Узнала компания об этом, когда после увольнения работника на очередную встречу под именем работника подключился ИИ ассистент. Соответственно данные ушли из компании, а у экс-работника до сих пор к ним есть доступ (потому что все расшифровки хранятся в otter).

Теперь судебное разбирательство, а могли бы кикнуть бота.

1.4K viewsAnastasia Skovpen, 19:25

вычислить по IP

Продолжаем парад рабочих мемов.

С каким еще лицом можно встречать полученные в ночи договоры с правками? 🌚

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K viewsAnastasia Skovpen, 21:58

вычислить по IP

Треды с этим исследованием были у каждого второго блогера в Х, что с одной стороны не умаляет его ценности, с другой - давайте рассмотрим его повнимательнее.

Дано: статья под названием "Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task". Если коротко, то исследователи попросили "студентов" из университетов США написать за 20 минут эссе самостоятельно, с использованием поисковиков и с использованием LLM.

После написания эссе участники прошли ряд исследований и опросов (ЭЭГ, NLP-анализ эссе и интервью), как вы можете предположить условно негативные результаты были у группы, которая использовала LLM, условно позитивные результаты у тех, кто самостоятельно писал эссе, где-то посерединке оказались те, кто пользовались поисковиками.

Для начала надо понять, что такое cognitive debt - это метафора, "когнитивный долг" или "когнитивные издержки", означающая скрытые долгосрочные последствия от упрощения выполнения умственных задач. Идея когнитивного долга в том, что аутсорс умственных усилий (перекладывание на LLM) может привести к деградации критического мышления, памяти, творчества и (когнитивной) самостоятельности.

Итак, после написания эссе и проведения исследования у тех студентов, которые пользовались LLM было установлено: (а) снижение активности в диапазонах ЭЭГ, которые отвечают за память и креативность; (б) 83% студентов не смогли воспроизвести аргументы из своих текстов через 20 минут; (в) студенты не ощущали "чувство авторства" (принадлежности им работы).

У тех, кто писал эссе самостоятельно была обратная история: они чувствовали себя авторами, прекрасно ориентировались в тексте, их показатели ЭЭГ указывали на активную работу мозга.

Есть пара нюансов, почему к справедливому, но алармистскому выводу о когнитивном долге надо относиться аккуратно (в целом СМИ его все равно растащат, но меньше ИИ агентами пользоваться не будут).

Во-первых, это не лонгитюдное исследование: говорить о когнитивном долге справедливо, когда на протяжении нескольких сеансов (нескольких лет, а то и десятилетий) контрольная группа показывает стабильное снижение когнитивных функций (если это можно так назвать). Данное исследование длилось всего 4 месяца, где каждый участник должен был завершить 3 обязательные сессии (tool-free, LLM, search engine), а 18 из них также приняли участие в 4 сессии.

Во-вторых, выборка участников не только скромная (54 человека, не считая дополнительную группу в 18 человек из имеющихся участников), но и не репрезентативная. Мы имеем дело со "студентами" от 18 до 39 лет (медианный возраст группы около 23 лет), из довольно престижных университетов: MIT, Wellesley, Harvard, Tufts, Northeastern - поэтому выводы исследования могут быть не релевантны для людей со средним образованием, слушателей из других вузов, специалистов из разных возрастных групп, "белых/синих воротничков".

В-третьих, поставленная задача касается очень быстрого выполнения задания - написания текста, мы не знаем как на мозговую активность будет влиять использование ИИ для других целей (генерация изображений и музыки, анализ текста, работа с рекомендациями) и повлияет ли на результаты использование ИИ в течение более длительного времени или чередование разных видов обработки информации и ее поиска.

В-четвертых, из описания исследования не очень ясно стояла ли перед участниками задача соблюдать специфическую цифровую гигиену и какой опыт использования LLM у них был до этого. Возможно, для человека, который только начал использовать LLM или не погружен в ИИ грамотность показатели когнитивного аутсорса будут более высокими?

В итоге, нельзя отрицать, что мы никогда не будем думать так, как думали наши предки, мы сами за время учебы и работы могли поменять свои когнитивные паттерны, это однако не означает, что использование LLM плохое, а те, кто не используют подобные сервисы лучше решают какие-то задачи или умнее. С чем нельзя спорить, так это подход к LLM как к инструменту, результаты которого надо проверять, верифицировать и ставить под сомнение.

1.6K viewsAnastasia Skovpen, edited 13:09

вычислить по IP

Сегодня админ не принесла вам умный контент, потому что она убегает от своих проблем. Завтра? Кто знает… 🌚

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K viewsAnastasia Skovpen, 19:41

вычислить по IP

Настоящая охота на пиратов, которые пиратили мангу о пиратах: в префектуре Аити в Японии арестованы трое граждан Тайваня, которые занимались продажей манги One Piece. И не просто манги, а редкого 34 номера журнала Weekly Shonen Jump 1997 года с первой главой "One Piece".

Организованная пиратская группа действовала под прикрытием, ее руководитель работал управляющим массажного салона в городе Насусиобара. Поддельную мангу хранили в припаркованном автомобиле рядом с массажным салоном и на складах. При обысках полиция изъяла около 500 поддельных товаров (мангу, а также DVD и мерч). Не известно работали ли подельники массажистами или были частыми посетителями салона, но я бы не удивилась.

Добывали пираты поддельную мангу следующим образом: контрафактные журналы завозили из континентального Китая, оплатой за поставку была выручка, которая переводилась на заграничные счета.

Подделки имели некорректные цвета, низкокачественную бумагу и дефекты печати, что отличало их от оригинала, но некоторых фанатов и коллекционеров это не смущало.

Помните: пиратство хорошо только в манге!

1.1K viewsAnastasia Skovpen, 13:47

вычислить по IP

Есть два волка: одного компания Anthropic кормила найденными в интернете датасетами с книгами, второго - сканами книг, которые были куплены и отсканированы.

В интересном деле, которое могло пройти мимо моих глаз, суд постановил, что использование print-to-digital книг для обучения их LLM (книги были законно приобретены Anthropic) - является fair use - добросовестным использованием.

В то же самое время для приобретенных в сети датасетов с книгами (пиратские копии) - такого вывода не последовало и суд ожидает дальнейшее рассмотрение этого вопроса. Покупка реальных копий таких книг до рассмотрения оставшихся требований повлияет только на размер взыскиваемой компенсации.

Важно, вывод о добросовестности сделан только в отношении обучения, но не генераций. И да, покупали физические книги - сами тексты не были лицензированы.

Но почему print-to-digital - это fair use. Во многом суд основывал свою позицию на деле Authors Guild, Inc. v. Google - также как и проект Google Book Search, пользователи Anthropic не получают доступ ко всей книге, более того, не каждый запрос приводит к цитированию произведения (этот тейк рекомендую запомнить для сравнения поисковиков и LLM).

В общем, не могу назвать это руководством к действию для LLM разработчиков в США, но звучит как попытка наметить баланс.

1.1K viewsAnastasia Skovpen, 18:02

вычислить по IP

Пока мы рассуждаем о fair use - в Китае назначают тюремное заключение за переработку картинок с помощью ИИ и продажу с ними паззлов.

Все началось с того,что один из авторов увидел в продаже паззлы со своей иллюстрацией так началось расследование.

Как стало известно из изъятых доказательств и внутренней переписки обвиняемых они искренне считали, что использование ИИ для переработки изображений не будет признано нарушением. Да и вообще они больше боялись, что их заблокирует маркетплейс, а не то, что авторы работ привлекут их к ответственности (им они планировали заплатить максимум 1000 юаней).

Статья на китайском.
Статья на сайте суда.

1.3K viewsAnastasia Skovpen, 14:41

вычислить по IP

Пока в одном деле суд пришел к выводу, что использование для обучения LLM отсканированных (но законно приобретенных) книг следует считать добросовестным использованием (fair use); в другом деле против Meta судья пошел в своем рассуждении дальше и посчитал, что использование shadow libraries не влияет на то будет ли использование книг авторов добросовестным использованием или нет.

То есть спираченные и скаченные с торрентов книги технически могут быть в обучающей базе данных и в этом деле данный факт не противоречит логике fair use (про это очень хорошо написал коллега @legalelysium).

Важный дисклеймер: это не коллективный иск, это иск, в котором фигурируют несколько истцов. Также сам судья уточнил, что это решение не означает, что использование Meta материалов, защищенных авторским правом, законно. Оно лишь подтверждает, что истцы выбрали неверные аргументы.

Сделаю шаг назад и уточню, что изначально авторы простили признать в действиях Meta и недобросовестную конкуренцию, и незаконное удаление информации об авторстве, и пр. Однако суд оставил эти требования без рассмотрения, кроме обвинения в direct copyright infringement, которое собственно и дожило до обсуждаемого в этом посте summary judgement.

Ни для кого уже не секрет, что объединяющая всех ИИ разработчиков позиция: обучение ИИ - это fair use, но так ли это на самом деле?

Напомню, что закон об авторском праве устанавливает четыре критерия для определения добросовестного использования:
1. цель и характер использования, включая коммерческую или некоммерческую образовательную направленность;
2. характер охраняемого произведения;
3. объем и значимость использованной части по отношению ко всему произведению;
4. влияние использования на потенциальный рынок или стоимость охраняемого произведения.

На практике наиболее значимыми считаются 1 и 4 критерий, потому что они оценивают как было использовано оригинальное произведение и к каким последствиям может такое использование привести.

В этом деле против Meta суд посчитал, что процесс обучения ИИ не приводит к созданию конкурентноспособных производных произведений (потому что на практике ИИ модель не могла сгенерировать более 50 токенов - слов и знаков препинания, из оригинального текста книги), а потенциальный ущерб авторами не был доказан (об этом стоит поговорить отдельно).

Конечно тут возникает логичный вопрос: а может ли процесс обучения LLM быть использованием охраняемого произведения, если это сугубо технический процесс анализа данных (здесь могло бы быть рассуждение про TDM и японский подход, но оставлю его для отдельного поста). В этом деле суд дает однозначный ответ, даже если LLM изучают лишь "статистические взаимосвязи", эти взаимосвязи - продукт творческого выражения (то есть creative expression, что дает нам понять - обучение = использование).

Относительно четвертного критерия суд пришел к выводу, что способность модели выдавать крошечные фрагменты книг при намеренном воздействии не угрожает рынку или ценности оригинальных произведений. В целом, это разумное замечание, особенно если в модель встроены технические ограничения - LLM не выдаст пользователю целую книгу, а если выдаст, то для массовости негативного эффекта доступ к этой сгенерированной книге должен получить не один пользователь, а куда большее количество.

815 viewsAnastasia Skovpen, edited 15:54

вычислить по IP

Также продолжительное время основным контр-аргументом со стороны истцов к экономическому критерию fair use было нарушение или подрывание рынка лицензирования произведений для обучения ИИ. Также было множество рассуждений есть ли такой рынок в принципе? Аргументируя свое решение суд отметил, что если бы в каждом деле сторона истца опиралась на потенциальный рынок лицензирования - четвертый фактор был бы попросту нежизнеспособен и всегда перевешивал на сторону правообладателя, поэтому ущерб от потери лицензионных платежей не используется. Я бы не сказала, что это универсальный аргумент, потому что в ситуации, когда гипотетический датасет состоит только из лицензированных произведений, и есть десяток тысяч книг конкретного издательства, которые решили использовать без согласия - можем ли мы в таком случае говорить о том, что "рынок" отсутствует?

И поскольку авторы указывали на потенциальный ущерб из-за использования работ без согласия (без заключения лицензионного договора), суд встал на сторону Meta. Но суд отметил, что будь истцы дальновиднее, они бы посмотрели в сторону market dilution.

Что это значит? Да, маленьким неизвестным авторам ИИ может причинить вред, так как им можно найти сгенерированную замену. Но для известных авторов такой риск намного меньше - Агату Кристи читают, потому что она Агата Кристи, биографию актера, читают потому что конкретный автор написал биографию известного человека.

Но это не исключает возможное размытие рынка, сгенерированные ИИ книги могут распространяться бесплатно или намного дешевле их авторских аналогов. И такой ущерб представляет собой "косвенное" замещение оригинального произведения, нежели чем "прямое" замещение - строго говоря, утрата ценности за счет снижения спроса (но я не считаю, что в этом деле market dilution как-то можно было оценить). Кстати суд аккуратно намекнул истцам, что они "a fool of a Took", потому что этот аргумент они не развили и доказательств не предоставили (штош).

И все это вместе выступило в пользу Meta. Согласна ли я с этим решением? Отчасти - да, юристы Meta проделали отличную работу, но конкретно в этом деле речь шла о книгах, а параллельно рассматриваются кейсы, где авторы пытаются защитить права на музыку, текст статьи и изображения. Это менее "объемные" и теоретически более подверженные замещению объекты. Так что за ними будет интересно последить в свете принятого решения.

957 viewsAnastasia Skovpen, 15:54

вычислить по IP

Правительство Дании решило сделать то, что в других странах обсуждали в рамках ироничных правовых дискуссий: включение личных идентифицирующих характеристик (внешность, голос, и пр.) в закон об авторском праве.

Коалиция в Правительстве и присоединившиеся к ней партии договорились о внесении изменений в закон, который должен наделить граждан Дании авторским правом на изображение внешности и голоса. Такая мера, как предполагается, поможет бороться с несогласованными дипфейками

В случае принятия этого законопроекта люди смогут требовать от платформ на территории Дании удаления дипфейков с их изображением без согласия.

Нарушение новых правил не повлечет за собой санкций для лиц, распространяющих контент, но в зависимости от обстоятельств может быть возможным получение компенсации в соответствии с общими правилами возмещения ущерба по датскому праву. Также не исключается ответственность платформ, распространяющих такой контент, по Digital Service Act.

Важно, что закон будет предусматривать исключения для случаев сатиры и пародии (своеобразное свободное использование).

К этому предложению так много вопросов, что я не знаю с какого начать.

1. Зачем вносить в закон об авторском праве объекты, которые охраноспособными не являются? Почему не создать специальный режим или в крайнем случае не внести специальные нормы в какой-нибудь закон, который регулирует распространение информации в интернете?

В целом я могу понять, почему эти изменения могли поместить именно в этот закон - потому что в нем предусмотрены правовые инструменты для того, чтобы требовать удаления виртуальных двойников. Если датские парламентарии считают, что это логично, что ж.

2. Также не могу удержаться и не задать вопрос: насколько широко датчане хотят трактовать «личные идентифицирующие характеристики» и насколько близким должно быть сходство между реальным человеком и виртуальной копией, чтобы нормы закона можно было применить?

Это как с товарными знаками: будет ли нарушением только тождество или сходство тоже попадает под зонтик закона. Если мы опускаем второй вариант, то под горячую руку попадает бесконечное количество виртуальных двойников, которые хоть сколько близко будут напоминать реального человека.

3. Вытекающий из прошлого вопрос: а что делать со случайными совпадениями, особенно теми виртуальными аватарами, которые были созданы до вступления в силу этого закона?

Будут ли они подпадать под сферу действия закона или также как и пародии будут разрешены, а если не будут разрешены - не будет ли такой жесткий подход нарушать право на свободу слова и самовыражения? Дания страна не большая, но условный художник, который использует нейронки в своей работе, не должен знать лица всех своих сограждан.

Более того статистически (в зависимости от количества сравниваемых характеристик) вероятность того, что у вас есть «двойник» варьируется от 1 к 1000 до 1 к 15000. Что этот закон предлагает делать с этими near-doppelgängers?

В общем, понимая всю ценность таких нововведений, я не очень понимаю в каких условиях они должны эффективно заработать, особенно, когда нормы касаются только территории Дании.

Я не нашла статистики насколько дипфейки - проблема для Дании. Единственная релевантная новость - это история о распространении дипфейк-видео с мэром одного из датских городов.

Другие популярные случаи использования дипфейков - revenge-porn и войсфейки (использование чужого голоса для мошенничества). В первом случае предложение не возымеет никакого результата из-за экстерриториального характера распространения такого контента. Во втором случае риск возникает в моменте, когда голос используется в диалоге с пострадавшим, поэтому лично я не понимаю как возможность удаления дипфейков может на такие случаи повлиять? (Спойлер: никак).

1.1K viewsAnastasia Skovpen, 19:09

вычислить по IP

Вычислить по IP - культурный.

Если вы вдруг не были на выставке «Жили-Были», которая посвящена сказкам и проходит на Винзаводе, то вы ничего не потеряли.

Я ожидала от выставки более глубокого исследования феномена сказок в культуре, их «создателей» и роли в искусстве новейшего времени.

В итоге по моим ощущениям ничего из вышеперечисленного не получилось, вместо этого: Стругацких и Пушкина упомянули, хроническое показали, высоких требований к демонстрируемому искусству не предъявляли.

Из всего показанного категорически интересным показался проект Полины Пахомовой «Молодильные яблоки», в котором исследовался опыт обогащения яблок кверцетином, который борется с появлением сенесцентных клеток, провоцирующих старение.

1.1K viewsAnastasia Skovpen, 16:40

вычислить по IP

Новая охота на ведьм в твиттере: если вы используете длинное тире и серийную запятую (оксфордскую), то ваш текст скорее всего сгенерирован ИИ, а вы сами - бот.

Если про длинное тире я слышала и сама на его обращаю внимание, то оксфордская запятая для меня открытие.

Орфографические и пунктуационные ошибки, как признак человечности, где мы свернули не туда?

1.1K viewsAnastasia Skovpen, 14:07

вычислить по IP

Рынок данных формируется за счет активных игроков: компания Cloudflare объявила, что будет блокировать ИИ боты, которые пытаются собрать данные с размещенных на её платформе сайтов.

По заявлению Cloudflare предоставит своим клиентам возможность вручную разрешать или запрещать доступ к ботам краулерам и внедрит услугу "оплата за сканирование" (pay-per-crawl), позволяющую клиентам получать компенсацию за каждый факт сбора контента с их сайта ИИ-ботами.

Владельцы сайтов смогут разрешать или запрещать сканирование контента для каждого этапа жизненного цикла ИИ (обучение, дообучение) и формировать белые списки ИИ-ботов, которым сканирование контента разрешено. Клиенты также смогут устанавливать тарифы за доступ ИИ-ботов к их сайтам.

На первый взгляд складывается впечатление, что Cloudflare смогли придумать классный инструмент для монетизации данных, о котором так много говорят особенно в разрезе споров о нарушении авторских прав. Однако есть несколько нюансов, которые следует учитывать.

Cloudflare контролирует около 20% веб-инфраструктуры. Блокировка ботов по умолчанию может трактоваться как ограничение доступа к рынку данных: даже если сейчас Cloudflare не является доминирующим участником, тем не менее, контролируя доступ к значительной части сайтов, компания становится гейткипером для рынка данных необходимых для обучения ИИ. Особенно, в разрезе права на TDM.

Негативные последствия для Cloudflare возможны, если компания начнет отдавать предпочтение ИИ-ботам от своих собственных партнеров или дискриминировать аналогичные инициативы своих клиентов. Также, если Cloudflare начнет обуславливать доступ к "pay-per-crawl" использованием других ее сервисов - это может быть расценено как "tying" (привязывание клиента к своим сервисам, ограничивая право выбора).

Хотелось бы посмотреть как будут сформулированы лицензионные условия, а именно, как можно будет использовать полученную на сайте информацию (возможно ли ограничение в отношении этического/неэтического использования данных? Полагаю, что так далеко еще не заходили).

Также интересно как будет разрешаться конфликт, в случае, если доступ к ИИ-боту будет предоставлен (за это заплатили), но на сайте будет машиночитаемый отказ, robots.txt или материалы, защищенные от анализа? Скорее всего в пользу компании, которая запустила ИИ-бота, с другой стороны - владелец сайта не несет ответственности за качество тех данных, который получит краулер.

606 viewsAnastasia Skovpen, edited 08:45

вычислить по IP

Бегите в PEAK - @peakmoscow - на Sample Sale украшений бренда OMUT.

Нежно люблю, часто ношу. От символа (R) на экспериментальной линейке семплов особенно тепло: вспоминаю как мы вместе с брендом регистрировали товарный знак (и сколько еще чудесных открытий несет в себе ювелирная отрасль 🥲).

Адрес: Столешников переулок 7с3, до 22:00.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

450 viewsAnastasia Skovpen, 13:30

2025/07/05 23:30:04
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>