💰Сколько стоит ИИ для дезинформации?

Постом выше я провёл опрос, предложив оценить создание автономного пропагандистского сайта в диапазоне от $100 до $10000.

Правы были те, кто выбрал $100. Если точнее — $105: именно в эту сумму редактору NewsGuard и автору WSJ, Джеку Брюстеру, обошёлся автономный новостной сайт, самостоятельно генерирующий политически предвзятые статьи (при помощи ChatGPT).

Сайт Buckeye State Press был оформлен в стиле газеты штата Огайо и фокусировался на политических новостях штата. Нанятый Джеком разработчик из Пакистана (он так указал, проверить не можем) создал сайт, генерирующий новости по промтам (которыми управлял уже сам Джек за три доллара в месяц).

Сначала сайт поддерживал республиканца Берни Морено, а затем демократа Шеррода Брауна. Поддерживал, генерируя несуществующие новости.

При желании Джек смог бы легко монетизировать такой сайт, вложив ещё пару сотен, но он честный экспериментатор, судя по доступным данным.

Затраты Джека составили: $80 вебмастеру, $25 за хостинг и домен, $3 в месяц за примерно 100 статей в день, сгенерированных «чатом гопоты» (количество статей зависит лишь от вашего бюджета). Если кутить, то за базовые $300 можно получить сайт уже с подключенными аккаунтами для продажи рекламы, а за $30 -50 в месяц генерировать несколько десятков тысяч не соответствующих реальности, но очень на неё похожих, текстов.

Напомню, в 2023 году специалисты NewsGuard обнаружили сотни подобных сайтов. Подобным (но не идентичным) образом устроены сайты «Эхо Казахстана», «Эхо Кыргызстана» и «Эхо Молдовы» (владельцы у них ещё в прошлом году были одни и те же). Теперь ясна их экономика. А простота генерации подобного контента если не пугает, то как минимум заставляет задуматься.

ПС: если есть подписка, прочитайте полный текст статьи Брюстера (ну или прочитайте его через дырку в пейволле WSJ / подсказка — не ищите эту дырку прямо /не выйдет/ — пофантазируйте)
Ещё немного о пользе Wayback Machine. В веб-интерфейсе архива можно сравнивать любые заархивированные версии страницы (если их больше одной). Это полезно, если у вас есть подозрение, что страницу могли изменить, убрав с неё (или добавив) содержание, тем самым изменив смысл сообщения

#TOOLS
К вопросу о том, что инструменты распознавания сгенерированного контента сильно отстают от инструментов генерации. Отличный кейс описал Рустам Гулов.

И это повод в очередной раз повторить: сперва логика и насмотренность/начитанность, а потом уже технологические решения.

ПС: про то, как это работает с картинками — тут
🇰🇿Коллегам-редакторам из Казахстана: кто ищет сотрудников (а я знаю, голод есть), — вот тут список только что освободившихся для новой работы сотрудников почившего в бозе SPRING
Всех, кто отмечает сегодня — со светлым праздником Пасхи. И это повод прорекламировать очень крутой канал, который ведёт моя коллега и подруга Ксения Лученко — «Православие и зомби».

Если вы интересуетесь тем, что происходит в этой ветви христианской религии, то этот канал — лучший выбор. Детально, фактологично, с критическим взглядом на собственную конфессию (в особенности на то, что происходит внутри РПЦ).

В общем — подписывайтесь на @orthozombies
🛠 Хенк ван Эсс сообщает интересное. Google Search тестирует кастомизированные фильтры поиска. Пока это доступно лишь избранным, но если проект будет доведён до ума, я склонен согласиться с Хенком и сказать, что это будет game changer в расследованиях на основе открытых данных и в фактчеке. Тут можно хмыкнуть, мол, мы все пользуемся поисковыми операторами, без них просто нечего делать в профессии, но фильтры могут вывести поиск на другой уровень. Та информация, что есть, позволяет предположить, что кастомизированные фильтры при грамотной настройке снизят на порядок время и усилия, которые мы тратим на рисёрч.
Я трепещу и жажду возможности пощупать эти фильтры самостоятельно
Случайно обнаружил в The Village материал, к которому я давал комментарии. Почитайте, небесполезно. Это касается того, что сейчас происходит с ботами/ботофермами и чего ждать в будущем (что-то уже произошло)
Прогноз Погоды/Дневник Редактора
Случайно обнаружил в The Village материал, к которому я давал комментарии. Почитайте, небесполезно. Это касается того, что сейчас происходит с ботами/ботофермами и чего ждать в будущем (что-то уже произошло)
👆 Удивительно, но редакция The Vilage почему-то решила не ставить ссылку на расследование 2019 года, на которое я ссылаюсь. Вот она, — тоже небезынтересно (хотя из-за скотины сцукенберка теперь на такое расследование потребуется убить до полугода/а в 2019 я нашёл все связи за три дня)
С интересом смотрю сериал Criminal Minds, стартовавший в 2005 году. Помимо того, что он просто хорошо сделан на уровне сценария (и плевать, что первые сезоны ужасны по картинке и что его закидали помидорами на Rotten Tomatoes), он имеет и ценность, как исторический материал для фактчекеров и осинтеров. Можно смотреть, как развивались технологии слежения и OSINT, как OSINT вообще стал возможным.

Фан-факт: в первом сезоне исполнительницу роли волшебной гик-помощницы Пенелопы Гарсиа даже не включили в титры, а со второго сезона она уже и в титрах, и становится одним из центральных персонажей.

Гарсиа моя любовь, конечно, в этом сериале. Но и в целом, пусть и по верхам, это неплохой рассказ о профайлинге и разных его сторонах. Рекомендую
Историей с Google Cloud и UniSuper можно иллюстрировать два базовых принципа модели безопасности информации: целостность и доступность.

Что произошло: приватное облако австралийского фонда UniSuper, расположенное на Google Cloud, случайно было удалено. Вместе с двумя бэкапами.

Данные 620 тысяч аккаунтов клиентов фонда могли бы быть безвозвратно потеряны, если бы UniSuper хранили все яйца в одной корзине. Но у них был третий бэкап, у другого провайдера.

Важная напоминалка всем: храните бэкапы в трёх копиях, одна из них пусть вообще будет физической
🇰🇿 Медиаграмотность начинается с детства. И, наверное, должна она начинаться с любопытства и интереса к окружающему миру. А для этого нужны хорошие книжки для самых (ну почти) маленьких. Моя подруга Майя Акишева такую написала. Иллюстрации огонь. Рекомендую
timos-de-twitter-05.pdf
2.6 MB
Фактчекеры Maldita выпустили отличное исследование того, как работает сомнительная реклама в Twitter. Если читаете на испанском, очень рекомендую полный текст / во вложении. Коротко о том, что коллеги выяснили.

1️⃣ Twitter не особо хорошо следит за рекламой. Там могут вполне себе рекламироваться противозаконные вещи. Мы это, конечно, знали, но Maldita показывает на примерах.

2️⃣ Синие галочки на продажу, как и ожидалось, активно используются киберпреступниками, мошенниками и для прочей нелегальной, полулегальной или вводящей в заблуждение активности.

3️⃣ Отдача проверки рекламы на откуп ИИ, судя по всему, не работает. Нужны белковые модераторы (от которых так радостно отказываются медиагиганты).

В целом, эта картина может быть почти полностью перенесена на Facebook. Там примерно такой же бардак
Как корректные данные могут вводить в заблуждение?

Есть одна эффектная и совершенно глупая в 21 веке фраза, которую приписывают Марку Твену: «Существует три вида лжи: ложь, наглая ложь и статистика» (кстати, Твен никогда не утверждал, что он автор фразы). Дело в том, что при том количестве открытых данных, которые у нас есть сейчас, статистика очень и очень точна. Вот только читать/понимать её большинство попросту не умеет или не желает. Именно благодаря этому появился отличный кейс, который можно смело демонстрировать на занятиях по медиаграмотности. Разобрала его моя супруга, Таша Соколова, при моём скромном участии в качестве методологического критика и дизайнера таблиц.

Коротко: очень распространено утверждение, что в мусульманских странах рак — большая редкость, и что связано это с халяльным питанием, и отдельно — с постом в священный месяц Рамадан (лечить рак, следовательно, нужно голоданием). Есть и более радикальные объяснения, но это самое распространённое. А главное тут в том, что если тупо взять и открыть авторитетную статистику по заболеваемости ли, по смертности ли от рака — они /как бы/ подтвердят нам, что да, это именно так.

Как быть? Логика, опыт исследований и некоторое знакомство с мировой демографией подсказывают нам, что разница в статистике рака в 3-5 раз невозможна в странах со схожим индексом человеческого развития, но данные говорят иное. И тут надо задать вопрос: а насколько корректно прямое сравнение и туда ли мы смотрим? И да — оно некорректно и смотрим мы не туда.

Такое сравнение не учитывает медианный возраст и процент населения старше 65 лет. Дело в том, что самые распространённые онкологические заболевания — возрастозависимые. В ряде стран люди попросту не доживают (или ещё не дожили) не то что до смерти от рака, но и до его диагностики. Это само собой отражается в статистике на 100 000 человек. Но религия/традиции тут совершенно ни при чём. С наибольшей вероятностью все экономически успешные страны Персидского залива через 30 лет «доживут» до онкостатистики Польши.

Исходные данные были корректны, только собирали их не для прямого сравнения.

Читайте материал полностью в телеге или на сайте «Проверено», и ни в коем случае не лечите рак голоданием. Помните, Всевышний дал нам разум, чтобы мы им пользовались!

#МГ
🛠 Как говорить с Google? Базовые операторы и приёмы

Думаю, многие обратили внимание на то, что поиск в основных поисковых системах с годами становится всё менее точным, забитым рекламой и заоптимизированными страницами, часто — предвзятым, а с внедрением ИИ, ещё и галлюцинирующим. Такова реальность, и лучше, скорее всего, не будет (хотя есть некоторые надежды). Именно поэтому так важно учиться самим и учить своих подопечных, будь то ваши дети или студенты, использовать альтернативные системы поиска и Google Dorks (они же операторы поиска). Проще говоря — учиться говорить с роботами, используя их синтаксис.

Операторов поиска много, но фундаментальных всего несколько (при этом они такие же в duckduckgo):

site — поиск на конкретном сайте.
Мы знаем, что статистика доступна на сайте комитета по статистике, давайте укажем роботу, где искать, пример:

рыболовство site:stat.gov.kz

filetype — поиск в конкретных типах файлов.
Мы знаем, что статистика хранится в таблицах, упростим задачу себе и роботу:

рыболовство site:stat.gov.kz filetype:xls

(можно искать и по .csv и .pdf etc.)

.. —диапазон чисел.
Нам нужны данные с 2000 года, уточняем:

рыболовство site:stat.gov.kz filetype:xls 2000..2020

“ “ — точное словосочетание.
Заключим слова в кавычки-лапки и получим искомое:
"почему я такой дурак"

К тому же можно ограничить поиск по времени: всё когда-то появилось в интернете впервые. Пример использования тут.

Освоив базовые операторы вы упростите себе жизнь и будете получать более точные результаты с меньшими усилиями. Заучивать все операторы при этом нет необходимости. Прекрасный Хенк ван Эсс запустил генератор Dork-запросов на основе GPT-4. Понимая, как работают базовые операторы, вы сможете с умом использовать генератор Хенка. Берегите время и разум!

#TOOLS
OSINT-свистелки это, конечно, прекрасно, но они имеют одно свойство — падать/выходить из строя. Вот уже пару недель лежит замечательный сервис WhatsMyName, позволяющий собирать информацию по никнеймам (иногда по имейлам). Ну и все, кто пользовался им через веб-интерфейс, оказались отрезаны от инструмента.

А у тех, кто работает в старом добром терминале, всё в порядке. Потому что код WMN используется, например, в BlackBird. Рекомендую, установка максимально проста:

git clone https://github.com/p1ngul1n0/blackbird
cd blackbird
pip install -r requirements.txt

Команды максимально простые

python blackbird.py --username искомыйник1 искомыйник2
или
python blackbird.py --email искомый@имейл1 искомый@имейл2

Результат — тот же, что и у WMN и в считанные секунды (см.скрин)

#TOOLS
Прокомментировал для BFM потенциальное внедрение программы проверки фактов в Telegram. По понятным цензурным причинам, вошло не всё. Что не вошло:

— То, что мы видим в коде, намекает, что пока Дуров и компания готовы играть с правительствами, но неизвестно, ведут ли они переговоры с независимыми фактчекерами. Если фактчек будет отдан исключительно государственным конторам, то это полный швах. Я могу по пальцам одной руки перечислить правительства стран, которые не воспользуются этим для манипуляций. И то не факт, соблазн больно велик
Прогноз Погоды/Дневник Редактора
OSINT-свистелки это, конечно, прекрасно, но они имеют одно свойство — падать/выходить из строя. Вот уже пару недель лежит замечательный сервис WhatsMyName, позволяющий собирать информацию по никнеймам (иногда по имейлам). Ну и все, кто пользовался им через…
🛠 Как верно заметил @mmarshak — blackbird штука клёвая, но есть и оригинальный скрипт WNN от OSINT Tactical. И между ними есть существенная разница. Blackbird отлично ищет по имейлам, а вот с базой WMN у него случается беда, — не всегда выдаёт полные результаты.

А вот WhatsMyName-Python работает без сбоев (и актуализирован в мае 2024. Менее эффектен, но более эффективен

#TOOLS
Google пустил вашего покорного слугу в бета-тестирование новой системы поиска по фото. Инструмент пока несовершенный, но это некоторое изрядное утешение для тех, кто заметил, как сильно испортился поиск в Google по картинке. Если даже его выкатят в текущем виде (надеюсь, сообществу, и мне в том числе, получится серьёзно повлиять на улучшение) — это станет хорошим подспорьем. В том числе — в окончательно убитом Google поиске по лицам.

Что инструмент даёт:
— географический контекст фото (довольно точный, но требующий внимания от пользователя)
— вытаскивает некоторые метаданые
— поиск по фактчекам
— значительно большее число результатов (соответствующих запросу, а не как сейчас)

В общем, будем посмотреть
2024/06/01 16:26:39
Back to Top
HTML Embed Code: