Фракталы Ньютона

Маленькая, но довольно интересная вещь.

Напоминание:

Метод Ньютона для поиска корней функции f(x) заключается в последовательном применении к некоторому исходному значению x₀ отображения
xₙ₊₁ = xₙ – f(xₙ) / f'(xₙ).
При "хороших" f и x₀ последовательность {xₙ} сходится к одному из корней f.

Если применять метод Ньютона для
f(x) = x² + 1,
начав с некоторого вещественного x₀, то вроде бы ничего особо интересного не получим. Точки будут скакать туда-сюда (рис. 1).

Но метод Ньютона работает много над какими полями, в частности над комплексными числами.

Если начать с
x₀ = 1 + i,
последовательность быстро сойдётся к i (рис. 2), а если, скажем, с
x₀ = 5 – 2i,
то к –i (рис. 3).
Несложно доказать, что области, откуда последовательность будет приходить в соответствующий корень, выглядят очень просто: это верхняя и нижняя полуплоскость.
На рис. 4 каждая точка из решётки, приближающей квадрат со стороной 2 вокруг нуля, окрашена в цвет, отвечающий тому корню, куда придёт последовательность.
Этот результат понятен, и ясно, как обобщить его на произвольный многочлен второй степени.

А что будет, если корней больше?

Получатся (просто по определению) множества Фату для рассматриваемого отображения. Это фрактальные множества, которые можно нарисовать численно, просто беря точки из решётки.
Два примера показаны на рис. 5 и 6.
Можно заметить, что отображения всегда выглядят довольно просто:
xₙ₊₁ = xₙ – ( Σᵢ (xₙ – rᵢ)⁻¹ )⁻¹,
где {rᵢ} — корни f.

Точки, не попавшие ни в одно из этих множеств Фату, образуют множество Жюлиа (рис. 7 и 8). В самом первом примере это множество было просто вещественной осью (это, разумеется, самый лучший одномерный фрактал).

Описанные картины называются (довольно естественно) фракталами Ньютона.

В комментариях .nb, в котором можно построить что-нибудь своё. Правда, вы не найдёте там каких-то продвинутых погромистских методов.
Первый успешный заход в кровлинг сети мастодон-аккаунтов состоялся. За три (а может 4) шага получилось больше 7 тысяч вершин. Две трети кода кровлера — обработка исключений и всяких других не целевых случаев. И всё ещё надо что-то допиливать.
Тяжеловато с точки зрения сбора данных. Но для активитипаба однозначно полезна вся эта разнородность и вязкость. Ботам там тяжелее чем людям, поэтому спам сетей, фейковых аккаунтов и всякого такого нечеловеческого в федивёрсе должно быть всегда мало.
Я например могу собрать подписки и подписчиков внутри мастодона, вижу соседние аккаунты во всяких misskey, pixelfed, whatever, но пойти на их родные инстансы вне мастодона не могу без написания ещё одного кровлера.
🔥4
Сейчас продолжу распугивать подписчиков постами про мастодон, но сначала небольшой обзор прошлых серий.

Когда-то я шатал данные подписок в инстаграме, потом связи между каналами в телеграме. И там и там всё было не как в учебниках (которые я впрочем не читал).
Инстаграм навязывает свой сценарий потребления и не способствует самостоятельному (https://www.tg-me.com/sv9t_channel/1135) поиску. Нет репостов, сложно попасть куда-то не через рекомендации. Структура графа определяется только языком, а внутри языковых кластеров всё просто аморфно размазано (https://www.tg-me.com/sv9t_channel/1083). Есть суперзнаменитости, которые и без инстаграма получают много внимания, есть локальные суперзнаменитости, но больше никакой структуры.
В телеграме наоборот (https://www.tg-me.com/sv9t_channel/1431). Сам платформа безучастна -- она просто среда, делайте что хотите. Поэтому если у кого-то есть особый интерес, то можно вкинуть ресурсов и захватывать пространство. Так я вопреки изначальному намерению ушёл в анализ пропаганды в русскоязычном телеграме. Хотя группировка по темам тут более отчётливая. А в иранском телеграме вообще всё как по книжке (https://www.tg-me.com/sv9t_channel/1388).
И вот я добрался до мастодона.
👍71
Здесь чуть больше 111К акканутов. Дальше будет подробнее
Собрал 111 тысяч аккаунтов, в основном из мастодона (я могу видеть соседей не из мастодона, но по ту сторону сходить пока не могу). Дальше мой паук забуксовал. Наблюдения на данном этапе такие:
Почти 30% аккаунтов зарегистрированы на mastodon.social. Следующий по частоте infosec.exchange у которого больше 2% и дальше примерно с той же долей hachyderm.io, mstdn.social и fosstodon.org. И дальше очень длинный плоский хвост. Ну и понятно, есть инстанс по-дефолту для беженцев из твиттера, а в другие инстансы должно быть заходят через какие-то темы.
Я пока плохо разметил кластера, но что-то вырисовывается. Например, неожиданный для меня кусок -- это довольно крупный кластер с центром около mastodon.social/@swiftlang -- почти всё что я там натыкал -- это были аккаунты авторов разных приложений под iOS или MacOS.
Ещё нашлись целых два кластера про приватность, инфосек и хакинг (не только на инстансе infosec.exchange), кластер про геймдев, про физику и астрономию.
Почти всё на английском, разумеется, но нашлись кластера на немецком, и русском. То, что я сначала принял за чешский кластер оказалось мультиязычным. Там был и испанский и, видимо, хинди.
Конечно же нашёлся кластер фурри. Я думал, что их половина мастодона, но оказалось нет. В основном просто очень разные люди с очень разными интересами. И был NSFW кластер, но кажется, он как раз на границе с другими протоколами и самое увлекательное должно быть на пиксельфеде и лемми.
Политики очень мало. Если есть, то в основном локальные новости связанные с чем-то насущным (это противопоставление). Про ИИ тоже совсем немного и достаточно локально, легко избегать. Хотелось бы сказать, что нет ничего похожего на пропаганду, но кое-что всё-таки есть.
Вообще не хотел трогать эту тему, но попадались несколько аккаунтов на тему арабо-израильского конфликта. На мой взгляд слишком одинаковые, ведутся слишком систематично и в унисон повторяют одни и те же тезисы, и простите за это слово, нарративы. Где-то я такое уже видел. По статистическим признакам они тоже выглядят аномальными. Мнение исключительно со стороны самопровозглашённого аналитика соцсетей, а не как политическая позиция -- тут я промолчу. В локальных кластерах политики не замечал.
5🔥4
iggisv9t channel
Здесь чуть больше 111К акканутов. Дальше будет подробнее
Чуть-чуть технических подробностей, хотя супер уникальных методов я тут не применял. Датасет достаточно податливый и пока всё работает прямолинейно. Ещё на телеграме отработал (не без подсказок от добрых товарищей) что в первую очередь надо обходить те вершины для которых мы уже знаем много входящих рёбер. Собственно тут и слабое место, поэтому я буду делать ещё один заход на всякий случай, чтобы докачать ещё непопулярные аккаунты. Дальше просто бахнул Leiden Clustering и в каждом кластере смотрел на топ по пейджранку. Нужно подкручивать resolution parameter, чтобы разбивать большие кластера. Проблема с пересекающимися сообществами присутствует, но как будто не сильно страшно. Возможно надо спускаться на меньший масштаб — но это если вдруг захочется не просто картографировать, а изучить какое-нибудь сообщество.

Самым большим вызовом был сам скрапер, но это тоже не вопрос каких-то новых подходов. Больше про то, чтобы всё сто раз перепроверить, и везде ждать подвохов, т.к на то он и федивёрс, что объединяет всякое совершенно разное в одно пространство.
👀21👍1
Ещё мем для вас украл на тему вышесказанного. Вот в федивёрсе вайбы интернета десятилетней давности.
19🎄1
Forwarded from qtasep 💛💙
Почему я этого не замечал раньше в статье про пуассоновское распределение?!

https://en.wikipedia.org/wiki/Poisson_distribution

Tyggigúmmí á gangstétt í Reykjavík
Jóhann Heiðar Árnason
😁125👍1
iggisv9t channel
Здесь чуть больше 111К акканутов. Дальше будет подробнее
Теперь больше похоже на правду. Тут уже 373К профилей и собираются ещё. Зелёный — это инфосек, фиолетово-розовый — mastodon.social, ярко-розовый кусочек слева сверху — piaille.fr. Подожду миллиончик и буду разбираться кто там.
5👍1
iggisv9t channel
Теперь больше похоже на правду. Тут уже 373К профилей и собираются ещё. Зелёный — это инфосек, фиолетово-розовый — mastodon.social, ярко-розовый кусочек слева сверху — piaille.fr. Подожду миллиончик и буду разбираться кто там.
Миллион прозевал в поездке, поэтому вот полтора миллиона. Раскрашены по инстансам.
Распределение инстансов поменялось заметно, хотя первое место не изменилось и инфосеки не исчезли:
mastodon.social    434540  0.2851
mstdn.social 35561 0.0233
bird.makeup 33622 0.0221
mas.to 28540 0.0187
mastodon.world 24018 0.0158
mastodon.online 23256 0.0153
pixelfed.social 21972 0.0144
infosec.exchange 21829 0.0143
piaille.fr 15901 0.0104
mastodon.uno 15413 0.0101
3
Наблюдений пока не так много, потому что датасет потолще и не всё срабатывает с первого раза, а перебор подходов идёт дольше.
Мне было интересно в этот раз насколько метод сбора вносит смещение в данные. На каждую вершину я получаю несколько её соседей, то есть у меня вершин в графе больше, чем посещённых вершин, но тем не менее возможно я посетил достаточно, чтобы картина не сильно искажалась. Самая прямолинейная штука которой можно оценить смещение — это сравнить распределения степеней посещённых и непосещённых вершин. Ну ожидаемо, что у посещённых хвост длиннее. В остальном можно считать что смещение больше из-за разного количества вершин из двух классов. Причём если выкинуть не мастодоновские аккаунты (которые я пока технически не могу собирать), то картина ещё лучше. Тем не менее могут быть систематические дыры из-за того, что до каких-то инстансов я не достучался. На общую картину это влиять не должно, но могут быть дыры.
3
Дальше можно посчитать сколько посещённых вершин приходится на каждую вершину, сколько общих непосещённых соседей у посещённых профилей и так далее. Получится ещё более понятная оценка метода. Я кстати не знаю, есть ли какая-то известная методология оценки смещения данных из скрапинга, когда у нас генеральная совокупность принципиально не доступна.
1
This media is not supported in your browser
VIEW IN TELEGRAM
Раз пока не могу рассказать подробнее про находки и интерпретацию кластеров, буду снова расхываливать cosmograph.app (нет, мне за это не платят). Там есть уже давно визуализация эмбеддингов и я наконец-то попробовал. 1.51М точек в интерактивном режиме, рисуются метки + метки на ховере, можно смотреть свойства выделенных вершин из таблички, фильтровать выборку на таймлайне и это на довольно скромном железе.
Не удобно только, что нельзя палитру на данные натянуть прямо из интерфейса. Пришлось в три раза раздуть датасет прокидывая цвета. Но это ж опенсорс, можно самому добавить (если сил хватит)
4👍1
iggisv9t channel
Раз пока не могу рассказать подробнее про находки и интерпретацию кластеров, буду снова расхываливать cosmograph.app (нет, мне за это не платят). Там есть уже давно визуализация эмбеддингов и я наконец-то попробовал. 1.51М точек в интерактивном режиме, рисуются…
Граф толстый, 22.8М рёбер, мало что вывозит такие объёмы, поэтому я пошёл по своему любимому пайплайну VERSE -> UMAP -> hDBSCAN, последний пока капризничает. Рёбра для таких объёмов рисовать обычно бессмысленно, поэтому рисую как скаттерплот, а не граф.
4
Forwarded from Data Funk
Вот крутите вы свой датасет, тщательно выбираете топ-k самых-самых фичей, а возможно тратите время зря. Вышла статейка, где авторы подошли к вопросу отбора фичей с точки зрения проверки нулевой гипотезы: значимо ли "умный" выбор отличается от случайного подмножества k признаков?

Шок-контент: в 28 из 30 высокоразмерных наборов (геномика, изображения, масс-спектрометрия) священный рандом оказался сопоставим с обучением на всех фичах или на тех, что отобрали лучшими FS-методами. Конечно, возможно, так совпало и в выбранных датасетах "важность" просто размазывается по всем колонкам ровным слоем, но мне нравится думать что это перекликается с леммой Джонсона-Линденштрауса, которая показывает, что высокоразмерные данные сохраняют расстояния между точками даже при случайных проекциях. Вывод из работы такой: не паримся с отбором фичей, учим пачку моделей на случайных подпространствах и агрегируем.
9🔥3👎1
2025/10/17 01:02:55
Back to Top
HTML Embed Code: