准备5月4日开一个名为 Dig The Web 的 CTF 欢乐赛。(以庆祝 STWP 3周年,2333)
开个投票看看有多少人有兴趣来玩?人少的话就算了。
开个投票看看有多少人有兴趣来玩?人少的话就算了。
Anonymous Poll
59%
可
41%
不来
Save The Web Project
Niconico 的页游发布平台 Game Atsumaru 将在18小时后关闭, > 希望寻求有带宽、储存条件的志愿者们帮忙操作存档脚本: https://github.com/yts98/game-atsumaru-discovery > 有懂爬取 Unity 的大佬吗?或是跟 Akashic Engine、TyranoBuilder、GameMaker Studio、Tonyu System、Visual Novel Maker打过交道的? > 能帮忙的人愈多愈好。 by @yth98 详情及讨论请至:…
#寻人启事
坏消息, yts98 失踪了(GitHub/IRC/Telegram 已半年未见他上线/活动),并且他还没有将归并后 1.4TB 的 Game Atsumaru 的 warc 上传 IA。
因此,如果 yts98 未来不回来的话,我们可能失去了这部分数据。
———
- 当时 yzqzss 负责的 ID 段的数据在传给 yts98 一个月后就删了。
- 来自 ArchiveTeam 的 thuban 他的本地还有 221GB 数据。(正在上传 IA)
- 当时参与存档项目的 matatabi 和 threedeeitguy 两位还在吗?如果你们本地还保留着当时的 warc 的话就好了。
坏消息, yts98 失踪了(GitHub/IRC/Telegram 已半年未见他上线/活动),并且他还没有将归并后 1.4TB 的 Game Atsumaru 的 warc 上传 IA。
因此,如果 yts98 未来不回来的话,我们可能失去了这部分数据。
———
- 当时 yzqzss 负责的 ID 段的数据在传给 yts98 一个月后就删了。
- 来自 ArchiveTeam 的 thuban 他的本地还有 221GB 数据。(正在上传 IA)
- 当时参与存档项目的 matatabi 和 threedeeitguy 两位还在吗?如果你们本地还保留着当时的 warc 的话就好了。
Save The Web Project
🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉🎂 Save The Web Project 三岁啦!
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
Save The Web Project pinned «🎉🎂 Save The Web Project 三岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
预告接下来的新项目:
Discuz! 存档!
总所周知,Discuz! 是目前中文圈最流行的 BBS 软件。目前的中文互联网,论坛式微是共识,且大家可能常常听到一些上了年纪的论坛“又要倒闭”的新闻,是时候完整存档它们了。
不出意外的话,该项目或与 ArchiveTeam 合作,每个论坛帖子的 url 交给他们打 warc (快照会出现在 Wayback Machine 里)。
让天下没有坏链的公开帖子 xD
<讨论群> 欢迎往群里扔各种论坛的链接。
Discuz! 存档!
总所周知,Discuz! 是目前中文圈最流行的 BBS 软件。目前的中文互联网,论坛式微是共识,且大家可能常常听到一些上了年纪的论坛“又要倒闭”的新闻,是时候完整存档它们了。
不出意外的话,该项目或与 ArchiveTeam 合作,每个论坛帖子的 url 交给他们打 warc (快照会出现在 Wayback Machine 里)。
让天下没有坏链的公开帖子 xD
<讨论群> 欢迎往群里扔各种论坛的链接。
Save The Web Project
R.I.P🤗 Gitee Pages
#如果_GitHub_Pages_倒了
Gitee Pages 倒了是小事,可如果哪天 GitHub 倒了……
我们统计了中文独立博客的总体情况:
saveweb 收录的 1592 个博客中:
zh-blogs 收录的 3407 个博客中:
在 search.saveweb.org 索引的全部 141723 篇博客文章中:
———
结论:
在中文圈,GitHub Pages 流行度约是 Gitee Pages 的 50~200 倍。
注:由于部分博客虽然托管在 GitHub Pages,但用了自己的域名并套了层 Cloudflare CDN,这些博客没有被统计在内。因此实际的 GH Pages 率会比 12.6% 更高。
Gitee Pages 倒了是小事,可如果哪天 GitHub 倒了……
我们统计了中文独立博客的总体情况:
saveweb 收录的 1592 个博客中:
0.1% 在 Gitee pages 上 (gitee.io 域名)
6.5% 在 GitHub pages 上 (github.io 域名)
12.6% 在 GitHub pages 上 (github.io 域名 + DNS 结果是否在 GitHub 的 IP 范围内)
zh-blogs 收录的 3407 个博客中:
0.4% 在 Gitee pages 上 (gitee.io 域名)
4% 在 GitHub pages 上 (github.io 域名)
在 search.saveweb.org 索引的全部 141723 篇博客文章中:
文章链接是 github.io 的概率: 6.15%
文章链接是 gitee.io 的概率: 0.03%
github.io 外链出现的概率: 4.290%/篇
gitee.io 外链出现的概率: 0.122%/篇
———
结论:
在中文圈,GitHub Pages 流行度约是 Gitee Pages 的 50~200 倍。
注:由于部分博客虽然托管在 GitHub Pages,但用了自己的域名并套了层 Cloudflare CDN,这些博客没有被统计在内。因此实际的 GH Pages 率会比 12.6% 更高。
不计量(或流量单价便宜),没有模糊的 fair use TOS,可以一直占满带宽的那种?
update: 找到了。(<=X0CNY)
Save The Web Project
“抽屉网”或将关停。 #慢讯
## 安装
### 使用 pipx
(可以同时运行 links 和 comments)
(另:如果您用 Docker,可以考虑使用 --tty 参数)
### 使用 pipx
pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti
### 或使用 pippip install -U --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple chouti
### 运行chouti_links # links 元数据
chouti_comments # 评论
(可以同时运行 links 和 comments)
(另:如果您用 Docker,可以考虑使用 --tty 参数)
Save The Web Project
## 安装 ### 使用 pipx pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti ### 或使用 pip pip install -U --index-url https://git.saveweb.org/…
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。
QoS 暂时调到 1T/s。
(20240529 16:19 updated: 又调回 4T/s 了)
也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
QoS 暂时调到 1T/s。
(20240529 16:19 updated: 又调回 4T/s 了)
也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
Save The Web Project
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。 QoS 暂时调到 1T/s。 (20240529 16:19 updated: 又调回 4T/s 了) 也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
昨天 profile 了一整天,python 级别的内存很稳定,objs 数量和大小在几个小时内都很稳定,没明显发现哪里有泄漏。
最后发现竟是 cpython _ssl 之下的锅,Python GC 销毁 Python Level 的 SSLContext 后,SSLContext 对应的 C Level 的不受 Python 管理的由 OpenSSL malloc 的内存并没有全部还给系统。(不是内存泄漏,不会 OOM,系统内存不足时会回收这些碎片内存)
https://github.com/python/cpython/issues/84904
所以:
我们并发很高 -> 频繁摧毁/建立 SSLContext -> BOOM
———
更新了脚本,现在每分钟会 malloc_trim 一次,内存占用应该不会飘高了。
———
update: 内存碎片化程度过高,malloc_trim 只能收回大部分碎片缓解问题,匿名页还是在涨,只要时间够,仍然会 OOM。
update: 实验了各种 jemalloc tcmalloc mimalloc,问题仍然没解决。
update: 社区有人说 asyncio + ssl 一直以来有各种大大小小的问题。
gc.get_objects()
最多也就拿到了总共20MB对象,但 rss 就是在缓慢上升到几百MB,让人摸不着头脑。最后发现竟是 cpython _ssl 之下的锅,Python GC 销毁 Python Level 的 SSLContext 后,SSLContext 对应的 C Level 的不受 Python 管理的由 OpenSSL malloc 的内存并没有全部还给系统。(
https://github.com/python/cpython/issues/84904
所以:
我们并发很高 -> 频繁摧毁/建立 SSLContext -> BOOM
———
更新了脚本,现在每分钟会 malloc_trim 一次,
———
update: 内存碎片化程度过高,malloc_trim 只能收回大部分碎片缓解问题,匿名页还是在涨,只要时间够,仍然会 OOM。
update: 实验了各种 jemalloc tcmalloc mimalloc,问题仍然没解决。
update: 社区有人说 asyncio + ssl 一直以来有各种大大小小的问题。
GitHub
SSLContext.load_verify_locations leaks memory on Linux · Issue #84904 · python/cpython
BPO 40727 Nosy @tiran, @asvetlov, @1st1, @Recursing Note: these values reflect the state of the issue at the time it was migrated and might not reflect the current state. Show more details GitHub f...
Save The Web Project
## 安装 ### 使用 pipx pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti ### 或使用 pip pip install -U --index-url https://git.saveweb.org/…
chouti_links
即将完成爬取,请更新 chouti 包并运行 chouti_comments
。开始存档全部评论。