Telegram Web Link
Save The Web Project pinned «🎉🎂 Save The Web Project 三岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
预告接下来的新项目:

Discuz! 存档!

总所周知,Discuz! 是目前中文圈最流行的 BBS 软件。目前的中文互联网,论坛式微是共识,且大家可能常常听到一些上了年纪的论坛“又要倒闭”的新闻,是时候完整存档它们了。

不出意外的话,该项目或与 ArchiveTeam 合作,每个论坛帖子的 url 交给他们打 warc (快照会出现在 Wayback Machine 里)。

让天下没有坏链的公开帖子 xD

<讨论群> 欢迎往群里扔各种论坛的链接。
R.I.P🤗

Gitee Pages
Save The Web Project
R.I.P🤗 Gitee Pages
#如果_GitHub_Pages_倒了

Gitee Pages 倒了是小事,可如果哪天 GitHub 倒了……

我们统计了中文独立博客的总体情况:

saveweb 收录的 1592 个博客中:

 0.1% 在 Gitee pages  上 (gitee.io  域名)
6.5% 在 GitHub pages 上 (github.io 域名)
12.6% 在 GitHub pages 上 (github.io 域名 + DNS 结果是否在 GitHub 的 IP 范围内)


zh-blogs 收录的 3407 个博客中:

0.4% 在 Gitee pages  上 (gitee.io  域名)
4% 在 GitHub pages 上 (github.io 域名)


search.saveweb.org 索引的全部 141723 篇博客文章中:

文章链接是 github.io 的概率: 6.15%
文章链接是 gitee.io 的概率: 0.03%
github.io 外链出现的概率: 4.290%/篇
gitee.io 外链出现的概率: 0.122%/篇


———
结论:
在中文圈,GitHub Pages 流行度约是 Gitee Pages 的 50~200 倍。

注:由于部分博客虽然托管在 GitHub Pages,但用了自己的域名并套了层 Cloudflare CDN,这些博客没有被统计在内。因此实际的 GH Pages 率会比 12.6% 更高。
谁知道哪儿有服务商提供 10Gbps 对等带宽的便宜服务器,
不计量(或流量单价便宜),没有模糊的 fair use TOS,可以一直占满带宽的那种?


update: 找到了。(<=X0CNY)
“抽屉网”或将关停。

#慢讯
Save The Web Project
Photo
谁有抽屉账号?方便借借?
Save The Web Project
“抽屉网”或将关停。 #慢讯
## 安装

### 使用 pipx

pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti


### 或使用 pip

pip install -U --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple chouti


### 运行

chouti_links # links 元数据

chouti_comments # 评论


(可以同时运行 links 和 comments)

(另:如果您用 Docker,可以考虑使用 --tty 参数
Save The Web Project
## 安装 ### 使用 pipx pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti ### 或使用 pip pip install -U --index-url https://git.saveweb.org/…
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。
QoS 暂时调到 1T/s。
(20240529 16:19 updated: 又调回 4T/s 了)

也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
Save The Web Project
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。 QoS 暂时调到 1T/s。 (20240529 16:19 updated: 又调回 4T/s 了) 也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
昨天 profile 了一整天,python 级别的内存很稳定,objs 数量和大小在几个小时内都很稳定,没明显发现哪里有泄漏。gc.get_objects() 最多也就拿到了总共20MB对象,但 rss 就是在缓慢上升到几百MB,让人摸不着头脑。

最后发现竟是 cpython _ssl 的锅,gc 销毁 SSLContext 后,留下了内存碎片。(不是内存泄漏,不会 OOM,系统内存不足时会回收这些碎片内存
https://github.com/python/cpython/issues/84904
———

更新了脚本,现在每分钟会 malloc_trim 一次内存占用应该不会飘高了

———
update: 内存碎片化程度过高,malloc_trim 只能收回大部分碎片缓解问题,只要时间够,仍然会 OOM。
Save The Web Project
“抽屉网”或将关停。 #慢讯
放图片的域名在大约一天前离线了。
chouti_links 已完成,谢谢大家。

(快来跑 chouti_comments
乐,咱们的服务器要被各位打爆乐。

trackers 处理的请求: ~3600q/s
数据库:insert 1.1k ops, command 1.3k ops, delete 0.1k ops, get 1.2k ops

冲冲冲,勇敢向前冲.jpg
争取 24h 内完成!

(请跑 chouti_comments 的各位酌情更新 1.3.3 版本,处理了 unkown response: [])
在跑 1.3.0/1.3.1/1.3.2 的可以停了,停了会加快其它跑 1.3.3 的收尾的速度。
目前队列里还有四百万任务需要 1.3.3 处理。
咱做好人,别抢跟新版本抢任务,误。
chouti_comments 已完成,感谢大家的热情参与!
2024/06/03 05:12:11
Back to Top
HTML Embed Code: