Telegram Web Link
The Orb Will See You Now

Sam 的 Worldcoin 眼球装置登上了时代封面,配文「你是人类吗?」,复刻上世纪纽约客刊登的 MEME「在互联网上,没人知道你是一条狗」。

你无法分辨我是谁,现在我可以快速学习、研究和模仿一个人,这是个好时代。

#AI
# AI 语音输入法丨如何 X10 倍提升我的思维传输效率
https://tryvoiceink.com/

最近我使用大疆 Mic mini + Voiceink 进行高强度语音输入,与朋友聊天、内容创作和日常交互,每天几万字的输入,极大提升了沟通和创作欲望,真正 X10 倍提升思维传输效率。

我主要使用 Voiceink 进行语音输入,作为非常强的 AI 语音输入软件,Voiceink 采用本地 AI 模型、可选择各种转录模型和接入 AI API 来进行语音的转录、处理和输入,它完全本地化处理,珂自定义个人词典、设置全局快捷键,以及拥有上下文感知功能,其智能模式还能根据不同 APP 来识别并适配不同 AI 预设提示词以进行转录和处理,非常强大。

Voiceink 是 WisprFlow/ SuperWhisper/ MacWhisper 的超强替代品,这些自定义功能完全吊打他们。这里注意和 VoiceNotes 区分,前者是全局听写的 AI 语音输入工具,VoiceNotes 是主打语音笔记录入和会议录入的语音记录工具,虽然目前已经出了与 Voiceink 类似的全局听写功能(dictate),但是配置简单,没有自定义提示词和其它高级玩法,需要区分场景。

最新季的黑镜中有一集是关于「量子吊坠」,主角可以通过她的吊坠以调动不同平行时空来实现当前说话提示的场景(Prompt)。我通过 Mic mini 挂坠与Voiceink 结合,完全实现了量子吊坠的 Demo 功能,使用智能模式在不同的软件如 Discord 中,直接调动该 APP AI 预设提示词,将中文翻译成英文;或者邮件界面,调用邮件格式的提示词以处理当前场景,我只需要说主要内容。另外,我可以在房间里面踱步,边走边说,随时停顿,然后继续或者完成。

01 语音输入作为无损思维传输方式。

语音输入法的每分钟词数(WPM)远超键盘输入,有研究表示,语音输入相较于键盘输入的速度优势达到 4-5 倍,这是最直接的优势。使用语音输入最大的感触是重塑了我的思考和表达能力,它让我适应说话和思考的节奏、有停顿感,让我更贴近真实的说话、分享、思考模式,语音输入和思维连贯一体,说话与思考倾泻而出。我闭上眼睛表达,纯粹地传输我的思考,脑子里的图像以及我想构筑的场域。

书写和键盘打字只是延迟和复刻这种传输,几乎降格为前现代的思维有损传输方式,甚至变得疏离,键入书写时的反复修改,停顿和构思措辞、笔触,以及那些无法增量语义的内容,极度降低效率。它不能完全地传达思想,无法更迅速,我在想,可能迅速是一种全保真的方式,如果你的速度不快,它就可能失真,它会在传输过程中丢掉很多东西。

当然,这种语音输入的表达和思考方式需要训练。这里面涉及新的摩擦和认知负荷,但绝对有益。写作即思考,如果你不能将你思考的内容写出来,那说明你没有思考过,或者思考得不够透彻,现在这句话完全可以转移,如果你不能直接和流利地说出来,那么你也几乎没有彻底思考,而这更能考验你思考的深度和准确度,即无损传输。

02 语音受到环境、口音、习惯和识别率的影响,这决定了语音输入需要考虑更多摩擦和认知负荷问题。

语音输入具有阶段性功能。如果语音转录识别率达到百分之百,也是无法直接使用,这对个人表达和认知负荷能力要求高,另外,将提示词大幅地增加和应用润色,于那些对自己思维方式和思考内容原生性要求极高的人也行不通,他们遵从自己的文本习惯和思维,笔触或者说措辞。

这里需要考虑语义失真的问题,所以这里语音输入有一个核心功能,即作为前期语义识别的转录优势来传输。这种语义和思维识别率上达到最佳即可,因为后续都需要深层建构和打磨修改,只需要完整的保留和转录思维本身。

语音输入具有任务性功能。AI 语音输入非常适合在聊天互动中进行长文本输出,当表达观点、回答问题以及在日常聊天互动中,都可以需要成块成簇式表达我们的观点,而不是碎片式沟通,这对于常态语境下的沟通没有多少意义。第二个,非对话式交互(与人),与 AI 聊天窗口沟通、搜索内容,都可以用 AI 语音输入。第三,在作为灵感的写作输入输出的时候,前期这种阶段性语义调思维提取和铺垫都可以使用。而对于如编程、代码和设计这些高精度内容处理则不再适用。

Voiceink 现在速度非常不错,长段内容都是几秒处理,除了说得太快它无法正确识别,无可厚非,主要它前期的语义输出优势太大。

键盘仍然有其不可忽视的功能使命,人是视觉动物,键盘输入伴随即时持续的文本视觉反馈可以非常从容地处理内容,虽然我们在前面提到语音输入阶段的修改可能会造成语义和思维受损,但在后期的打磨和作品生成阶段,键盘塑形是必要的,需要去推敲、构筑和增删文本,以触及那种灵光乍现和去往其他的深层内容,这是思维的奥妙之处,这很有趣。所以键盘在这里作为一种 Craft 艺术、视觉化反馈必要的创作方式,就像人们画画、雕塑,去实打实地调用触觉、视觉和嗅觉等感官感受作品。至少脑机接口实现之前,无可替代。

人们的日常表达和传输速度已经完全溢出,我们已经很难同步跟上这种传输节奏,无论是以前仿生阅读,还是 AI 总结,吸收速率大打折扣。我认为现在真正需要去打磨的还是阅读吸收方式。我们局限太多。

#ai #tools
Mac 刘海屏美化工具

之前我尝试了很多 Mac 刘海屏美化工具,MediaMate/ Alcove/ NotchNook/ BoringNotch,现在用 MediaMate,目前最佳。

从 macOS 15.4 开始,苹果就修改了检测媒体源的系统 API,Alcove 这些只能识别 Apple Music 和 Spotify 客户端媒体源,也就是网页播放视频或者音乐时无法在刘海屏显示窗口。

MediaMate 已经对这个问题进行了优化,它除了检测网页上的视频和音乐,还能对音量亮度、键盘背光亮度进行响应调节。Alcove 是目前 UI 和原生丝滑程度最好的,售价也最贵 17 刀,可惜没有解决上述问题。NotchNook 这些就有更多功能,增加了按住文件 Hover 时的托盘,但已经太重了,大家可以自行尝试。

我还剩 3 个 MediaMate 和 1 个 Alcove 激活码,这里直接放 MediaMate 的,请需要的领取后评论下,免得后面扑空。如果有对 Alcove 感兴趣的可以私信我领取。(领完)

MediaMate license: 57595BBA-4ADA4291-9A16D32D-A3B2DF77

相关链接
1 Alove: https://tryalcove.com/
2 MediaMate: https://wouter01.github.io/MediaMate/

#mac #tools
爱来自影响和扩散。

这是第二位朋友将我所有分享的东西整理成册以及打印出来,没有什么比这更让我欢喜了。

有太多东西需要给大家分享,太多东西正在酝酿。

——爱来自 404 KIDS SEE GHOSTS

#mood
我对学习和创造上具有侵略性的人,已经从嫉妒转为尊重和疯狂地模仿,这是现在唯一珍贵的养分。#mood
保护视力

最近去眼镜店测视力,左眼度数 75,右眼 25,体检视力也双 5.1。感觉我的眼睛调节能力较强,测试的时候能感觉到瞪眼调节焦距,看到差别。

我的视力巅峰应该在高三,当时空军体检 C 字表双裸眼视力 1.2 往上。我大学期间用眼习惯简直糟糕,侧躺、关灯磨眼,闭上眼后感觉到灼烧和黑白光点闪烁,几乎穷尽到光的消失。我有飞蚊症,视野内有点悬浮物,这几乎不可治愈,但也习惯了。最近几年的阅读量和屏幕使用时间大幅提升,眼睛磨损到这程度完全能接受。

关于眼睛,我在不断探索眼睛保护措施,目前我坚持和执行有 2 个习惯。我电子设备几乎不用 Dark 模式,无论是手机还是电脑,据有反馈提到 Dark 模式需要更多「眼睛注意力」和聚焦,也就是更用力观看,White 模式则整体光线分布平和。更重要的是提醒我在晚上阅读和观看需要开灯,甚至晚上用手机也会开后置灯,这样眼睛会舒服很多;另外,我每天会做眼保健操,当按摩。

我目前还在练习 2 个习惯。间歇性闭眼,最近用的屏幕使用提醒工具 Timerge 每隔一段时间会提醒,我隔 50 分钟就会闭眼休息 5 分钟,效果不错。同时,最近和朋友交流提到「定睛凝神」练习,眼睛专注一个点感觉到视野被笼罩后进行焦距回收或放光,即眼睛的焦距和睫状肌调节训练。

现在进化速度太快,身体、眼睛、喉嗓都太重要了。本体优先。

#longlife
Victor Noir 的墓碑

Victor Noir(1848-1870),本名 Yvan Salmon,法国记者。他被法国皇帝拿破仑三世的表弟 Pierre Bonaparte 亲王枪杀后,成为反帝制象征。他的坟墓位于法国巴黎的拉雪兹神父公墓(Père Lachaise Cemetery),已是关于爱情、婚姻和生育的传说,闻名于世。

整座雕塑极为写实,描绘了 Victor Noir 倒地瞬间,衣着整齐、嘴唇微合、裆部隆起,死亡之下极具冲击力。

据说,亲吻雕塑嘴唇会给你带来意中人,触摸其裆部会增强生育能力以及带来性福生活。

#art
Cora丨智能 AI 邮箱助手
https://cora.computer/

这下罗永浩被截胡了。最近我比较喜欢的科技杂志 Every 推出了它们的软件产品 Cora,用 AI 处理和优化邮箱信息。

Cora 的核心功能是将邮件分成两部分内容:「重要的」和让你分心的「非重要部分」,它会将重要的保留在收件箱让你随时留意,并根据你的习惯起草回复内容,非重要部分则被处理成每天两次的简报内容自动推送给你。

同时,在使用邮箱之前它会对你进行偏好测试,根据你的邮件内容确认你的偏好习惯,你还可以直接 Chat 对话进行偏好修改和指示。这很重要,我之前分享的一个信息源网站也会让你给信息打分以确认「信息偏好」,并进行个性化推送。另外这款软件每月 15 刀,你可以通过订阅他们的 Every 杂志来进行捆绑订阅。

上个周末,罗永浩在 AGI Playground 大会透露,他貌似正在做一款面向海外的智能邮箱助手。海外用户使用邮箱非常频繁,大多数工作者每天会花几个小时处理邮箱,通过邮件开展他们的业务,所以市场极大。但伴随着 Notion Email 以及 Cora 的出现,不知道罗永浩顶不顶得住压力。

现在 AI 的运用路径逐渐变得细化和明确,像 Voice Agent 的语音路线,以及这个邮箱路线,AI 不断深耕和优化我们生产力的某个流程,全面 AI 化和重构。

这款软件整体感觉不错,符合我对 AI 优化生产流程的想象,自动处理。这运用到信息源处理应该有更好的效果,最近和朋友聊到现在信息摄入空前巨大,很需要对我们接触的信息进行前期分类筛选和智能优化处理。他通过 n8n 将所有的 RSS 内容接入 Notion,进行智能分类和打标签,看重要内容,同时也能随时反回去关注和查看被过滤掉的内容,这几乎和 Cora 处理一致。

RSS AI 处理大有搞头,最近 Folo 貌似也在进行 AI 全面集成,挺期待更多产品做信息筛选和智能处理。

#ai #tools
拥有专属维基词条的研究论文
https://x.com/tikalteacall/status/1938282898865508585

这个 X 线程不错,分享了 100 篇左右维基百科评选的史上最具影响力或最重要的论文合集。

比如 1974 年的《作为一只蝙蝠是怎样的体验》,以及目前讨论得比较多的 Attention Is All You Need,还有《论随机鹦鹉的危险:语言模型会不会太大?》这些大模型相关重要文献, 可以 AI 跑报告来快速了解,挺有趣的。

#academic
Spokenly丨另一款丝滑的 AI 语音输入工具
https://spokenly.app/

诸位,现在非常兴奋地给大家介绍 Spokenly,从昨晚到今天,大部分时间我都在探索使用和优化转录后的 AI 提示词,体验上乘。目前免费,作者提到后期可能为 GPT-4o 这种云端转录模型分付费层级。我现在已经将 VoiceInk 替换为 Spokenly,并留待观察。

Spokenly 输出输入极其丝滑,UI 舒服。你可以在不同软件 Hover 状态栏的时选择不同指令,它明显地区分了转录和 AI 处理两个阶段,所以你可以随时使用转录或者转录加 AI 处理语音。这很好地解决了 AI 语音输入在电脑端反应较慢的问题,当你说一些短内容直接用转录时,它输出非常快,如同微信输入法这些工具。当你突然觉得自己说得过多,不想直接转入,需要 AI 处理时,你可以通过 Hover 状态栏使用你需要优化的选项。这非常快,目前我非常长的提示词,它处理和转录相当,甚至更快。

谈到转录模型,它接入了非常多在线和本地,以及可以实时查看转录文本的模型。比如我目前使用的顶级多语言模型 ElevenLabs Scribe,还有 GPT-4o mini Transcribe 和实时转录的顶级 Nova-3(可惜只能英文识别)。它的模型直接选择使用,也可以接入 API,极其方便。目前我使用的 Scribe + Gemini 2.0 Flash 的转录和处理。Spokenly AI 提示词也可以设定每个应用独立的提示词和快捷键搭配,甚至自定义读写快捷键。当然这里有个缺点,它不能全局使用某个提示词(加快捷键解决),以及某个提示词不能应用于多个应用,但后面版本更新很快。

另外,它还有个指令功能,可以说开局全靠一张嘴。不过前面我也说过「AI 语音输入法」它最好使用状态是分阶段和分任务,即它作为语义的输出输入极佳。它可以通过指令打开网页、软件以及快捷指令,你可以在语音中加入特殊识别词触发,这就很有未来感。比如你使用语音打开 Gemini AI 处理网页。

我发现 Spokenly 的作者非常有侵略性,构建人机交互,以及将 Spokenly 2.0 视为脑机接口版本。AI 语音语义传输确实是进入脑机接口前的替代方案。作者在 Reddit 这篇帖子吸引了很多用户,他们基本尝试过各种语音方案 WisprFlow/ SuperWhisper/ MacWhisper 以及 VoiceInk 这些新语音工具,MacWhisper 作者也有回复。关于这类工具建议看看这个帖子。

今天我花了大部分时间去优化我的语音处理提示词,使用 Gemini Canvas 和 Grok 协助优化了无数版本,目前这个版本是最顶级和满意的。提示词很长,很多板块,我看重的比如说关于文本格式和规范,中文双引折扩号、中西文间距规范,以及「的、地、得」用法。更重要的是它解决了目前大多语音提示词总是会执行命令的错误,比如这些工具的默认提示词,我这里主要引入了「指令钝化」以及「极致忠诚」原则,再加一些 Few-shot 示例,基本不会再执行任何指令文本。当然可能偶尔会有些幻觉,足矣。(放评论区)

还是那句话,语音输入法大家必须用起来,训练起来。训练自己的思维习惯、说话节奏和表达,这太重要了。从双拼到现在,扎实地进步。

这篇文章前期一次成文,后面作修改和校准处理以及结尾补充。这两个过程我都太享受了,之前我的创作过程写长文初稿很难受,其实我不喜欢打字。我喜欢去修改和「偶遇」,所以迷恋于每个字词句和文本的处理。这是有害的,它让你的思维有损、不连贯,甚至极大概率走向其他。

现在两个流程都打通了,前期的语义输出和我表达结合,后期修改处理和增删邂逅,这才是写作的好状态啊。

我这个提示词基本上是以创作者习惯来优化的,它完全遵照语义原文,你们可以仔细研究下。因为我很看重我的思考和原初表述,哪怕是字和词的前后结构。

相关链接:
AI 语音输入法丨如何 X10 倍提升我的思维传输效率

#ai #tools
诸位,下午好。这段话只是打开频道窗口,简单分享。

过去两年,我专注生产力、工具,还有知识信息策展,但是我的生产力并没有提高多少。看似发过很多东西,但我接触、吸收和阅读内容比我输出大 10 来倍,不成正比。

我很早就意识到这个问题,我有一点完美主义,和这个加速时代不符。整个世界在倡导和响应快速启动、快速迭代,但我发现真正快速启动的东西,它们表现普通、难以动人。当然,过去我也意识到自己的怠惰,每天的吸收和阅读纯属「消费」,没有去创造价值和输出更多更好的内容,惭愧。

最近我的状态变化,伴随着 AI 使用和阅读的增长,疯狂吸收和学习,以及最近生产生活体验,输出升级,状态极佳。我很好地处理了很多事情,我关心身体、我与朋友家人交谈,日益增长的生产生活效率和意识让我越来越冷静地审视自己状态,这是最好的时候。

好的内容和作品需要沉淀、打磨,感受变化和它让你兴奋的部分。这很重要,如果你的作品、写的内容自己都无动于衷,不感到兴奋、激动甚至震撼,你无法打动别人,无法影响更多和创造价值。现在是最好的时候,扎实地训练技能和基础功,最大程度地去欣赏和提升品味能力,做让自己富有激情和侵略性的事情,调动情绪和能动性,这是目前亟需。

#mood
Roam Research 丨上下文工程(Context Engineering)的思维飞行实践
https://mp.weixin.qq.com/s/F1dZGAAAwMakj3bTfk2rcA?scene=1

Andrej Karpathy 最近解释了他对上下文工程(Context Engineering)的看法。他认为在工业级大模型应用场景中,「上下文工程」是指一种更精妙而复杂的技术,需要精准地将上下文窗口填充上恰当好处的信息,让模型能够准确地迈出下一步。这是一门科学,也是门技术。

Roam Research 仍然是近几年最伟大的思维工具,现在用得越来越爽。最近我梳理其基础功能时发现,它仍然极致简洁和扎实,没有进行更多功能扩张,只是不断地优化基础。它不像工具,而像编程语言,它由更灵活的小众编程语言 Clojure 创建。它继承 Memex 的关联索引,参考 Project Xanadu 文本映射,基于 Zettelkasten 组织理念,创造出了「非线性时间机器」。Roam Research 的大纲/ 双链/ 引用和嵌入功能统合起来,震颤出独一档的记录和写作体验。这是我最近几年将其作为主力使用的原因,这种亲文本设计是所有文本优化的基础,实现了「上下文工程」的文本实践。

...

写作将变得愈加疯狂...

很多图示,详细内容请大家直接看这篇公众号吧,顺便点个关注,感谢!

#tft #Manuals
SpeechLMs丨10x 倍速率的思维传输方式
https://mp.weixin.qq.com/s/6SHubowMGL5lozCMF53RYQ

无需多言,我爱大家。#tft #Manuals
Dia 侧边栏发布,Tab 不能命名,不能隐藏(View 中关闭)...
https://x.com/diabrowser/status/1942213709088149719

#tools
2025/07/08 05:05:53
Back to Top
HTML Embed Code: