[加州] 硅谷正流行"氛圍辦公":不敲鍵盤 對著電腦嘰嘰咕咕
這個春天開始,硅谷的辦公室裡,敲打鍵盤的噠噠聲正在被嘀嘀咕咕的人聲取代。
有風險投資人調侃,現在去硅谷的 AI 創業公司拜訪,感覺像走進了壹個高端呼叫中心,只不過所有人都在跟 AI 聊天:員工們戴著電競耳機坐在工位上,對著麥克風發號施令。
這股風潮還有個名字,叫“voicepilled”——語音覺醒。
LinkedIn 聯合創始人 Reid Hoffman 在 2025 年秋天的壹篇帖子裡首次宣稱自己被“voicepill”了。他寫道:“被voicepill 的那壹刻,就是你意識到壹旦認真用語音與技術交互,就能解鎖壹種全新的能力放大方式。”這個詞借用了《黑客帝國》裡紅藍藥丸的隱喻,吞下這顆“語音藥丸”,你就會看到壹個不同的生產力世界。
語音輸入本身倒不是什麼新鮮事,蘋果的 Siri 聽寫、Windows 語音識別、甚至更早的 Dragon NaturallySpeaking 已經存在了很多年。但過去這些工具的體驗非常折磨人:識別率低,標點混亂,壹句話說了叁遍都不准,最後還不如自己打字。
真正的轉折點是大規模 AI 語音模型的成熟。2022 年 OpenAI 發布了 Whisper,壹個基於 Transformer 架構的開源語音識別模型,用 68 萬小時的多語言音頻數據訓練而成。Whisper 的出現把語音轉文字的准確率拉到了實用門檻之上。
而在此基礎上,新壹代聽寫工具例如 Wispr、Aqua Voice 等邁出了更關鍵的壹步:它們不只是把你說的話逐字記錄下來,還會用 LLM 對輸出進行“潤色”,自動刪除“嗯”“啊”之類的填充詞,修正語法,調整句式,甚至根據你正在使用的應用場景來適配語氣和格式。
整個過程延遲通常在壹到兩秒之內。部分工具還支持“命令模式”,用戶可以用語音指令來編輯已有文本,比如“把上壹段改成更正式的語氣”或者“刪掉最後壹句”。
這種工作方式之所以讓人興奮,有壹個很直觀的原因:人說話的速度大約是打字速度的叁倍。
對於英文使用者來說,普通人的打字速度在每分鍾 40 到 80 個英文單詞之間,而正常語速大約是每分鍾 130 到 150 個單詞(中文使用者的打字速度大概在每分鍾 80~100 字左右,而語速大約是 200~250 字之間)。
對於那些工作內容主要是“把想法變成文字”的人,比如寫郵件、寫文檔、寫代碼提示詞,這意味著理論上可以把產出速度提升兩到叁倍。壹些重度用戶聲稱自己的文字產出確實翻了幾番。
更有意思的是,語音聽寫正在和另壹個熱門趨勢合流:vibe coding(氛圍編程)。這個由 Andrej Karpathy 在 2025 年初提出的概念,指的是開發者不再逐行寫代碼,而是用自然語言描述需求,讓 AI 編程工具(如 Claude Code、Codex)來生成代碼。而當 vibe coding 遇上語音聽寫,開發者甚至不需要坐在電腦前打字。他們可以壹邊踱步壹邊口述需求,聽寫工具把語音轉成文字 prompt,再由編程 AI 把 prompt 轉成代碼。Wispr 的創始人 Tanay Kothari 說,他們的員工現在就是在辦公室裡走來走去,對著電腦說話,不用再把思考的過程綁定在桌前。
據媒體報道,壹些最狂熱的用戶甚至購買了可編程腳踏板,壹種原本屬於游戲外設的東西,踩壹下就能激活語音交互功能;還有人在桌上架起鵝頸麥克風,就是體育解說員和牧師用的那種可彎曲話筒,離嘴更近說話更省力;Wispr 公司內部則流行把無線領夾麥別在襯衫上,員工們像是隨時在錄播客。這家公司甚至計劃之後向客戶銷售品牌麥克風。
資本市場顯然對這種新的“vibe working”方式拾分歡迎。成立於 2021 年的 Wispr,最初的方向是做腦機接口可穿戴設備,後來轉型做語音聽寫工具。據媒體報道,2025 年 11 月 Wispr 的估值約 7 億美元。而到了 2026 年 5 月,Wispr 的目標估值已經飆升至 20 億美元。壹個聽寫應用估值 20 億,足以說明了市場對“語音取代鍵盤”這件事的看好程度。
於是,競爭也開始變得激烈。同類公司 Aqua Voice 和 Willon 都拿到了 Y Combinator 的投資,初創公司 TalkTastic、Typeless、Superwhisper 各有擁躉。科技巨頭也沒閒著:在 2026 年 5 月的 Android Show 上,谷歌發布了 Rambler,壹個內置於 Gboard 輸入法、由 Gemini 驅動的聽寫功能,能把用戶雜亂的口述自動整理成通順文本。當平台級玩家入場,獨立應用的生存空間會被如何擠壓,仍有待觀察。
此外,這股新的技術趨勢面前,還存在壹些現實的門檻。
首先是硬件層面的局限。目前主流的 AI 聽寫工具大多是 Mac 優先甚至 Mac 獨占的。Wispr Flow 和 Superwhisper 支持 Mac,Aqua Voice 長期以來僅限 Mac 平台(近期才開始支持 Windows),TalkTastic 則是 iOS 和 Mac。而在企業環境中,Windows 仍然是絕對主流操作系統。醫療、法律、政府、金融行業尤其如此。
[物價飛漲的時候 這樣省錢購物很爽]
無評論不新聞,發表壹下您的意見吧
有風險投資人調侃,現在去硅谷的 AI 創業公司拜訪,感覺像走進了壹個高端呼叫中心,只不過所有人都在跟 AI 聊天:員工們戴著電競耳機坐在工位上,對著麥克風發號施令。
這股風潮還有個名字,叫“voicepilled”——語音覺醒。
LinkedIn 聯合創始人 Reid Hoffman 在 2025 年秋天的壹篇帖子裡首次宣稱自己被“voicepill”了。他寫道:“被voicepill 的那壹刻,就是你意識到壹旦認真用語音與技術交互,就能解鎖壹種全新的能力放大方式。”這個詞借用了《黑客帝國》裡紅藍藥丸的隱喻,吞下這顆“語音藥丸”,你就會看到壹個不同的生產力世界。
語音輸入本身倒不是什麼新鮮事,蘋果的 Siri 聽寫、Windows 語音識別、甚至更早的 Dragon NaturallySpeaking 已經存在了很多年。但過去這些工具的體驗非常折磨人:識別率低,標點混亂,壹句話說了叁遍都不准,最後還不如自己打字。
真正的轉折點是大規模 AI 語音模型的成熟。2022 年 OpenAI 發布了 Whisper,壹個基於 Transformer 架構的開源語音識別模型,用 68 萬小時的多語言音頻數據訓練而成。Whisper 的出現把語音轉文字的准確率拉到了實用門檻之上。
而在此基礎上,新壹代聽寫工具例如 Wispr、Aqua Voice 等邁出了更關鍵的壹步:它們不只是把你說的話逐字記錄下來,還會用 LLM 對輸出進行“潤色”,自動刪除“嗯”“啊”之類的填充詞,修正語法,調整句式,甚至根據你正在使用的應用場景來適配語氣和格式。
整個過程延遲通常在壹到兩秒之內。部分工具還支持“命令模式”,用戶可以用語音指令來編輯已有文本,比如“把上壹段改成更正式的語氣”或者“刪掉最後壹句”。
這種工作方式之所以讓人興奮,有壹個很直觀的原因:人說話的速度大約是打字速度的叁倍。
對於英文使用者來說,普通人的打字速度在每分鍾 40 到 80 個英文單詞之間,而正常語速大約是每分鍾 130 到 150 個單詞(中文使用者的打字速度大概在每分鍾 80~100 字左右,而語速大約是 200~250 字之間)。
對於那些工作內容主要是“把想法變成文字”的人,比如寫郵件、寫文檔、寫代碼提示詞,這意味著理論上可以把產出速度提升兩到叁倍。壹些重度用戶聲稱自己的文字產出確實翻了幾番。
更有意思的是,語音聽寫正在和另壹個熱門趨勢合流:vibe coding(氛圍編程)。這個由 Andrej Karpathy 在 2025 年初提出的概念,指的是開發者不再逐行寫代碼,而是用自然語言描述需求,讓 AI 編程工具(如 Claude Code、Codex)來生成代碼。而當 vibe coding 遇上語音聽寫,開發者甚至不需要坐在電腦前打字。他們可以壹邊踱步壹邊口述需求,聽寫工具把語音轉成文字 prompt,再由編程 AI 把 prompt 轉成代碼。Wispr 的創始人 Tanay Kothari 說,他們的員工現在就是在辦公室裡走來走去,對著電腦說話,不用再把思考的過程綁定在桌前。
據媒體報道,壹些最狂熱的用戶甚至購買了可編程腳踏板,壹種原本屬於游戲外設的東西,踩壹下就能激活語音交互功能;還有人在桌上架起鵝頸麥克風,就是體育解說員和牧師用的那種可彎曲話筒,離嘴更近說話更省力;Wispr 公司內部則流行把無線領夾麥別在襯衫上,員工們像是隨時在錄播客。這家公司甚至計劃之後向客戶銷售品牌麥克風。
資本市場顯然對這種新的“vibe working”方式拾分歡迎。成立於 2021 年的 Wispr,最初的方向是做腦機接口可穿戴設備,後來轉型做語音聽寫工具。據媒體報道,2025 年 11 月 Wispr 的估值約 7 億美元。而到了 2026 年 5 月,Wispr 的目標估值已經飆升至 20 億美元。壹個聽寫應用估值 20 億,足以說明了市場對“語音取代鍵盤”這件事的看好程度。
於是,競爭也開始變得激烈。同類公司 Aqua Voice 和 Willon 都拿到了 Y Combinator 的投資,初創公司 TalkTastic、Typeless、Superwhisper 各有擁躉。科技巨頭也沒閒著:在 2026 年 5 月的 Android Show 上,谷歌發布了 Rambler,壹個內置於 Gboard 輸入法、由 Gemini 驅動的聽寫功能,能把用戶雜亂的口述自動整理成通順文本。當平台級玩家入場,獨立應用的生存空間會被如何擠壓,仍有待觀察。
此外,這股新的技術趨勢面前,還存在壹些現實的門檻。
首先是硬件層面的局限。目前主流的 AI 聽寫工具大多是 Mac 優先甚至 Mac 獨占的。Wispr Flow 和 Superwhisper 支持 Mac,Aqua Voice 長期以來僅限 Mac 平台(近期才開始支持 Windows),TalkTastic 則是 iOS 和 Mac。而在企業環境中,Windows 仍然是絕對主流操作系統。醫療、法律、政府、金融行業尤其如此。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: