硅谷正流行"氛圍辦公":不敲鍵盤對著電腦嘰嘰咕咕

[加州] 硅谷正流行"氛圍辦公":不敲鍵盤對著電腦嘰嘰咕咕

2026-05-24 | 來源: DeepTech深科技 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

這個春天開始，硅谷的辦公室裡，敲打鍵盤的噠噠聲正在被嘀嘀咕咕的人聲取代。

有風險投資人調侃，現在去硅谷的 AI 創業公司拜訪，感覺像走進了壹個高端呼叫中心，只不過所有人都在跟 AI 聊天：員工們戴著電競耳機坐在工位上，對著麥克風發號施令。

這股風潮還有個名字，叫“voicepilled”——語音覺醒。

LinkedIn 聯合創始人 Reid Hoffman 在 2025 年秋天的壹篇帖子裡首次宣稱自己被“voicepill”了。他寫道：“被voicepill 的那壹刻，就是你意識到壹旦認真用語音與技術交互，就能解鎖壹種全新的能力放大方式。”這個詞借用了《黑客帝國》裡紅藍藥丸的隱喻，吞下這顆“語音藥丸”，你就會看到壹個不同的生產力世界。

語音輸入本身倒不是什麼新鮮事，蘋果的 Siri 聽寫、Windows 語音識別、甚至更早的 Dragon NaturallySpeaking 已經存在了很多年。但過去這些工具的體驗非常折磨人：識別率低，標點混亂，壹句話說了叁遍都不准，最後還不如自己打字。

真正的轉折點是大規模 AI 語音模型的成熟。2022 年 OpenAI 發布了 Whisper，壹個基於 Transformer 架構的開源語音識別模型，用 68 萬小時的多語言音頻數據訓練而成。Whisper 的出現把語音轉文字的准確率拉到了實用門檻之上。

而在此基礎上，新壹代聽寫工具例如 Wispr、Aqua Voice 等邁出了更關鍵的壹步：它們不只是把你說的話逐字記錄下來，還會用 LLM 對輸出進行“潤色”，自動刪除“嗯”“啊”之類的填充詞，修正語法，調整句式，甚至根據你正在使用的應用場景來適配語氣和格式。

整個過程延遲通常在壹到兩秒之內。部分工具還支持“命令模式”，用戶可以用語音指令來編輯已有文本，比如“把上壹段改成更正式的語氣”或者“刪掉最後壹句”。

這種工作方式之所以讓人興奮，有壹個很直觀的原因：人說話的速度大約是打字速度的叁倍。

對於英文使用者來說，普通人的打字速度在每分鍾 40 到 80 個英文單詞之間，而正常語速大約是每分鍾 130 到 150 個單詞（中文使用者的打字速度大概在每分鍾 80~100 字左右，而語速大約是 200~250 字之間）。

對於那些工作內容主要是“把想法變成文字”的人，比如寫郵件、寫文檔、寫代碼提示詞，這意味著理論上可以把產出速度提升兩到叁倍。壹些重度用戶聲稱自己的文字產出確實翻了幾番。

更有意思的是，語音聽寫正在和另壹個熱門趨勢合流：vibe coding（氛圍編程）。這個由 Andrej Karpathy 在 2025 年初提出的概念，指的是開發者不再逐行寫代碼，而是用自然語言描述需求，讓 AI 編程工具（如 Claude Code、Codex）來生成代碼。而當 vibe coding 遇上語音聽寫，開發者甚至不需要坐在電腦前打字。他們可以壹邊踱步壹邊口述需求，聽寫工具把語音轉成文字 prompt，再由編程 AI 把 prompt 轉成代碼。Wispr 的創始人 Tanay Kothari 說，他們的員工現在就是在辦公室裡走來走去，對著電腦說話，不用再把思考的過程綁定在桌前。

據媒體報道，壹些最狂熱的用戶甚至購買了可編程腳踏板，壹種原本屬於游戲外設的東西，踩壹下就能激活語音交互功能；還有人在桌上架起鵝頸麥克風，就是體育解說員和牧師用的那種可彎曲話筒，離嘴更近說話更省力；Wispr 公司內部則流行把無線領夾麥別在襯衫上，員工們像是隨時在錄播客。這家公司甚至計劃之後向客戶銷售品牌麥克風。

資本市場顯然對這種新的“vibe working”方式拾分歡迎。成立於 2021 年的 Wispr，最初的方向是做腦機接口可穿戴設備，後來轉型做語音聽寫工具。據媒體報道，2025 年 11 月 Wispr 的估值約 7 億美元。而到了 2026 年 5 月，Wispr 的目標估值已經飆升至 20 億美元。壹個聽寫應用估值 20 億，足以說明了市場對“語音取代鍵盤”這件事的看好程度。

於是，競爭也開始變得激烈。同類公司 Aqua Voice 和 Willon 都拿到了 Y Combinator 的投資，初創公司 TalkTastic、Typeless、Superwhisper 各有擁躉。科技巨頭也沒閒著：在 2026 年 5 月的 Android Show 上，谷歌發布了 Rambler，壹個內置於 Gboard 輸入法、由 Gemini 驅動的聽寫功能，能把用戶雜亂的口述自動整理成通順文本。當平台級玩家入場，獨立應用的生存空間會被如何擠壓，仍有待觀察。

此外，這股新的技術趨勢面前，還存在壹些現實的門檻。

首先是硬件層面的局限。目前主流的 AI 聽寫工具大多是 Mac 優先甚至 Mac 獨占的。Wispr Flow 和 Superwhisper 支持 Mac，Aqua Voice 長期以來僅限 Mac 平台（近期才開始支持 Windows），TalkTastic 則是 iOS 和 Mac。而在企業環境中，Windows 仍然是絕對主流操作系統。醫療、法律、政府、金融行業尤其如此。

更棘手的是遠程桌面環境：很多企業員工通過 Citrix、VMware Horizon 或 RDP（遠程桌面協議）來訪問工作系統，而大多數聽寫工具依賴剪貼板粘貼來輸入文字，這在被組策略鎖定的遠程會話中根本行不通。

其次是成本問題。以 Wispr 為例，它的訂閱價格是每月 18 美元。對於壹個基礎生產力工具來說，這個價格讓不少個人用戶猶豫。傳統的 Dragon NaturallySpeaking 則需要數百美元的壹次性買斷費用。雖然也有更便宜的選擇（比如壹些工具提供 7 美元／月的方案，或者基於本地模型的免費層級），但整體來看，語音聽寫還沒有變成壹個人人輕松消費的默認選項。

還有壹系列的噪音和隱私問題。

在國外，開放式辦公室本來就因為噪音問題飽受詬病。多項研究表明，開放式辦公環境中不相關的語音噪音是影響員工注意力和心理健康的首要因素。而現在，語音聽寫正在往這個裡注入更多噪音。想象壹下：壹個贰拾人的開放工位區，有柒八個人同時在低聲嘟囔，有人在口述郵件，有人在對 AI 編程助手描述壹個 bug，有人在用語音命令修改文檔格式。即便每個人都刻意壓低音量，匯聚在壹起，也足夠讓人頭疼。

壹名接受采訪的使用者承認這“確實有點尷尬”。他說在家裡用語音辦公感覺像鋼鐵俠對 Jarvis 下指令，挺酷的；但在辦公室裡，當著同事的面自言自語，總歸有些不自在。而且當你在口述內容時，周圍的人能聽到你在說什麼。不管是郵件內容、代碼邏輯，還是商業想法，這些原本只存在於屏幕上的私密信息，現在變成了公開的聲波，總歸不太自在。而對於涉及敏感信息的工作場景，還存在合規風險。

從更宏觀的視角看，語音辦公的興起或許折射了壹種技術趨勢：人機交互正在從“適應機器的方式”向“適應人的方式”遷移。鍵盤是壹種為機器設計的輸入界面，人類花了壹百多年去適應它。而語音是人類最原始、最自然的表達方式。AI 的進步讓機器終於能夠理解人類自然語態下的表達，於是“讓人回歸說話”就成了壹個順理成章的方向。

但人類發明書寫，本身就是因為語音表達有其局限，它是線性的，信息密度低，也缺乏復雜結構的承載能力，而且易受環境影響。對於這些問題，語音聽寫工具可能還需要交出更好的答案。

而且如果語音交互真的成為主流工作方式，現有的辦公室結構也將面臨重新設計。過去幾拾年裡，辦公空間默認服務於安靜打字的人類，而未來，它也許要開始服務壹群持續低聲說話的人。聲學隔離、半封閉語音工位、針對不同噪音等級的空間分區，甚至專門用於人機對話的“語音會議室”……這些聽起來有些遙遠的設計，或許會成為標配。

[加西網正招聘多名全職sales 待遇優] 無評論不新聞，發表壹下您的意見吧

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

[加州] 硅谷正流行"氛圍辦公":不敲鍵盤對著電腦嘰嘰咕咕

意見

專家專欄

工具

當前會員

[加州] 硅谷正流行"氛圍辦公":不敲鍵盤 對著電腦嘰嘰咕咕

意見

[加州] 硅谷正流行"氛圍辦公":不敲鍵盤對著電腦嘰嘰咕咕