Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

想要用 AI 克隆自己的聲音、製作有聲書或影片旁白,卻又擔心聲音資料被上傳到雲端?這次介紹的 Voicebox(voicebox.sh)或許正是你要找的答案。這款完全免費、開放原始碼的 AI 語音工作室,所有運算都在自己的電腦上進行,聲音資料不會離開本機,同時整合了語音合成、聲音克隆與全域語音輸入三大功能,對想自主掌控語音資料的使用者來說,吸引力相當高。

Voicebox 目前在 GitHub 累積超過 23,000 顆星,最新版本為 v0.5.0,支援 Windows、macOS 與 Linux 三大平台,完全不需要建立帳號,也沒有任何使用次數限制,下載即可直接使用。

Voicebox 是什麼?它和 ElevenLabs 有什麼不同?

根據官網的介紹,Voicebox 定位為「本機優先的 AI 語音工作室」,同時扮演了雲端服務 ElevenLabs(語音輸出)與 WisprFlow(語音輸入)的角色,而且全部免費。市面上大多數語音克隆工具都是 SaaS 訂閱制,每個月動輒幾百元台幣的費用,還有按字數計費的限制,對於內容創作者來說是一筆持續性的支出。Voicebox 把整套工具搬到本機運行,一次安裝、長期使用,不需要擔心帳單問題。實際上,這也是它在社群上快速走紅的主要原因之一。

相關文章

如何下載與安裝 Voicebox?

安裝流程相當簡單,不需要任何指令列操作。前往 voicebox.sh 官網,點選導覽列的「Download」,依照作業系統選擇對應的安裝檔,Windows 使用者建議下載 .exe 安裝程式(注意:有使用者反映 MSI 版本會出現無限載入,建議優先選 EXE)。下載完成後執行安裝,啟動軟體時會自動偵測硬體配備與可用模型。若你使用的是 NVIDIA 顯示卡,建議進入「設定 → GPU」手動下載 CUDA 支援包,才能啟用硬體加速,讓語音生成速度快上許多。

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

7 種 TTS 引擎,各有什麼特色?

這次 Voicebox 整合了 7 款主流 TTS 引擎,涵蓋不同的語言覆蓋範圍與生成風格,使用者可以依照需求自由切換。以下是各引擎的簡要說明:

引擎名稱 語言支援 特色說明
Qwen3-TTS 10 種 高品質多語言克隆,支援語調指令(如「輕聲說」)
Qwen CustomVoice 10 種 9 種預設聲音,自然語言控制語氣,無需提供參考音訊
LuxTTS 英文 輕量(約 1GB VRAM),48kHz 高音質,CPU 即可快速推理
Chatterbox Multilingual 23 種 語言覆蓋最廣,支援阿拉伯語、印地語、波蘭語等
Chatterbox Turbo 英文 支援情緒標籤如 [laugh][sigh],表情豐富
HumeAI TADA 10 種 可生成超過 700 秒的長篇語音,文本與音調雙重對齊
Kokoro 8 種 82M 超輕量模型,50 種預設聲音,CPU 也能快速生成
Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

對大多數中文使用者而言,Qwen3-TTS 會是最直接的首選,品質表現在多位測試者的評測中都獲得好評。若你需要帶有笑聲、嘆氣等情緒的英文旁白,Chatterbox Turbo 則相當有趣。

聲音克隆怎麼做?只需要幾秒鐘的音訊

Voicebox 的聲音克隆流程相當直覺。啟動後,在主畫面點選「Create Voice」,可以選擇上傳現有音訊檔案、直接錄音,或擷取系統聲音作為參考來源。上傳音訊後,點選「Whisper」讓系統自動辨識語音並產生對應文本,接著填入聲音名稱與語言,按下「Create profile」即完成建立。官網說明只需約 30 秒的乾淨錄音就能克隆,但建議使用外接麥克風並控制增益不要過高,避免聲音破音而導致克隆失敗。你可以建立多個聲音檔案,方便製作多角色內容時切換使用。

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

語音輸入與全域快速鍵怎麼用?

除了語音合成輸出,Voicebox 同時提供了語音輸入功能,這在同類工具中相當少見。按住設定好的快速鍵,對著麥克風說話,放開後系統會自動將語音轉文字,並在 macOS 上直接貼入目前游標所在的文字欄位,整個流程不需要切換視窗。對需要長時間打字的工作者來說,這個功能可以大幅降低手部疲勞。此外,Voicebox 內建了以 Whisper 為基礎的語音辨識引擎,提供 Base、Small、Medium、Large 到 Turbo 等多種模型選擇,Turbo 版本的速度約是 Large 的 8 倍,且品質損失極小。

Stories 多軌編輯器:做有聲書和 Podcast 也沒問題

單一語音生成只是基礎功能,Voicebox 的「Stories」頁面提供了多軌時間軸編輯器,可以將不同角色的語音片段排列在各自的音軌上,支援拖放操作、內嵌音訊裁切與分割,並具備同步播放軸讓你即時預覽整體效果。這款功能特別適合製作對話式有聲書、多人 Podcast 或遊戲旁白,不需要另外安裝剪輯軟體就能完成初步的多聲道編排。對有聲書創作者或獨立遊戲開發者來說,這是一個相當實用的加分功能。

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

聲音效果與後製處理有哪些?

生成語音後,Voicebox 還提供了 8 種音訊後製效果,由 Spotify 開源的 Pedalboard 函式庫驅動,包含音調偏移(上下 12 個半音)、迴響(殘響空間模擬)、延遲(回音效果)、合唱、壓縮器、增益調整,以及高通與低通濾波器。軟體內建 4 種預設組合,分別是機器人音色、廣播電台感、回音室與低沉厚重聲,也支援自訂效果組合並儲存為個人預設,方便日後重複套用。實際上,即使沒有後製經驗的使用者,光靠內建預設就能做出不少有趣的聲音變化。

Voicebox 免費 AI 語音工具:本機運行零隱私疑慮,聲音克隆+語音輸入+多種 TTS 引擎一次擁有

Voicebox 適合哪些人使用?

這款工具最適合幾類使用者:有聲書與 Podcast 創作者、影片旁白製作者、對隱私敏感而不願將聲音資料上傳雲端的用戶,以及希望整合語音功能到自己應用程式中的開發者。對開發者而言,Voicebox 提供了 REST API 與 MCP 伺服器介面,可以讓 Claude Code、Cursor 等 AI 工具直接以你克隆的聲音說話,只需一行程式呼叫即可完成語音輸出,無需按字數付費。對非技術使用者來說,圖形化介面足夠直覺,主要挑戰只在於第一次設定時需要確認 GPU 驅動是否正確啟用。

使用上有什麼要注意的地方?

根據社群使用者的回饋,有幾點值得留意。Windows 使用者建議用 .exe 而非 MSI 安裝程式,後者有機率出現無限載入的問題。若遇到點選「Export」後找不到輸出檔案,可以到 %APPDATA%\sh.voicebox.app\generations 資料夾手動取出。另外,部分英文預設聲音有輕微的「動畫配音感」,這與訓練資料的來源有關,若要用於正式旁白,建議改用自己的聲音進行克隆會有更自然的效果。整體來說,這款工具仍在積極開發中,Windows 的某些功能(如自動貼入)尚在完善,macOS 使用者目前體驗較為完整。

常見問題

Voicebox 真的完全免費嗎?
是的,Voicebox 是 MIT 授權的開源軟體,完全免費,不需要建立帳號,也沒有使用次數或字數限制,所有功能開放使用。

Voicebox 支援中文語音克隆嗎?
支援。Qwen3-TTS 與 Chatterbox Multilingual 均支援中文,其中 Qwen3-TTS 的中文語音品質表現較佳,建議優先選用。

電腦沒有獨立顯示卡可以使用嗎?
可以。Voicebox 支援純 CPU 運算,但生成速度會較慢。若電腦配備 Apple Silicon、NVIDIA、AMD 或 Intel Arc 顯示晶片,可啟用對應的硬體加速來縮短等待時間。

克隆聲音需要多長的錄音?
根據官網說明,約 30 秒的乾淨音訊即可進行克隆。錄音時建議使用外接麥克風,並避免增益過高導致破音,這是影響克隆品質最關鍵的因素。

語音生成的音訊檔案存在哪裡?
生成的音訊會自動儲存在 %APPDATA%\sh.voicebox.app\generations(Windows)或對應的 macOS 應用程式資料夾中,也可以透過介面中的匯出功能另存到指定位置。

免費工具不一定代表功能受限,Voicebox 用開源的方式證明了本機端 AI 語音工作室完全可以達到媲美付費雲端服務的水準,隱私有保障,功能也夠用。