Voicebox 免費 AI 語音工具：本機運行零隱私疑慮，聲音克隆＋語音輸入＋多種 TTS 引擎一次擁有

想要用 AI 克隆自己的聲音、製作有聲書或影片旁白，卻又擔心聲音資料被上傳到雲端？這次介紹的 Voicebox（voicebox.sh）或許正是你要找的答案。這款完全免費、開放原始碼的 AI 語音工作室，所有運算都在自己的電腦上進行，聲音資料不會離開本機，同時整合了語音合成、聲音克隆與全域語音輸入三大功能，對想自主掌控語音資料的使用者來說，吸引力相當高。

Voicebox 目前在 GitHub 累積超過 23,000 顆星，最新版本為 v0.5.0，支援 Windows、macOS 與 Linux 三大平台，完全不需要建立帳號，也沒有任何使用次數限制，下載即可直接使用。

Voicebox 是什麼？它和 ElevenLabs 有什麼不同？

根據官網的介紹，Voicebox 定位為「本機優先的 AI 語音工作室」，同時扮演了雲端服務 ElevenLabs（語音輸出）與 WisprFlow（語音輸入）的角色，而且全部免費。市面上大多數語音克隆工具都是 SaaS 訂閱制，每個月動輒幾百元台幣的費用，還有按字數計費的限制，對於內容創作者來說是一筆持續性的支出。Voicebox 把整套工具搬到本機運行，一次安裝、長期使用，不需要擔心帳單問題。實際上，這也是它在社群上快速走紅的主要原因之一。

如何下載與安裝 Voicebox？

安裝流程相當簡單，不需要任何指令列操作。前往 voicebox.sh 官網，點選導覽列的「Download」，依照作業系統選擇對應的安裝檔，Windows 使用者建議下載 .exe 安裝程式（注意：有使用者反映 MSI 版本會出現無限載入，建議優先選 EXE）。下載完成後執行安裝，啟動軟體時會自動偵測硬體配備與可用模型。若你使用的是 NVIDIA 顯示卡，建議進入「設定 → GPU」手動下載 CUDA 支援包，才能啟用硬體加速，讓語音生成速度快上許多。

7 種 TTS 引擎，各有什麼特色？

這次 Voicebox 整合了 7 款主流 TTS 引擎，涵蓋不同的語言覆蓋範圍與生成風格，使用者可以依照需求自由切換。以下是各引擎的簡要說明：

引擎名稱	語言支援	特色說明
Qwen3-TTS	10 種	高品質多語言克隆，支援語調指令（如「輕聲說」）
Qwen CustomVoice	10 種	9 種預設聲音，自然語言控制語氣，無需提供參考音訊
LuxTTS	英文	輕量（約 1GB VRAM），48kHz 高音質，CPU 即可快速推理
Chatterbox Multilingual	23 種	語言覆蓋最廣，支援阿拉伯語、印地語、波蘭語等
Chatterbox Turbo	英文	支援情緒標籤如 [laugh]、[sigh]，表情豐富
HumeAI TADA	10 種	可生成超過 700 秒的長篇語音，文本與音調雙重對齊
Kokoro	8 種	82M 超輕量模型，50 種預設聲音，CPU 也能快速生成

對大多數中文使用者而言，Qwen3-TTS 會是最直接的首選，品質表現在多位測試者的評測中都獲得好評。若你需要帶有笑聲、嘆氣等情緒的英文旁白，Chatterbox Turbo 則相當有趣。

聲音克隆怎麼做？只需要幾秒鐘的音訊

Voicebox 的聲音克隆流程相當直覺。啟動後，在主畫面點選「Create Voice」，可以選擇上傳現有音訊檔案、直接錄音，或擷取系統聲音作為參考來源。上傳音訊後，點選「Whisper」讓系統自動辨識語音並產生對應文本，接著填入聲音名稱與語言，按下「Create profile」即完成建立。官網說明只需約 30 秒的乾淨錄音就能克隆，但建議使用外接麥克風並控制增益不要過高，避免聲音破音而導致克隆失敗。你可以建立多個聲音檔案，方便製作多角色內容時切換使用。

語音輸入與全域快速鍵怎麼用？

除了語音合成輸出，Voicebox 同時提供了語音輸入功能，這在同類工具中相當少見。按住設定好的快速鍵，對著麥克風說話，放開後系統會自動將語音轉文字，並在 macOS 上直接貼入目前游標所在的文字欄位，整個流程不需要切換視窗。對需要長時間打字的工作者來說，這個功能可以大幅降低手部疲勞。此外，Voicebox 內建了以 Whisper 為基礎的語音辨識引擎，提供 Base、Small、Medium、Large 到 Turbo 等多種模型選擇，Turbo 版本的速度約是 Large 的 8 倍，且品質損失極小。

Stories 多軌編輯器：做有聲書和 Podcast 也沒問題

單一語音生成只是基礎功能，Voicebox 的「Stories」頁面提供了多軌時間軸編輯器，可以將不同角色的語音片段排列在各自的音軌上，支援拖放操作、內嵌音訊裁切與分割，並具備同步播放軸讓你即時預覽整體效果。這款功能特別適合製作對話式有聲書、多人 Podcast 或遊戲旁白，不需要另外安裝剪輯軟體就能完成初步的多聲道編排。對有聲書創作者或獨立遊戲開發者來說，這是一個相當實用的加分功能。

聲音效果與後製處理有哪些？

生成語音後，Voicebox 還提供了 8 種音訊後製效果，由 Spotify 開源的 Pedalboard 函式庫驅動，包含音調偏移（上下 12 個半音）、迴響（殘響空間模擬）、延遲（回音效果）、合唱、壓縮器、增益調整，以及高通與低通濾波器。軟體內建 4 種預設組合，分別是機器人音色、廣播電台感、回音室與低沉厚重聲，也支援自訂效果組合並儲存為個人預設，方便日後重複套用。實際上，即使沒有後製經驗的使用者，光靠內建預設就能做出不少有趣的聲音變化。

Voicebox 適合哪些人使用？

這款工具最適合幾類使用者：有聲書與 Podcast 創作者、影片旁白製作者、對隱私敏感而不願將聲音資料上傳雲端的用戶，以及希望整合語音功能到自己應用程式中的開發者。對開發者而言，Voicebox 提供了 REST API 與 MCP 伺服器介面，可以讓 Claude Code、Cursor 等 AI 工具直接以你克隆的聲音說話，只需一行程式呼叫即可完成語音輸出，無需按字數付費。對非技術使用者來說，圖形化介面足夠直覺，主要挑戰只在於第一次設定時需要確認 GPU 驅動是否正確啟用。

使用上有什麼要注意的地方？

根據社群使用者的回饋，有幾點值得留意。Windows 使用者建議用 .exe 而非 MSI 安裝程式，後者有機率出現無限載入的問題。若遇到點選「Export」後找不到輸出檔案，可以到 %APPDATA%\sh.voicebox.app\generations 資料夾手動取出。另外，部分英文預設聲音有輕微的「動畫配音感」，這與訓練資料的來源有關，若要用於正式旁白，建議改用自己的聲音進行克隆會有更自然的效果。整體來說，這款工具仍在積極開發中，Windows 的某些功能（如自動貼入）尚在完善，macOS 使用者目前體驗較為完整。

常見問題

Voicebox 真的完全免費嗎？
是的，Voicebox 是 MIT 授權的開源軟體，完全免費，不需要建立帳號，也沒有使用次數或字數限制，所有功能開放使用。

Voicebox 支援中文語音克隆嗎？
支援。Qwen3-TTS 與 Chatterbox Multilingual 均支援中文，其中 Qwen3-TTS 的中文語音品質表現較佳，建議優先選用。

電腦沒有獨立顯示卡可以使用嗎？
可以。Voicebox 支援純 CPU 運算，但生成速度會較慢。若電腦配備 Apple Silicon、NVIDIA、AMD 或 Intel Arc 顯示晶片，可啟用對應的硬體加速來縮短等待時間。

克隆聲音需要多長的錄音？
根據官網說明，約 30 秒的乾淨音訊即可進行克隆。錄音時建議使用外接麥克風，並避免增益過高導致破音，這是影響克隆品質最關鍵的因素。

語音生成的音訊檔案存在哪裡？
生成的音訊會自動儲存在 %APPDATA%\sh.voicebox.app\generations（Windows）或對應的 macOS 應用程式資料夾中，也可以透過介面中的匯出功能另存到指定位置。

免費工具不一定代表功能受限，Voicebox 用開源的方式證明了本機端 AI 語音工作室完全可以達到媲美付費雲端服務的水準，隱私有保障，功能也夠用。