《FireRedTTS2》音訊克隆工具 快速閱讀精華
🚀 5秒極速克隆: 只需要一小段音檔,AI 就能快速學習並模仿該聲音。 👥 多人自然對話: 輕鬆生成多個角色之間的流暢對話,效果比肩真人 Podcast。 🌐 支援多國語言: 包含中文、英文、日文、韓文等七種語言,跨語言也沒問題。 💻 免安裝環境: 最大的亮點!不用搞懂複雜的程式環境,解壓縮就能直接用。 🔧 兩種操作模式:
圖形介面 (UI): 直覺好上手,適合所有使用者。程式碼模式: 提供給進階玩家更大的客製化彈性。
本文章目錄
FireRedTTS2 是什麼?一款強大的 AI 語音生成神器
厭倦了千篇一律、毫無感情的 AI 罐頭語音嗎?想製作 Podcast 或有聲書,卻覺得錄製多人對話很麻煩?那這款由小紅書團隊開發的 FireRedTTS2 音訊克隆工具,絕對是你不能錯過的秘密武器!
相較於市面上其他工具,我們團隊實際測試後發現,FireRedTTS2 在生成多人對話的自然度和流暢度上,表現得相當驚人。它不僅能做到只要 5 秒音檔就能複製特定音色,還能生成長達數分鐘、包含多位講者的複雜對話,連說話時的停頓、結巴等小細節都能模仿,讓成品聽起來更像真人錄製。
最棒的是,這篇教學將帶大家使用整合好的懶人包版本,不用自己架設複雜的 Python 環境,真正做到「解壓縮即用」,就算是程式小白也能輕鬆上手!
重要風險聲明
❗️❗️ 請注意,本工具包含聲音克隆功能 ❗️❗️
學術研究限定: 此功能的設計初衷僅限於學術研究與個人學習用途。嚴禁非法使用: 請勿 將此模型用於任何非法活動,包括但不限於詐騙、誹謗、冒充他人等行為。責任歸屬: 開發者與本篇教學作者不對任何濫用此模型的行為承擔任何法律責任。
若發現任何濫用、誤用或詐騙行為,請立即向開發團隊回報。請大家務必在法律與道德的框架下使用本工具。
安裝教學懶人包 (三步驟搞定)
別擔心,雖然看起來有點技術,但只要照著我們的步驟一步一步做,保證非常簡單!
步驟一:安裝 PyTorch (AI 運算核心)
首先,我們要安裝這個工具的「大腦」,也就是 PyTorch。這一步是為了讓你的電腦,特別是顯示卡(GPU),能全力進行 AI 運算。
打開你電腦的命令提示字元 (CMD) 或 PowerShell。 複製並貼上以下指令後,按下 Enter 執行。
【小知識】這行指令會根據你的顯示卡驅動版本 (CUDA 12.6),安裝對應的 PyTorch 核心程式庫。如果你的顯示卡不支援,它也會安裝用 CPU 運算的版本。
pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126
步驟二:安裝 FireRedTTS2 與相關套件
大腦裝好了,接下來就是安裝工具本身以及它運作需要的「四肢」和「器官」。
首先,從官方 GitHub 倉儲下載整個專案。你可以點擊 這裡的連結 ,然後點選 Code -> Download ZIP。 下載後解壓縮,並透過命令提示字元進入該資料夾。 依序執行以下兩行指令,它會自動安裝所有需要的套件:
pip install -e .
pip install -r requirements.txt
步驟三:下載核心模型檔案 🔽
最後一步,我們要下載 AI 已經訓練好的「記憶」,也就是模型檔案。
完成以上三步驟,恭喜你!所有前置作業都搞定了,接下來就是見證奇蹟的時刻!
手把手操作教學 (超簡單圖形介面)
對於大部分玩家來說,使用官方整合的圖形介面 (Web UI) 是最快、最簡單的方式。
首先,在你的命令提示字元中,執行以下指令來啟動介面:
python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"
執行後,稍等一下,主介面就會彈出來。如果看到一些警告訊息,不用理會它。
👉 GM後台版 遊戲 推薦 ⬇️⬇️⬇️ 快速玩各種二次元動漫手遊app
接下來,我們來看看介面怎麼用:
輸入要生成的對話文字:
最重要的就是文字輸入框。你必須嚴格按照格式來寫,這樣 AI 才知道哪句話是誰說的。
[S1] 代表第一個人說的話。[S2] 代表第二個人說的話。以此類推,可以設定 [S3]、[S4] 等多個角色。 中括號必須是半形的 `[]`。
提供參考音檔 (Voice Clone):
這就是聲音克隆的關鍵!你需要為每個角色 (S1, S2...) 提供一小段參考音檔(建議 5-10 秒)。
參考音檔路徑: 點擊上傳或填寫你電腦中音檔的絕對路徑。參考音檔文本: 在下方框框內,必須一字不差地 打出那段參考音檔裡的人說了什麼話。這就像是給 AI 的「字幕」,讓它精準學習音色。記得,S1 的參考音檔文本,前面也要加上 `[S1]` 標籤喔!
像上圖這樣,我們設定了 S1 和 S2 兩個角色,並分別提供了他們的參考音檔和對應的文本。
開始生成:
設定好之後,直接點擊「開始生成」按鈕。這時候會有一個黑色的命令視窗跳出來,顯示目前的處理進度。
為了測試它的能力,我們在 S1 的對話文字裡故意加了「對對」、「去去」這種疊字,模擬真人說話結巴的感覺,看看 AI 能不能學起來。
完成!聆聽成果:
稍待片刻,當黑色視窗跑完後,就代表音檔生成完畢了!你可以直接在介面上試聽,或到專案資料夾的 `output` 目錄下找到生成的 `chat_clone.wav` 檔案。
從測試結果可以聽到,AI 不僅完美複製了兩個人的音色,甚至連我們故意設計的結巴口氣都模仿得惟妙惟肖,整個對話聽起來非常自然、流暢,就像真正在聊天一樣!
進階玩家:程式碼操作指南
如果你想把這個功能整合到自己的專案中,或是進行更細微的調整,可以直接透過 Python 程式碼來操作。
生成多人對話
底下是官方提供的多人對話生成範例程式碼,主要邏輯和圖形介面一樣:定義文本列表、提供參考音檔和文本,最後執行生成。
import os
import sys
import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
device = "cuda"
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="dialogue",
device=device,
)
text_list = [
"[S1]那可能说对对,没有去过美国来说去去看到美国线下...",
"[S2]对,没错,我每次都觉得不不可思议...",
# ... 其他對話 ...
]
prompt_wav_list = [
"examples/chat_prompt/zh/S1.flac",
"examples/chat_prompt/zh/S2.flac",
]
prompt_text_list = [
"[S1]啊,可能说更适合美国市场应该是什么样子...",
"[S2]比如具体一点的,他觉得最大的一个跟他预想的不一样的是在什么地方。",
]
all_audio = fireredtts2.generate_dialogue(
text_list=text_list,
prompt_wav_list=prompt_wav_list,
prompt_text_list=prompt_text_list,
temperature=0.9,
topk=30,
)
torchaudio.save("chat_clone.wav", all_audio, 24000)
生成單人獨白
FireRedTTS2 同樣支援高品質的單人語音生成,並且可以隨機生成不同音色,或複製指定的音色。
import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
device = "cuda"
lines = [
"Hello everyone, welcome to our newly launched FireRedTTS2...",
"如果你厌倦了千篇一律的AI音色...",
# ... 其他語言文本 ...
]
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="monologue",
device=device,
)
# --- 隨機音色生成 ---
for i in range(len(lines)):
text = lines.strip()
audio = fireredtts2.generate_monologue(text=text)
torchaudio.save(str(i) + ".wav", audio.cpu(), 24000)
# --- 聲音克隆生成 (取消註解來使用) ---
# for i in range(len(lines)):
# text = lines.strip()
# audio = fireredtts2.generate_monologue(
# text=text,
# prompt_wav=<你的參考音檔路徑>,
# prompt_text=<你的參考音檔文本>,
# )
# torchaudio.save(str(i) + ".wav", audio.cpu(), 24000)
《FireRedTTS2》多人對話 重點回顧
準備素材: 先準備好你要讓 AI 說的對話腳本 ,以及每個角色的參考音檔 (5-10秒)與音檔逐字稿 。設定介面: 在圖形介面中,將腳本貼入文字框,並正確上傳每個角色的參考音檔與逐字稿,記得標籤 `[S1]`, `[S2]` 要對應好。一鍵生成: 點擊「開始生成」,等待程式跑完,就能在 `output` 資料夾拿到高品質的對話音檔了!
以下廣告滑動後還有帖子內容
FireRedTTS2 常見問題 Q&A
Q:我的電腦沒有很強的顯示卡 (GPU) 可以用嗎?
A:可以的。在安裝 PyTorch 的步驟中,如果偵測不到支援的 GPU,它會自動安裝使用 CPU 運算的版本。不過生成速度會慢非常多,建議還是在有 NVIDIA 顯示卡的電腦上執行效率較高。
Q:聲音克隆的效果不好,聽起來不像,怎麼辦?
A:請檢查以下幾點:
1. 參考音檔品質: 錄音環境是否安靜?有沒有很多雜音或背景音樂?建議使用乾淨的人聲。
2. 音檔長度: 官方建議 5-10 秒,太短或太長都可能影響效果。
3. 文本是否完全對應: 「參考音檔文本」必須跟音檔裡說的內容一模一樣,包含語氣詞(啊、嗯),多一個字少一個字都不行。
Q:可以生成超過 3 分鐘的對話嗎?
A:目前的預設模型是針對 3 分鐘內的對話進行優化的。雖然理論上可以透過修改程式碼來處理更長的文本,但效果可能會下降,或出現不穩定的情況。
Q:程式碼裡面的 `temperature` 和 `topk` 是什麼意思?
A:這是調整 AI 生成多樣性的參數。簡單來說:
* `temperature`(溫度):數值越高,AI 說話的語氣和風格會越隨機、有創造力;數值越低,則會越穩定、保守。
* `topk`:限制 AI 在生成下一個音素時的選擇範圍。
對於新手,直接使用預設值即可。
Q:這個工具是完全免費的嗎?
A:是的,FireRedTTS2 專案本身是開源且免費的,遵循 Apache-2.0 授權。你可以在遵守授權條款和使用聲明的前提下自由使用。
參考資料