BlueMagpie-TTS Demo

台灣華語與中英混合文字轉語音。模型版本：step_0000049。

執行環境固定於已驗證的 model revision aaf1a087、ECAPA revision 0f99f2d0 與 Whisper revision 41f01f3f，避免服務重啟時無聲變更權重、speaker embedding 或語意驗證空間。

目前預設採用穩定推論設定：候選交錯 CFG 3.0 / 2.0（網路內容與極短句最低 3.0）、 NFE 10、目標語速 4.0 字/秒、初始完整 trajectory 使用 base duration estimate（5.2 CJK / 4.6 ASCII），後續 zero/low-coverage 單 chunk refill 使用 safe duration estimate （4.6 CJK / 4.0 ASCII）；兩者只調整生成上限，生成完成後才校正至目標語速。另補齊句末提示、套用尾端 weak-stop 保護、含真實標點的 25–48 speech-unit request 會優先切成最多 24 units 的語意 chunks，長文仍依 80-unit 上限切段。每個 request 只生成一次 same-seed 完整 trajectory；失敗後只補低覆蓋 chunks，再以 speaker/RMS/F0 ragged DP 選出最多三條 culprit-diverse exact paths；所有 chunk 首次具備 coverage 時先驗證 rank-1 exact path；若它已通過 hard gate 但僅未達 preferred tier，下一個新 rank-1 path 會在 bounded refill 中提前驗證，同時保留 completed-lattice final slot。F0 只在 multi-chunk lattice 真正有替代路徑、需要 transition ranking 時才計算。單一 chunk 若 exact joined 波形已通過雙 ASR、preferred SQUIM、release speaker、語速與 echo/smearing gate，會立即返回而不再填滿候選池。 NFE 固定為已驗證的 10；48 speech units 內的非網路互動 request 最多生成 10 個 TTS chunks，其他 request 維持 32 個 hard cap，且一律不超過 800 generated speech units。語速校正使用 deterministic WSOLA，總 rate 不低於 0.90；不少於 1 秒的候選與最終波形另須通過 echo/smearing gate。

合成語音僅供研究與評估展示；正式使用前請人工檢視。模型 · 程式碼