📰 OmniVoice Studio ra mắt: Trạm giọng nói AI mã nguồn mở

03/06/2026 · Nguồn: GitHub · v0.2.7 · 5.8K ⭐

646
Ngôn ngữ
3 giây
Clone giọng
Cục bộ
Không API key
OmniVoice Studio v0.2.7 vừa ra mắt — một desktop app mã nguồn mở cho phép sao chép giọng nói, thiết kế giọng, và lồng tiếng video hoàn toàn trên máy tính cá nhân. Được xem là đối thủ open-source trực tiếp của ElevenLabs.
OmniVoice Studio v0.2.7 正式發布——一款開源桌面應用,可在本機完成語音複製、聲音設計和影片配音,被視為 ElevenLabs 的直接開源競爭者。

Điểm nổi bật

🔹 646 ngôn ngữ được hỗ trợ (ElevenLabs chỉ có 32). Core TTS engine đến từ Xiaomi AI Lab (Apache 2.0).
🔹 支援 646 種語言(ElevenLabs 僅 32 種)。核心 TTS 引擎來自小米 AI Lab(Apache 2.0)。
🔹 Zero-shot voice cloning: Chỉ cần 3 giây audio mẫu để sao chép bất kỳ giọng nói nào.
🔹 零樣本語音複製:只需 3 秒音訊樣本即可複製任何聲音。
🔹 Video dubbing pipeline đầy đủ: Upload video hoặc dán link YouTube → transcribe → dịch → tạo giọng → xuất MP4.
🔹 完整影片配音流水線:上傳影片或貼上 YouTube 連結 → 轉錄 → 翻譯 → 生成語音 → 匯出 MP4。
🔹 Hoàn toàn cục bộ: Không cần API key, không gửi dữ liệu lên cloud. Hỗ trợ CUDA / Apple MPS / AMD ROCm.
🔹 完全本機運作:不需 API 金鑰、資料不上雲端。支援 CUDA / Apple MPS / AMD ROCm。
🔹 Kiến trúc: React (frontend) + FastAPI 97 endpoints (backend) + Tauri (desktop shell). Docker image có sẵn trên GHCR.
🔹 架構:React(前端)+ FastAPI 97 個端點(後端)+ Tauri(桌面殼層)。Docker 映像已在 GHCR 上提供。

Giấy phép

FSL-1.1-ALv2 — miễn phí cho cá nhân, giáo dục, và nội bộ doanh nghiệp. Sau 2 năm mỗi phiên bản tự động chuyển thành Apache 2.0. Doanh nghiệp xây dựng sản phẩm cạnh tranh cần giấy phép thương mại.
FSL-1.1-ALv2——個人、教育、企業內部免費。每個版本發布兩年後自動轉為 Apache 2.0。建構競爭產品的企業需商業授權。

Tại sao đáng chú ý?

Thị trường voice AI đang bị ElevenLabs thống trị với mức giá $5–330/tháng. OmniVoice Studio mở ra một hướng đi mới: tự chủ công nghệ thay vì thuê bao dịch vụ. Với 5,800 stars trong thời gian ngắn, cộng đồng đang phản ứng rất tích cực. Các tính năng lip-sync v2 và plugin marketplace đang trong lộ trình phát triển.
語音 AI 市場長期被 ElevenLabs 以 $5–330/月壟斷。OmniVoice Studio 走出新路:技術自主而非服務訂閱。短期內獲得 5,800 stars,社群反應熱烈。唇同步 v2 和插件市集已在開發路線中。