Text-to-Speech
Safetensors
Vietnamese
lfm2
kani-tts-370m-vie / README.md
pnnbao-ump's picture
Update README.md
2bd5c50 verified
|
raw
history blame
2.83 kB
metadata
license: apache-2.0
datasets:
  - pnnbao-ump/VieNeu-TTS-140h
  - pnnbao-ump/VieNeu-TTS-140h-nanocodec
language:
  - vi
base_model:
  - nineninesix/kani-tts-370m
pipeline_tag: text-to-speech

🐨 Kani TTS Vie

Fast and Expressive Vietnamese Text-to-Speech Model

Kani TTS Vie là mô hình chuyển văn bản thành giọng nói tiếng Việt nhanh và biểu cảm, được phát triển dựa trên Kani TTS với 370M parameters.

✨ Tính năng

  • 🚀 Siêu nhanh: Inference chỉ ~3 giây cho đoạn văn ngắn
  • 🎭 Đa giọng: Hỗ trợ nhiều giọng đọc tiếng Việt (Nam/Nữ, Bắc/Nam) và các ngôn ngữ khác
  • 📝 Chuẩn hóa văn bản: Tự động chuẩn hóa số, ký hiệu, từ viết tắt
  • 🎯 Chất lượng cao: Âm thanh tự nhiên, rõ ràng với sample rate 22.05kHz

🎤 Giọng đọc hỗ trợ

Tiếng Việt

  • Khoa – Nam miền Bắc
  • Hùng – Nam miền Nam
  • Trinh – Nữ miền Nam

Tiếng Anh

  • David (British), Puck (Gemini), Kore (Gemini), Andrew, Jenny (Irish), Simon, Katie

Ngôn ngữ khác

  • Korean: Seulgi
  • German: Bert, Thorsten (Hessisch)
  • Spanish: Maria
  • Chinese: Mei (Cantonese), Ming (Shanghai)
  • Arabic: Karim, Nur

🔧 Sử dụng

Trên Hugging Face Space

Truy cập trực tiếp tại: pnnbao-ump/Kani-TTS-Vie

Local Installation

# Clone repository
git clone https://github.com/pnnbao97/Kani-TTS-Vie.git
cd Kani-TTS-Vie

# Cài đặt dependencies
pip install -r requirements.txt

# Chạy ứng dụng
python app.py

Python API

from kani_vie.tts_core import Config, KaniModel, NemoAudioPlayer
from utils.normalize_text import VietnameseTTSNormalizer

# Khởi tạo model
config = Config()
player = NemoAudioPlayer(config)
kani = KaniModel(config, player)
normalizer = VietnameseTTSNormalizer()

# Tạo giọng nói
text = "Xin chào! Tôi là Kani TTS."
processed_text = normalizer.normalize(text)
audio, _ = kani.run_model(processed_text, speaker_id="nam-mien-nam")

# Lưu file
import soundfile as sf
sf.write("output.wav", audio, 22050)

📊 Thông số kỹ thuật

Thông số Giá trị
Model size 370M parameters
Sample rate 22,050 Hz
Inference time ~3s cho văn bản ngắn
RTF ~0.1-0.3x (real-time factor)
Base model nineninesix/kani-tts-370m

📚 Datasets

Model được fine-tune trên: