Text-to-Speech
Safetensors
Vietnamese
lfm2
pnnbao-ump commited on
Commit
2bd5c50
·
verified ·
1 Parent(s): 958ad81

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +88 -1
README.md CHANGED
@@ -8,4 +8,91 @@ language:
8
  base_model:
9
  - nineninesix/kani-tts-370m
10
  pipeline_tag: text-to-speech
11
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  base_model:
9
  - nineninesix/kani-tts-370m
10
  pipeline_tag: text-to-speech
11
+ ---
12
+ # 🐨 Kani TTS Vie
13
+
14
+ **Fast and Expressive Vietnamese Text-to-Speech Model**
15
+
16
+ Kani TTS Vie là mô hình chuyển văn bản thành giọng nói tiếng Việt nhanh và biểu cảm, được phát triển dựa trên [Kani TTS](https://github.com/NineSixAI/kani-tts) với 370M parameters.
17
+
18
+ ## ✨ Tính năng
19
+
20
+ - 🚀 **Siêu nhanh**: Inference chỉ ~3 giây cho đoạn văn ngắn
21
+ - 🎭 **Đa giọng**: Hỗ trợ nhiều giọng đọc tiếng Việt (Nam/Nữ, Bắc/Nam) và các ngôn ngữ khác
22
+ - 📝 **Chuẩn hóa văn bản**: Tự động chuẩn hóa số, ký hiệu, từ viết tắt
23
+ - 🎯 **Chất lượng cao**: Âm thanh tự nhiên, rõ ràng với sample rate 22.05kHz
24
+
25
+ ## 🎤 Giọng đọc hỗ trợ
26
+
27
+ ### Tiếng Việt
28
+ - **Khoa** – Nam miền Bắc
29
+ - **Hùng** – Nam miền Nam
30
+ - **Trinh** – Nữ miền Nam
31
+
32
+ ### Tiếng Anh
33
+ - David (British), Puck (Gemini), Kore (Gemini), Andrew, Jenny (Irish), Simon, Katie
34
+
35
+ ### Ngôn ngữ khác
36
+ - **Korean**: Seulgi
37
+ - **German**: Bert, Thorsten (Hessisch)
38
+ - **Spanish**: Maria
39
+ - **Chinese**: Mei (Cantonese), Ming (Shanghai)
40
+ - **Arabic**: Karim, Nur
41
+
42
+ ## 🔧 Sử dụng
43
+
44
+ ### Trên Hugging Face Space
45
+
46
+ Truy cập trực tiếp tại: [pnnbao-ump/Kani-TTS-Vie](https://huggingface.co/spaces/pnnbao-ump/Kani-TTS-Vie)
47
+
48
+ ### Local Installation
49
+
50
+ ```bash
51
+ # Clone repository
52
+ git clone https://github.com/pnnbao97/Kani-TTS-Vie.git
53
+ cd Kani-TTS-Vie
54
+
55
+ # Cài đặt dependencies
56
+ pip install -r requirements.txt
57
+
58
+ # Chạy ứng dụng
59
+ python app.py
60
+ ```
61
+
62
+ ### Python API
63
+
64
+ ```python
65
+ from kani_vie.tts_core import Config, KaniModel, NemoAudioPlayer
66
+ from utils.normalize_text import VietnameseTTSNormalizer
67
+
68
+ # Khởi tạo model
69
+ config = Config()
70
+ player = NemoAudioPlayer(config)
71
+ kani = KaniModel(config, player)
72
+ normalizer = VietnameseTTSNormalizer()
73
+
74
+ # Tạo giọng nói
75
+ text = "Xin chào! Tôi là Kani TTS."
76
+ processed_text = normalizer.normalize(text)
77
+ audio, _ = kani.run_model(processed_text, speaker_id="nam-mien-nam")
78
+
79
+ # Lưu file
80
+ import soundfile as sf
81
+ sf.write("output.wav", audio, 22050)
82
+ ```
83
+
84
+ ## 📊 Thông số kỹ thuật
85
+
86
+ | Thông số | Giá trị |
87
+ |----------|---------|
88
+ | **Model size** | 370M parameters |
89
+ | **Sample rate** | 22,050 Hz |
90
+ | **Inference time** | ~3s cho văn bản ngắn |
91
+ | **RTF** | ~0.1-0.3x (real-time factor) |
92
+ | **Base model** | [nineninesix/kani-tts-370m](https://huggingface.co/nineninesix/kani-tts-370m) |
93
+
94
+ ## 📚 Datasets
95
+
96
+ Model được fine-tune trên:
97
+ - [VieNeu-TTS-140h](https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS-140h)
98
+ - [VieNeu-TTS-140h-nanocodec](https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS-140h-nanocodec)