Spaces:

HusseinBashir
/

stts

Runtime error

HusseinBashir commited on May 26

Commit

b79ebd5

verified ·

1 Parent(s): d898fdc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,36 +1,33 @@
-import gradio as gr
 import torch
-from TTS.models.vits import VitsModel
-from transformers import AutoTokenizer
-import torchaudio
-# Load the model and tokenizer from Hugging Face
 model = VitsModel.from_pretrained("HusseinBashir/codad_tijaabo")
 tokenizer = AutoTokenizer.from_pretrained("HusseinBashir/codad_tijaabo")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model = model.to(device).eval()
-def tts_infer(text):
-    inputs = tokenizer(text, return_tensors="pt")
-    input_ids = inputs.input_ids.to(device)
     with torch.no_grad():
-        output = model(input_ids)
-        waveform = output["waveform"]
-    # Save or return audio
-    sample_rate = 22050  # VITS typically uses 22.05kHz
-    torchaudio.save("output.wav", waveform.cpu(), sample_rate)
-    return "output.wav"
-# Create Gradio UI
-interface = gr.Interface(
-    fn=tts_infer,
-    inputs=gr.Textbox(label="Geli qoraalka aad rabto in cod laga dhigo"),
-    outputs=gr.Audio(label="Codka la sameeyey"),
-    title="Codad Tijaabo TTS",
-    description="Ku qor qoraal Soomaali ah si aad cod u maqasho.",
-)
-interface.launch()

 import torch
+from transformers import VitsModel, AutoTokenizer
+import gradio as gr
+# Load the fine-tuned model and tokenizer
 model = VitsModel.from_pretrained("HusseinBashir/codad_tijaabo")
 tokenizer = AutoTokenizer.from_pretrained("HusseinBashir/codad_tijaabo")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+# Gradio TTS function
+# Gradio TTS function
+def tts(text):
+    inputs = tokenizer(text, return_tensors="pt").to(device)
     with torch.no_grad():
+        output = model(**inputs).waveform.squeeze(1).cpu().numpy()
+    # Ensure the output is a 1D numpy array and normalized
+    if output.ndim > 1:
+        output = output.flatten()
+    output = output / max(abs(output))  # Normalize to [-1, 1]
+    return (22050, output)  # Return a tuple (sample_rate, waveform)
+# Gradio interface for the TTS model
+iface = gr.Interface(
+    fn=tts,
+    inputs=gr.Textbox(label="Enter text"),
+    outputs=gr.Audio(label="Generated Speech"),
+    title="Fine-tuned VITS TTS",
+    description="Generate speech from text using the fine-tuned VITS model."
+)
+iface.launch()