Orpheus-swedish

A text-to-speech model based on Orpheus-TTS finetuned with just ~50h of swedish parliament speeches to be able to generate swedish audio.

While the dataset contains 5000h I used only 50h as a test. https://huggingface.co/datasets/KBLab/rixvox

Here are some results:

Billströms kritik är extra känslig för statsministern i och med att Billström tillhört den innersta kretsen i regeringen och partiet.`

Möjligen har också Billström känt sig trampad på tårna och kritiken mot NSR kan ha varit en bidragande orsak till att han förra året oväntat avgick som utrikesminister.Tack

Hej, hur mår du?

Vad är klockan?

Vilken färg har himlen?

Vad är meningen med livet?

How to use

%pip install transformers snac soundfile torch torchaudio
from transformers import pipeline

# Use your custom task name and model repo id
pipe = pipeline(task="orpheus-swedish", model="cubbk/orpheus-swedish", trust_remote_code=True)
from IPython.display import Audio, display

prompt = [
        "Enligt brittiska medier kommer ledarna att presentera en techpakt som ska stärka ländernas samarbete kring AI, kvantfysik och kärnkraft."
    ]
outputs = pipe(prompt)

for i in range(len(outputs)):
    print(prompt[i])
    samples = outputs[i][0]
    display(Audio(samples.detach().squeeze().to("cpu").numpy(), rate=24000))

Good to know: performs poorly on short text Cuts out at 14 sec.(didn't figure out why)

Downloads last month
11
Safetensors
Model size
3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support