Orpheus-swedish

A text-to-speech model based on Orpheus-TTS finetuned with just ~50h of swedish parliament speeches to be able to generate swedish audio.

While the dataset contains 5000h I used only 50h as a test. https://huggingface.co/datasets/KBLab/rixvox

Here are some results:

Billströms kritik är extra känslig för statsministern i och med att Billström tillhört den innersta kretsen i regeringen och partiet.`

Möjligen har också Billström känt sig trampad på tårna och kritiken mot NSR kan ha varit en bidragande orsak till att han förra året oväntat avgick som utrikesminister.Tack

Hej, hur mår du?

Vad är klockan?

Vilken färg har himlen?

Vad är meningen med livet?

How to use

%pip install transformers snac soundfile torch torchaudio

from transformers import pipeline

# Use your custom task name and model repo id
pipe = pipeline(task="orpheus-swedish", model="cubbk/orpheus-swedish", trust_remote_code=True)

from IPython.display import Audio, display

prompt = [
        "Enligt brittiska medier kommer ledarna att presentera en techpakt som ska stärka ländernas samarbete kring AI, kvantfysik och kärnkraft."
    ]
outputs = pipe(prompt)

for i in range(len(outputs)):
    print(prompt[i])
    samples = outputs[i][0]
    display(Audio(samples.detach().squeeze().to("cpu").numpy(), rate=24000))

Good to know: performs poorly on short text Cuts out at 14 sec.(didn't figure out why)

Downloads last month: 11

Safetensors

Model size

3B params

Tensor type

BF16