hf-audio
/

vocos-encodec-24khz

Model card Files Files and versions

bezzam HF Staff commited on Oct 21

Commit

75a1ffd

·

verified ·

1 Parent(s): 3218bab

Update README.md

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -76,6 +76,8 @@ from transformers import VocosModel, VocosProcessor, BarkProcessor, BarkModel
 from transformers.models.bark.generation_configuration_bark import BarkSemanticGenerationConfig, BarkCoarseGenerationConfig, BarkFineGenerationConfig
 from scipy.io.wavfile import write as write_wav
 # load the Bark model and processor
 bark_id = "suno/bark-small"
 bark_processor = BarkProcessor.from_pretrained(bark_id)
@@ -91,8 +93,7 @@ fine_generation_config = BarkFineGenerationConfig(**bark.generation_config.fine_
 # generating the RVQ codes
 semantic_tokens = bark.semantic.generate(
-    input_ids=bark_inputs.input_ids,
-    attention_mask=bark_inputs.attention_mask,
     semantic_generation_config=semantic_generation_config)
 coarse_tokens = bark.coarse_acoustics.generate(
     semantic_tokens,
@@ -116,7 +117,7 @@ vocos_model = VocosModel.from_pretrained(vocos_id, device_map="auto")
 sampling_rate = processor.feature_extractor.sampling_rate
 # generate audio
-inputs = processor(codes=codes.to("cpu"), bandwidth=6.0).to(vocos_model.device)
 audio = vocos_model(**inputs).audio
 # save audio to file

 from transformers.models.bark.generation_configuration_bark import BarkSemanticGenerationConfig, BarkCoarseGenerationConfig, BarkFineGenerationConfig
 from scipy.io.wavfile import write as write_wav
+bandwidth = 6.0
 # load the Bark model and processor
 bark_id = "suno/bark-small"
 bark_processor = BarkProcessor.from_pretrained(bark_id)
 # generating the RVQ codes
 semantic_tokens = bark.semantic.generate(
+    **bark_inputs,
     semantic_generation_config=semantic_generation_config)
 coarse_tokens = bark.coarse_acoustics.generate(
     semantic_tokens,
 sampling_rate = processor.feature_extractor.sampling_rate
 # generate audio
+inputs = processor(codes=codes.to("cpu"), bandwidth=bandwidth).to(vocos_model.device)
 audio = vocos_model(**inputs).audio
 # save audio to file