Spaces:

mozgov
/

so-vits-svc-shengshuyan

Runtime error

App Files Files Community

xiaoheicat commited on Aug 26, 2023

Commit

41f245a

1 Parent(s): 2d30eab

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -434,9 +434,9 @@ def vc_infer(output_format, sid, input_audio, sr, input_audio_path, vc_transform
         input_audio = librosa.to_mono(input_audio.transpose(1, 0))
     if sr != 44100:
         input_audio = librosa.resample(input_audio, orig_sr=sr, target_sr=44100)
-    sf.write("/tmp/temp.wav", input_audio, 44100, format="wav")
     _audio = model.slice_inference(
-        "/tmp/temp.wav",
         sid,
         vc_transform,
         slice_db,
@@ -490,7 +490,7 @@ def vc_fn(output_format, sid, input_audio, vc_transform, auto_f0, cluster_ratio,
                 return "你还未加载聚类或特征检索模型，无法启用聚类/特征检索混合比例", None
         audio, sr = sf.read(input_audio)
         output_file_path = vc_infer(output_format, sid, audio, sr, input_audio, vc_transform, auto_f0, cluster_ratio, slice_db, noise_scale, pad_seconds, cl_num, lg_num, lgr_num, f0_predictor, enhancer_adaptive_key, cr_threshold, k_step, use_spk_mix, second_encoding, loudness_envelope_adjustment)
-        os.remove("/tmp/temp.wav")
         return "Success", output_file_path
     except Exception as e:
         if debug:
@@ -536,13 +536,13 @@ def tts_fn(_text, _gender, _lang, _rate, _volume, output_format, sid, vc_transfo
         else:
             subprocess.run([r"python", "tts.py", _text, _lang, _rate, _volume])
         target_sr = 44100
-        y, sr = librosa.load("/tmp/tts.wav")
         resampled_y = librosa.resample(y, orig_sr=sr, target_sr=target_sr)
-        sf.write("/tmp/tts.wav", resampled_y, target_sr, subtype = "PCM_16")
-        input_audio = "/tmp/tts.wav"
         audio, sr = sf.read(input_audio)
         output_file_path = vc_infer(output_format, sid, audio, sr, input_audio, vc_transform, auto_f0, cluster_ratio, slice_db, noise_scale, pad_seconds, cl_num, lg_num, lgr_num, f0_predictor, enhancer_adaptive_key, cr_threshold, k_step, use_spk_mix, second_encoding, loudness_envelope_adjustment)
-        #os.remove("/tmp/tts.wav")
         return "Success", output_file_path
     except Exception as e:
         if debug:

         input_audio = librosa.to_mono(input_audio.transpose(1, 0))
     if sr != 44100:
         input_audio = librosa.resample(input_audio, orig_sr=sr, target_sr=44100)
+    sf.write("temp.wav", input_audio, 44100, format="wav")
     _audio = model.slice_inference(
+        "temp.wav",
         sid,
         vc_transform,
         slice_db,
                 return "你还未加载聚类或特征检索模型，无法启用聚类/特征检索混合比例", None
         audio, sr = sf.read(input_audio)
         output_file_path = vc_infer(output_format, sid, audio, sr, input_audio, vc_transform, auto_f0, cluster_ratio, slice_db, noise_scale, pad_seconds, cl_num, lg_num, lgr_num, f0_predictor, enhancer_adaptive_key, cr_threshold, k_step, use_spk_mix, second_encoding, loudness_envelope_adjustment)
+        os.remove("temp.wav")
         return "Success", output_file_path
     except Exception as e:
         if debug:
         else:
             subprocess.run([r"python", "tts.py", _text, _lang, _rate, _volume])
         target_sr = 44100
+        y, sr = librosa.load("tts.wav")
         resampled_y = librosa.resample(y, orig_sr=sr, target_sr=target_sr)
+        sf.write("tts.wav", resampled_y, target_sr, subtype = "PCM_16")
+        input_audio = "tts.wav"
         audio, sr = sf.read(input_audio)
         output_file_path = vc_infer(output_format, sid, audio, sr, input_audio, vc_transform, auto_f0, cluster_ratio, slice_db, noise_scale, pad_seconds, cl_num, lg_num, lgr_num, f0_predictor, enhancer_adaptive_key, cr_threshold, k_step, use_spk_mix, second_encoding, loudness_envelope_adjustment)
+        #os.remove("tts.wav")
         return "Success", output_file_path
     except Exception as e:
         if debug: