Moshi
Safetensors
Japanese
atsumoto commited on
Commit
293195b
·
verified ·
1 Parent(s): 9090092

Add English version

Browse files
Files changed (1) hide show
  1. README.md +26 -13
README.md CHANGED
@@ -9,16 +9,19 @@ base_model:
9
  library_name: moshi
10
  ---
11
 
12
- # J-Moshi: A Japanese Full-duplex Spoken Dialogue System
13
 
14
- [![Paper](https://img.shields.io/badge/Paper-To_Appear-lightgrey.svg)]()
15
- [![Model](https://img.shields.io/badge/🤗_Hugging_Face-Model-ffcc66.svg)](https://huggingface.co/nu-dialogue/j-moshi-ext)
16
- [![Demo](https://img.shields.io/badge/GitHub_Pages-Demo-green.svg)](https://nu-dialogue.github.io/j-moshi)
17
- [![License](https://img.shields.io/badge/License-CC_BY--NC_4.0-blue)](https://creativecommons.org/licenses/by-nc/4.0/deed.en)
 
 
 
18
 
19
- J-Moshiは,日本語におけるfull-duplex音声対話システムです.英語における7Bパラメータのfull-duplex音声対話モデル [Moshi](https://arxiv.org/abs/2410.00037) をベースとし,日本語音声対話データでの追加学習によって構築されました.発話のオーバーラップや相槌など,人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します.
20
 
21
- このリポジトリでは,J-Moshiの学習済みモデル,およびモデルとの対話方法を提供します.なお,J-Moshiが生成した音声のサンプルは[こちら](https://nu-dialogue.github.io/j-moshi)からご覧いただけます.
22
 
23
  > [!NOTE]
24
  > J-Moshiは試作段階であり,その応答は不自然な場合があります.また,J-Moshiの学習データの大部分は雑談対話であるため,ユーザの指示に従った応答を生成することはできません.
@@ -47,7 +50,7 @@ Kyutai公式の[MoshiのPyTorch実装](https://github.com/kyutai-labs/moshi/tree
47
  Python 3.10以上が必要です.
48
 
49
  ```bash
50
- pip install moshi
51
  ```
52
 
53
  ### Usage
@@ -63,6 +66,7 @@ python -m moshi.server --hf-repo nu-dialogue/j-moshi-ext
63
 
64
  ## Training Details
65
  J-Moshiの学習では,以下の音声対話コーパスを使用しました.また,これらデータに加え,J-Moshi-extの学習では,テキスト対話コーパスから音声合成された拡張データも使用しました.使用したコーパスは以下の通りです:
 
66
  - 音声対話コーパス
67
  - [J-CHAT](https://arxiv.org/abs/2407.15828)
68
  - [日本語Callhome](https://catalog.ldc.upenn.edu/LDC96S37)
@@ -70,17 +74,18 @@ J-Moshiの学習では,以下の音声対話コーパスを使用しました
70
  - [旅行代理店対話コーパス](https://dl.acm.org/doi/10.1145/3675166)
71
  - 雑談対話コーパス(内製)
72
  - 相談対話コーパス(内製)
 
73
  - テキスト対話コーパス
74
  - [日本語PersonaChat](https://arxiv.org/abs/2109.05217)
75
  - [日本語EmpatheticDialogues](https://arxiv.org/abs/2109.05217)
76
- - [日本語日常対話コーパス](https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/H1-1.pdf)
77
  - [RealPersonaChat](https://aclanthology.org/2023.paclic-1.85/)
78
 
79
  学習では,128基のNVIDIA V100 32GB GPUを使用しました.
80
 
81
 
82
  ## Terms of Use
83
- J-Moshiは[CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.en)の下で公開されており,研究目的での利用を想定しています.本モデルは,なりすましや詐欺など,いかなる悪意ある目的での使用も意図していません.また,本モデルの出力には,学習データに起因するバイアスや不正確もしくは攻撃的な情報が含まれる可能性があります.我々はその使用によって生じるいかなる損害についても責任を負いません.
84
 
85
 
86
  ## Acknowledgments
@@ -88,14 +93,22 @@ J-Moshiは[CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/deed.en)
88
 
89
  <a href="https://avatar-ss.org"><img src="https://nu-dialogue.github.io/j-moshi/static/image/moonshot_logo.svg" width="200"></a>
90
 
 
91
  ## Citation
92
  ```bibtex
 
 
 
 
 
 
 
93
  @inproceedings{ohashi2025jmoshi,
94
  title = "日本語 {F}ull-duplex 音声対話システムの試作",
95
- author = "大橋 厚元 and 飯塚 慎也 and 姜 菁菁 and 東中竜一郎",
96
  booktitle = "言語処理学会 第31回年次大会 発表論文集",
97
- pages = "",
98
  year = "2025",
99
- url = ""
100
  }
101
  ```
 
9
  library_name: moshi
10
  ---
11
 
12
+ [![English](https://img.shields.io/badge/README-English-red.svg)](README-en.md) [![License](https://img.shields.io/badge/License-CC_BY--NC_4.0-blue.svg)](LICENSE)
13
 
14
+ [📑 **Paper**](http://arxiv.org/abs/2506.02979)
15
+ &nbsp;|&nbsp;
16
+ [🤗 **Model**](https://huggingface.co/nu-dialogue/j-moshi-ext)
17
+ &nbsp;|&nbsp;
18
+ [🖥️ **Demo**](https://nu-dialogue.github.io/j-moshi)
19
+ &nbsp;|&nbsp;
20
+ [🔧 **Training Code**](https://github.com/nu-dialogue/moshi-finetune)
21
 
22
+ J-Moshiは,日本語におけるfull-duplex音声対話システムです.英語における7Bパラメータのfull-duplex音声対話モデル [Moshi](https://arxiv.org/abs/2410.00037) をベースとし,日本語音声対話データでの追加学習によって構築されました.発話のオーバーラップや相槌など,人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します.詳細は[我々の論文](http://arxiv.org/abs/2506.02979)を参照してください.
23
 
24
+ このリポジトリでは,J-Moshiの学習済みモデル,およびモデルとの対話方法を提供します.また,J-Moshiが生成した[音声のサンプル](https://nu-dialogue.github.io/j-moshi)や,J-Moshi の学習に使用された[学習コードベース](https://github.com/nu-dialogue/moshi-finetune) も公開されています.
25
 
26
  > [!NOTE]
27
  > J-Moshiは試作段階であり,その応答は不自然な場合があります.また,J-Moshiの学習データの大部分は雑談対話であるため,ユーザの指示に従った応答を生成することはできません.
 
50
  Python 3.10以上が必要です.
51
 
52
  ```bash
53
+ pip install moshi<=0.2.2
54
  ```
55
 
56
  ### Usage
 
66
 
67
  ## Training Details
68
  J-Moshiの学習では,以下の音声対話コーパスを使用しました.また,これらデータに加え,J-Moshi-extの学習では,テキスト対話コーパスから音声合成された拡張データも使用しました.使用したコーパスは以下の通りです:
69
+
70
  - 音声対話コーパス
71
  - [J-CHAT](https://arxiv.org/abs/2407.15828)
72
  - [日本語Callhome](https://catalog.ldc.upenn.edu/LDC96S37)
 
74
  - [旅行代理店対話コーパス](https://dl.acm.org/doi/10.1145/3675166)
75
  - 雑談対話コーパス(内製)
76
  - 相談対話コーパス(内製)
77
+
78
  - テキスト対話コーパス
79
  - [日本語PersonaChat](https://arxiv.org/abs/2109.05217)
80
  - [日本語EmpatheticDialogues](https://arxiv.org/abs/2109.05217)
81
+ - [日本語日常対話コーパス](https://github.com/jqk09a/japanese-daily-dialogue)
82
  - [RealPersonaChat](https://aclanthology.org/2023.paclic-1.85/)
83
 
84
  学習では,128基のNVIDIA V100 32GB GPUを使用しました.
85
 
86
 
87
  ## Terms of Use
88
+ J-Moshiは[CC BY-NC 4.0](LICENSE)の下で公開されており,研究目的での利��を想定しています.本モデルは,なりすましや詐欺など,いかなる悪意ある目的での使用も意図していません.また,本モデルの出力には,学習データに起因するバイアスや不正確もしくは攻撃的な情報が含まれる可能性があります.我々はその使用によって生じるいかなる損害についても責任を負いません.
89
 
90
 
91
  ## Acknowledgments
 
93
 
94
  <a href="https://avatar-ss.org"><img src="https://nu-dialogue.github.io/j-moshi/static/image/moonshot_logo.svg" width="200"></a>
95
 
96
+
97
  ## Citation
98
  ```bibtex
99
+ @inproceedings{ohashi2025jmoshi,
100
+ title={Towards a Japanese Full-duplex Spoken Dialogue System},
101
+ author={Ohashi, Atsumoto and Iizuka, Shinya and Jiang, Jingjing and Higashinaka, Ryuichiro},
102
+ booktitle={Proceedings of the 26th Interspeech Conference},
103
+ year={2025},
104
+ }
105
+
106
  @inproceedings{ohashi2025jmoshi,
107
  title = "日本語 {F}ull-duplex 音声対話システムの試作",
108
+ author = "大橋 厚元 and 飯塚 慎也 and 姜 菁菁 and 東中 竜一郎",
109
  booktitle = "言語処理学会 第31回年次大会 発表論文集",
110
+ pages = "3164--3169",
111
  year = "2025",
112
+ url = "https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/D8-6.pdf"
113
  }
114
  ```