hajime9652
/

xlnet-japanese

Text Generation

Model card Files Files and versions

hajime9652 commited on Jan 5, 2023

Commit

8511f3d

·

1 Parent(s): 522dddd

Update readme

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -19,11 +19,15 @@ metrics:
 This model require Mecab and senetencepiece with XLNetTokenizer.
 See details https://qiita.com/mkt3/items/4d0ae36f3f212aee8002
 #### How to use
 ```python
-import MeCab
-import subprocess
 from transformers import (
     pipeline,
@@ -33,11 +37,7 @@ from transformers import (
 class XLNet():
     def __init__(self):
-        cmd = 'echo `mecab-config --dicdir`"/mecab-ipadic-neologd"'
-        path = (subprocess.Popen(cmd, stdout=subprocess.PIPE,
-            shell=True).communicate()[0]).decode('utf-8')
-        self.m = MeCab.Tagger(f"-Owakati -d {path}")
         self.gen_model = XLNetLMHeadModel.from_pretrained("hajime9652/xlnet-japanese")
         self.gen_tokenizer = XLNetTokenizer.from_pretrained("hajime9652/xlnet-japanese")

 This model require Mecab and senetencepiece with XLNetTokenizer.
 See details https://qiita.com/mkt3/items/4d0ae36f3f212aee8002
+This model uses NFKD as the normalization method for character encoding.
+Japanese muddle marks and semi-muddle marks will be lost.
+*日本語の濁点・半濁点がないモデルです*
 #### How to use
 ```python
+from fugashi import Tagger
 from transformers import (
     pipeline,
 class XLNet():
     def __init__(self):
+        self.m = Tagger('-Owakati')
         self.gen_model = XLNetLMHeadModel.from_pretrained("hajime9652/xlnet-japanese")
         self.gen_tokenizer = XLNetTokenizer.from_pretrained("hajime9652/xlnet-japanese")