| from tokenizers import BertWordPieceTokenizer | |
| from pathlib import Path | |
| # パスの設定 | |
| path_dir = "." | |
| output_dir = Path(".") | |
| # ファイルの設定 | |
| vocab_file = Path(path_dir) / "vocab.txt" | |
| # トークナイザーの読み込み | |
| tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True) | |
| # トークナイザーを保存 | |
| output_file = output_dir / "tokenizer.json" | |
| output_dir.mkdir(parents=True, exist_ok=True) | |
| tokenizer.save(str(output_file)) | |
| # vocab.txt ファイルを tokenizer.json にリネーム | |
| #(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json") | |
| # tokenizer.json が作成されたことを確認 | |
| if (output_dir / "tokenizer.json").exists(): | |
| print("tokenizer.json が正常に作成されました。") | |
| else: | |
| print("tokenizer.json の作成に失敗しました。") | |