feat: generate tokenizer.json

f9ef2f7 over 1 year ago

848 Bytes

	from tokenizers import BertWordPieceTokenizer
	from pathlib import Path

	# パスの設定
	path_dir = "."
	output_dir = Path(".")

	# ファイルの設定
	vocab_file = Path(path_dir) / "vocab.txt"

	# トークナイザーの読み込み
	tokenizer = BertWordPieceTokenizer(vocab=str(vocab_file), lowercase=True)

	# トークナイザーを保存
	output_file = output_dir / "tokenizer.json"
	output_dir.mkdir(parents=True, exist_ok=True)
	tokenizer.save(str(output_file))

	# vocab.txt ファイルを tokenizer.json にリネーム
	#(output_dir / "vocab.txt").rename(output_dir / "tokenizer.json")

	# tokenizer.json が作成されたことを確認
	if (output_dir / "tokenizer.json").exists():
	print("tokenizer.json が正常に作成されました。")
	else:
	print("tokenizer.json の作成に失敗しました。")