Spaces:

yhavinga
/

dutch-tokenizer-arena

Sleeping

App Files Files Community

xu-song commited on Dec 5, 2023

Commit

293bad6

·

1 Parent(s): aa0c637

add more tokenizer

Files changed (9) hide show

vocab/__init__.py +10 -1
vocab/falcon_7b/__init__.py +4 -0
vocab/fastchat_t5_3b/__init__.py +3 -0
vocab/flan_t5_base/__init__.py +3 -0
vocab/pko_t5_large/__init__.py +3 -0
vocab/t5/__init__.py +0 -7
vocab/t5_base/__init__.py +8 -0
vocab/t5_large/__init__.py +8 -0
vocab/t5_small/__init__.py +8 -0

vocab/__init__.py CHANGED Viewed

@@ -96,8 +96,8 @@ all_tokenizers = [
     # "alpaca_7b",
     "baichuan",
     "baichuan2",
-    "qwen",
     "internlm_chat_7b",
     "falcon_180b",
     # "goat",
@@ -109,9 +109,18 @@ all_tokenizers = [
     "skywork_13b_base",
     "skywork_13b_math",
     "mistral",
 ]
 class TokenizerType(Enum):
     """
     - https://huggingface.co/docs/transformers/tokenizer_summary

     # "alpaca_7b",
     "baichuan",
     "baichuan2",
     "internlm_chat_7b",
+    "falcon_7b",
     "falcon_180b",
     # "goat",
     "skywork_13b_base",
     "skywork_13b_math",
     "mistral",
+    "t5_small",
+    "t5_base",
+    "t5_large",
+    "flan_t5_base",
+    "fastchat_t5_3b",
+    "pko_t5_large",
 ]
+all_tokenizers = sorted(all_tokenizers)
 class TokenizerType(Enum):
     """
     - https://huggingface.co/docs/transformers/tokenizer_summary

vocab/falcon_7b/__init__.py ADDED Viewed

	@@ -0,0 +1,4 @@


1	+
2	+ from transformers import AutoTokenizer
3	+
4	+ tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-7b", trust_remote_code=True)

vocab/fastchat_t5_3b/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from transformers import AutoTokenizer
2	+
3	+ tokenizer = AutoTokenizer.from_pretrained("lmsys/fastchat-t5-3b-v1.0", trust_remote_code=True)

vocab/flan_t5_base/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from transformers import AutoTokenizer
2	+
3	+ tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base", trust_remote_code=True)

vocab/pko_t5_large/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ from transformers import AutoTokenizer
2	+
3	+ tokenizer = AutoTokenizer.from_pretrained("paust/pko-t5-large", trust_remote_code=True)

vocab/t5/__init__.py DELETED Viewed

@@ -1,7 +0,0 @@
-"""
-SentencePiece
-"""

vocab/t5_base/__init__.py ADDED Viewed

	@@ -0,0 +1,8 @@

+"""
+https://huggingface.co/t5-base
+"""
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("t5-base", trust_remote_code=True)

vocab/t5_large/__init__.py ADDED Viewed

	@@ -0,0 +1,8 @@

+"""
+https://huggingface.co/t5-large
+"""
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("t5-large", trust_remote_code=True)

vocab/t5_small/__init__.py ADDED Viewed

	@@ -0,0 +1,8 @@

+"""
+https://huggingface.co/t5-large
+"""
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("t5-small", trust_remote_code=True)