Upload processor

#13

by m-ric - opened Dec 11, 2024

base: refs/heads/main

←

from: refs/pr/13

Discussion Files changed

+40

-16

Files changed (6) hide show

README.md +2 -2
added_tokens.json +3 -1
chat_template.json +1 -1
special_tokens_map.json +5 -7
tokenizer.json +2 -2
tokenizer_config.json +27 -3

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 language:
 - en
 library_name: transformers
@@ -7,8 +9,6 @@ pipeline_tag: image-text-to-text
 tags:
 - multimodal
 - aria
-base_model:
-- rhymes-ai/Aria-Base-64K
 ---
 <!-- <p align="center">
   <br>Aria</br>

 ---
+base_model:
+- rhymes-ai/Aria-Base-64K
 language:
 - en
 library_name: transformers
 tags:
 - multimodal
 - aria
 ---
 <!-- <p align="center">
   <br>Aria</br>

added_tokens.json CHANGED Viewed

@@ -1,3 +1,5 @@
 {
-  "<pad>": 100352
 }

 {
+  "<pad>": 100352,
+  "<|im_end|>": 100354,
+  "<|im_start|>": 100353
 }

chat_template.json CHANGED Viewed

@@ -1,3 +1,3 @@
 {
   "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}{% elif message['content'] is iterable %}{% for item in message['content'] %}{% if item['type'] == 'text' %}{{ item['text'] }}{% elif item['type'] == 'image' %}<fim_prefix><|img|><fim_suffix>{% endif %}{% endfor %}{% endif %}<|im_end|>\n{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
-}

 {
   "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}{% elif message['content'] is iterable %}{% for item in message['content'] %}{% if item['type'] == 'text' %}{{ item['text'] }}{% elif item['type'] == 'image' %}<fim_prefix><|img|><fim_suffix>{% endif %}{% endfor %}{% endif %}<|im_end|>\n{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
+}

special_tokens_map.json CHANGED Viewed

@@ -1,12 +1,10 @@
 {
   "image_token": "<|img|>",
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

 {
+  "image_prefix": "<fim_prefix>",
+  "image_suffix": "<fim_suffix>",
   "image_token": "<|img|>",
+  "pad_token": "<pad>",
+  "sequence_end": "<|im_end|>",
+  "sequence_start": "<|im_start|>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02702cce6c4de786d52a3dc624b39e86134c159b7490ea30630739c6f723e7f8
-size 11091481

 version https://git-lfs.github.com/spec/v1
+oid sha256:1268fb762970b277ed33dd794e5e5fc3d3d274c0bec8662f7a398799fa5fd862
+size 11091855

tokenizer_config.json CHANGED Viewed

@@ -321,7 +321,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "40": {
       "content": "<fim_middle>",
@@ -337,7 +337,7 @@
       "normalized": false,
       "rstrip": false,
       "single_word": false,
-      "special": false
     },
     "42": {
       "content": "<fim_pad>",
@@ -4938,6 +4938,22 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": null,
@@ -4945,14 +4961,22 @@
   "clean_up_tokenization_spaces": false,
   "eos_token": null,
   "extra_special_tokens": {
     "image_token": "<|img|>",
-    "pad_token": "<pad>"
   },
   "image_token": "<|img|>",
   "legacy": true,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "processor_class": "AriaProcessor",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",

       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "40": {
       "content": "<fim_middle>",
       "normalized": false,
       "rstrip": false,
       "single_word": false,
+      "special": true
     },
     "42": {
       "content": "<fim_pad>",
       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "100353": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100354": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "bos_token": null,
   "clean_up_tokenization_spaces": false,
   "eos_token": null,
   "extra_special_tokens": {
+    "image_prefix": "<fim_prefix>",
+    "image_suffix": "<fim_suffix>",
     "image_token": "<|img|>",
+    "pad_token": "<pad>",
+    "sequence_end": "<|im_end|>",
+    "sequence_start": "<|im_start|>"
   },
+  "image_prefix": "<fim_prefix>",
+  "image_suffix": "<fim_suffix>",
   "image_token": "<|img|>",
   "legacy": true,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "processor_class": "AriaProcessor",
+  "sequence_end": "<|im_end|>",
+  "sequence_start": "<|im_start|>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",