🇷🇺 Russian BPE Tokenizer 16k
Russian BPE Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
🧠 Описание модели
- Тип модели: Subword токенизатор (BPE)
- Язык: Русский
- Алгоритм: Byte Pair Encoding
- Размер словаря: 16 000
- Минимальная частота: 3
- Нормализация: NFKC
- Пре-токенизация: Whitespace
📚 Корпус
Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:
(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
📊 Метрики
| Метрика | Значение | Описание |
|---|---|---|
| OOV rate | 6% | Доля слов, отсутствующих в словаре |
| Reconstruction accuracy | 2% | Точность восстановления исходного текста после токенизации |
| Compression ratio | 0.59 | Коэффициент сжатия корпуса |
🚀 Пример использования
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("Shu-vi/russian-bpe-tokenizer-16k")
# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)
print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support