Türkçe Morfolojik Analiz Modeli: turkce-morfolojik-analiz-mt0-small
Bu model, Türkçe cümlelerin morfolojik analizini yapmak üzere bigscience/mt0-small modelinin universal_dependencies (tr_boun alt kümesi) veri seti üzerinde ince ayarlanmasıyla (fine-tuning) eğitilmiştir.
Model, bir cümledeki her kelimeyi alıp kökünü, kelime türünü (Part-of-Speech) ve aldığı ekleri tahmin eder. Çıktı formatı aşağıdaki gibidir:
Kelime -> kök(tür) + ek_1 + ek_2 ...
Eğitim Hiperparametreleri
- Base Model:
bigscience/mt0-small - Epochs:
5 - Training Batch Size:
8 - Evaluation Batch Size:
8 - Optimizer: AdamW (varsayılan)
- Learning Rate:
5e-05 - Dataset:
universal_dependencies(tr_boun)
Modelin Kullanımı
from transformers import pipeline
analiz_cihazi = pipeline("text2text-generation", model="obenadak/turkce-morfolojik-analiz-mt0-small")
cumle = "Gelecek hafta sonu için planların neler?"
sonuc = analiz_cihazi(cumle, max_length=512)
print(sonuc[0]['generated_text'])
# Beklenen Çıktı (Örnek):
Gelecek -> gel(fiil) + -ecek(gelecek z.) | hafta -> hafta(isim) + (yalın) | sonu -> son(isim) + (3.kişi iyelik) + (yalın) | için -> için(edat) | planların -> plan(isim) + -ler(çoğul) + (2.kişi iyelik) + (yalın) | neler -> ne(zamir) + -ler(çoğul)
Değerlendirme Sonuçları (Evaluation Results)
Model, tr_boun veri setinin doğrulama (validation) ve test kümelerinde aşağıdaki sonuçları elde etmiştir.
Final Doğrulama (Validation) Sonuçları
| Metrik | Puan |
|---|---|
| Loss | 0.1605 |
| Rouge1 | 17.8207 |
| Rouge2 | 14.2998 |
| RougeL | 17.6289 |
| Root & POS Accuracy | 0.0564 |
| Affix F1-Score | 0.0643 |
| Word Exact Match | 0.0243 |
| Sentence Exact Match | 0.0000 |
| Runtime (s) | 54.1345 |
| Samples / Second | 18.0850 |
| Steps / Second | 2.2720 |
Test Seti Sonuçları
| Metrik | Puan |
|---|---|
| Loss | 0.1581 |
| Rouge1 | 17.9301 |
| Rouge2 | 14.2752 |
| RougeL | 17.7252 |
| Root & POS Accuracy | 0.0550 |
| Affix F1-Score | 0.0620 |
| Word Exact Match | 0.0232 |
| Sentence Exact Match | 0.0000 |
| Runtime (s) | 53.7059 |
| Samples / Second | 18.2290 |
| Steps / Second | 2.2900 |
| Epoch | 5.0000 |
Veri Hazırlığı (Data Preprocessing)
Girdi olarak cümlenin ham metni (text) kullanılır.
Hedef (target) ise, universal_dependencies veri setindeki lemmas, upos ve feats sütunları kullanılarak yapılandırılmış bir dizedir.
Noktalama işaretleri analizden çıkarılmıştır.
- Downloads last month
- 2
Model tree for obenadak/turkce-morfolojik-analiz-mt0-small
Base model
bigscience/mt0-small