Greek fine-tuned model based on multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Language: gr
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("novelcore/aristotle")
# Run inference
sentences = [
    'Η εγκατάσταση και λειτουργία ηλεκτρονικών υπολογιστών σε επιχειρήσεις προσφοράς υπηρεσιών διαδικτύου δεν εμπίπτει στην απαγόρευση παιγνίων.',
    "Τίτλος: ΝΟΜΟΣ ΥΠ' ΑΡΙΘΜ. 3037\nΈτος: 2002\nΑπαγόρευση παιγνίων.\nΆρθρο 3\nΤίτλος άρθρου: Επιχειρήσεις προσφοράς υπηρεσιών διαδικτύου\nΔεν εμπίπτει στην απαγόρευση που ορίζεται στο άρθρο 2 η εγκατάσταση και λειτουργία ηλεκτρονικών υπολογιστών σε καταστήματα που λειτουργούν ως επιχειρήσεις προσφοράς υπηρεσιών διαδικτύου. Η διενέργεια, όμως, παιγνίου με τους υπολογιστές αυτούς, ανεξάρτητα από τον τρόπο διενέργειάς του, απαγορεύεται.\nΓια τη λειτουργία επιχείρησης προσφοράς υπηρεσιών διαδικτύου απαιτείται ειδική αδεία του δήμου η της κοινότητας στην περιφέρεια του οποίου βρίσκεται το κατάστημα και αν λειτουργεί σε πλοίο της Λιμενικής Αρχής του αφετηρίου λιμένα. Κατά την πρώτη εφαρμογή του μέτρου η επιχείρηση πρέπει να εφοδιαστεί με την αδεία αυτή εντός τριών (3) μηνών από την έναρξη ισχύος του νομού αυτού.",
    "Τίτλος: ΝΟΜΟΣ ΥΠ' ΑΡΙΘΜ. 3935\nΈτος: 2011\nΚύρωση της Συμφωνίας μεταξύ της Κυβέρνησης της Ελληνικής Δημοκρατίας και της Κυβέρνησης της Δημοκρατίας της Σερβίας σχετικά με τη συνεργασία για την πρόληψη και την καταπολέμηση του εγκλήματος και ιδιαίτερα των οργανωμένων μορφών του.\nΆρθρο δεύτερο\nΗ ισχύς του παρόντος νόμου αρχίζει από τη δημοσίευσή του στην Εφημερίδα της Κυβερνήσεως και της Συμφωνίας, που κυρώνεται από την πλήρωση των προϋ\xadποθέσεων του άρθρου 11 αυτής.\nΠαραγγέλλομε τη δημοσίευση του παρόντος στην Εφημερίδα της Κυβερνήσεως και την εκτέλεσή του ως νόμου του Κράτους.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.5922, 0.0360],
#         [0.5922, 1.0000, 0.1192],
#         [0.0360, 0.1192, 1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@3 0.938
cosine_accuracy@10 0.9706
cosine_precision@3 0.3127
cosine_precision@10 0.0971
cosine_recall@3 0.938
cosine_recall@10 0.9706
cosine_ndcg@3 0.9088
cosine_ndcg@10 0.9209
cosine_mrr@3 0.8986
cosine_mrr@10 0.9047
cosine_map@100 0.9058

Information Retrieval

Metric Value
cosine_accuracy@3 0.932
cosine_accuracy@10 0.9683
cosine_accuracy@50 0.9896
cosine_precision@10 0.0968
cosine_recall@10 0.9683
cosine_ndcg@3 0.9027
cosine_ndcg@10 0.9162
cosine_ndcg@50 0.9211
cosine_mrr@10 0.8993
cosine_map@100 0.9005

Training Details

Training Dataset

Unnamed Dataset

  • Size: 6,165,829 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 30.47 tokens
    • max: 512 tokens
    • min: 74 tokens
    • mean: 442.51 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Ίδρυσε το τουριστικό θέρετρο Porto Carras στη Σιθωνία Χαλκιδικής. Γιάννης Κ. Καρράς
    Ο Γιάννης Καρράς του Κωνσταντίνου (1907 10 Ιουνίου 1989) ήταν Έλληνας μεγαλοεφοπλιστής, εγγονός του καπετάνιου και πλοιοκτήτη Ιωάννη Ι. Καρρά (1852-1927) από τα Καρδάμυλα της Χίου και υπηρέτησε ως Πρόεδρος της Ελληνικής Επιτροπής Ναυτιλιακής Συνεργασίας (GSCC) στο Λονδίνο στα 1963-1965. Κατά τον Δεύτερο Παγκόσμιο Πόλεμο υπηρέτησε ως εθελοντής αξιωματικός στο Ελληνικό Ναυτικό και παρασημοφορήθηκε τρεις φορές. Υποστήριζε από την αρχή την έναρξη των Ποσειδωνίων, της πλέον επιτυχημένης διεθνούς ναυτιλιακής έκθεσης που πραγματοποιείται στην Ελλάδα. Ήταν επίσης συνιδρυτής της ναυτιλιακής ακαδημίας μηχανικών στη Χίο. Ο Γιάννης Καρράς πέθανε το 1989. Όλη η περιουσία πέρασε στα παιδιά του και τους λοιπούς συγγενείς.
    Ο Γιάννης Καρράς γεννήθηκε στα Καρδάμυλα της Χίου σε οικογένεια που είχε προϊστορία με τη ναυτιλία. Όταν ενηλικιώθηκε σπούδασε οικονομικά στη Λωζάνη της Ελβετίας.
    Ξεκίνησε ως διευθύνων στέλεχος στα γραφεία του Άγγελου Λούζη CBE. Ωστόσο το 1965, περίπου μετά από μια...
    Η νομολογία που αναπτύχθηκε μετά την Αναθεώρηση του 2001 ήταν απαγορευτική για τις αλλαγές στους χαρακτηρισμούς δασικών εκτάσεων. Κυρίες και κύριοι συνάδελφοι, σε αυτήν τη δεύτερη ενότητα των αναθεωρητέων άρθρων στην Ολομέλεια της Βουλής υπάρχουν άρθρα τα οποία έχουν να κάνουν με την αξιοπιστία του πολιτικού συστήματος και υπάρχουν το άρθρο 24 και το συνοδό άρθρο 117 το οποίο έχει σχέση με το περιβάλλον. Πολύ συζήτηση έγινε τόσο στην επιτροπή όσο και στην Ολομέλεια. Θα επιχειρήσω την προσέγγιση του άρθρου 24 και του συνοδού 117 με την οπτική γωνία του πολίτη, τι βλέπει σήμερα ο πολίτης και τι νιώθει στην Ελλάδα σε σχέση με την περιβαλλοντική πολιτική της πολιτείας. Ο πολίτης αισθάνεται ότι σε αυτόν τον τόπο έχουμε ισχυρούς νόμους και πολύ μεγάλες αυθαιρεσίες πάνω σε αυτούς. Ο πολίτης αισθάνεται ότι κάποτε τον άφησε η πολιτεία να συμμετέχει σε έναν οικοδομικό συνεταιρισμό, τον ηλεκτροδότησε, του χώρισε δρόμους και στη συνέχεια του απαγόρευσε –και μιλώ ιδιαίτερα για τις κατώτερες εισοδηματικές τάξεις- τη δυνατότητα απόκτησης μιας δεύτερης κατοικίας. Ο πολίτης βλέπει την πολιτεία, μετά την Αναθεώρηση του 2001 και με...
    ΣΥΡΙΖΑ, Συμβούλιο Εθνικής Ασφαλείας, κ. Καμμένος, κ. Τσίπρας Κυρίες και κύριοι συνάδελφοι, η αλήθεια είναι ότι ο κ. Τσίπρας βρίσκει τρόπους να μας εκπλήσσει. Σήμερα προσπάθησε να καλύψει με κάποιες κορώνες το κενό που αφήνει η απουσία του κ. Καμμένου από την Αίθουσα. Και με καθυστέρηση -και διορθώστε με αν κάνω λάθος- μάθαμε ότι ο ΣΥΡΙΖΑ θεωρεί ενδοτική τη συμπεριφορά της Ελλάδας το 1996. Είναι η ατζέντα των εθνικιστών σε μια καινούργια ΣΥΡΙΖΑ - ΑΝΕΛ εκδοχή. Και πραγματικά θα ήθελα να ρωτήσω τον κ. Τσίπρα τι είναι χειρότερο: Το ευχαριστώ του Σημίτη τους συμμάχους ή το ευχαριστώ του κ. Τραμπ στον Έλληνα Πρωθυπουργό για την απλοχεριά στις πολεμικές δαπάνες; Σας θυμίζω ότι ήταν 2,4 δισεκατομμύρια δολάρια η μία μόνο επίσκεψη. (Χειροκροτήματα από την πτέρυγα του Ποταμιού) Θα ξεκινήσω, λοιπόν, αναγκαστικά κι εγώ με τα μεγάλα εξωτερικά θέματα και βεβαίως θα είμαι μέσα στον κανόνα του χρόνου. Ζήτησα και χθες να κάνουμε όλοι μια προσπάθεια να διαχωρίσουμε τα μείζονα εξωτερικά θέματα από τις εσωτερικές πολιτικές συγκρούσεις. Οι ώριμοι αντίπαλοι αντιπαρατί...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 35,766 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 31.54 tokens
    • max: 78 tokens
    • min: 53 tokens
    • mean: 350.64 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Ποιες είναι οι τροποποιήσεις που επέρχονται στην παρ. 3 του άρθρου 28Γ του Κώδικα Φορολογίας Εισοδήματος; Τίτλος: ΝΟΜΟΣ ΥΠ' ΑΡΙΘΜ. 5162
    Έτος: 2024
    Μέτρα για την ενίσχυση του εισοδήματος, φορολογικά κίνητρα για την καινοτομία και τους μετασχηματισμούς επιχειρήσεων και άλλες διατάξεις.
    Άρθρο 7
    Τίτλος άρθρου: Μείωση του ελάχιστου ποσού καθαρού εισοδήματος από την άσκηση επιχειρηματικής δραστηριότητας σε μικρές δημοτικές κοινότητες - Τροποποίηση παρ. 3 άρθρου 28Γ Κώδικα Φορολογίας Εισοδήματος
    Στην παρ. 3 του άρθρου 28Γ του Κώδικα Φορολογίας Εισοδήματος (ΚΦΕ, ν. 4172/2013, Α΄ 167), περί λοιπών μειώσεων του ελάχιστου ποσού καθαρού εισοδήματος από την άσκηση επιχειρηματικής δραστηριότητας και ειδικών ρυθμίσεων, επέρχονται οι ακόλουθες τροποποιήσεις: α) οι λέξεις «σε οικισμούς με πληθυσμό μικρότερο των πεντακοσίων (500) κατοίκων ή» αριθμούνται ως περ. α), β) προστίθεται περ. β), γ) οι λέξεις «σε νησιά με πληθυσμό μικρότερο των τριών χιλιάδων εκατό (3.100) κατοίκων» αριθμούνται ως περ. γ), και η παρ. 3 διαμορφώνεται ως εξής:
    «3. Το ποσό της παρ. 2 του άρθρου 28Α μειώνεται κατά το ήμισυ (1/2) για υπ...
    Ποιος εκδίδει την απόφαση για την εκκίνηση της διαδικασίας κωδικοποίησης; Τίτλος: ΝΟΜΟΣ ΥΠ' ΑΡΙΘΜ. 4622
    Έτος: 2019
    Επιτελικό Κράτος: οργάνωση, λειτουργία και διαφάνεια της Κυβέρνησης, των κυβερνητικών οργάνων και της κεντρικής δημόσιας διοίκησης.
    Άρθρο 67
    Τίτλος άρθρου: Διαδικασία κωδικοποίησης
    1. Η διαδικασία κωδικοποίησης εκκινεί με απόφαση του Γενικού Γραμματέα Νομικών και Κοινοβουλευτικών Θεμάτων, η οποία εκδίδεται: (α) ύστερα από σχετικές εισηγήσεις των οικείων υπουργείων ή του Υπουργείου που είναι αρμόδιο για την απλούστευση των διαδικασιών και η οποία αναρτάται στο διαδίκτυο σύμφωνα με τις διατάξεις του ν. 3861/2010 (Α΄ 112), (β) ύστερα από εισήγηση της ΚΕΚ.
    2. Επιτροπές κωδικοποίησης επιτρέπεται να συστήνονται εφεξής στα καθ’ ύλην αρμόδια Υπουργεία μόνο με αιτιολογημένη απόφαση του καθ’ ύλην αρμόδιου υπουργού, ύστερα από γνώμη της ΚΕΚ. Το προηγούμενο εδάφιο δεν εφαρμόζεται στις επιτροπές κωδικοποίησης του Υπουργείου Δικαιοσύνης. Δεν αποκλείει επίσης τη διοικητική κωδικοποίηση της παραγράφου 2 του άρθρου 65 του παρόντος από τα αρμόδια Υπουργεία, υπό τ...
    Ποιες είναι οι διαστάσεις του κυκλικού πλαισίου που περιβάλλει το διακριτικό σήμα; Τίτλος: ΠΡΟΕΔΡΙΚΟ ΔΙΑΤΑΓΜΑ ΥΠ' ΑΡΙΘΜ. 213
    Έτος: 1999
    Καθιέρωση στολών επιχειρήσεων και εργασίας προσωπικού Λιμενικού Σώματος (ΛΣ) που υπηρετεί σε περιπολικά και ναυαγοσωστικά πλοία.
    Άρθρο 16
    Τίτλος άρθρου: Διακριτικό σήμα περιπολικών πλοίων.
    1. Στην αριστερή χειρίδα του υποκάμισου και στο άνω αριστερό μέρος του στήθους του επενδύτη και της φανέλας φέρεται το διακριτικό σήμα των περιπολικών πλοίων ΛΣ(σχ. 8).
    2. Το ανωτέρω σήμα απεικονίζει δύο χιαστί άγκυρες μέσα σε κύκλο με διάμετρο πεντέμισι (5,5) εκατοστόμετρα και κέντρο τη συμβολή των αγκυρών. Η εσωτερική επιφάνεια του κύκλου είναι κεντημένη με κλωστή χρώματος θαλασσί το δε περίγραμμά του, που είναι κεντημένο με κίτρινη κλωστή έχει πάχος ενάμισι (1,5) χιλιοστόμετρο.
    Οι χιαστί άγκυρες είναι κεντημένες με κίτρινη κλωστή τα δε ακρότατα σημεία τους περιέχονται σε νοητό κύκλο διαμέτρου τριάντα πέντε (35) χιλιοστόμετρων. Κάτω από τις χιαστί άγκυρες και σε απόσταση τριών (3) χιλιοστόμετρων απεικονίζεται θάλασσα σε κυματώδη κατάσταση με τρει...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • gradient_accumulation_steps: 8
  • learning_rate: 5e-06
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 8
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss test_cosine_ndcg@10 valid_cosine_ndcg@50
-1 -1 - - 0.7661 -
0.1661 2000 0.6325 0.0720 0.8773 0.8801
0.3322 4000 0.1102 0.0520 0.9004 0.9016
0.4982 6000 0.0869 0.0466 0.9079 0.9088
0.6643 8000 0.0775 0.0411 0.9086 0.9098
0.8304 10000 0.0727 0.0396 0.9108 0.9118
0.9965 12000 0.0686 0.0381 0.9141 0.9155
1.1625 14000 0.064 0.0371 0.9155 0.9161
1.3286 16000 0.0624 0.0360 0.9169 0.9176
1.4947 18000 0.0601 0.0354 0.9172 0.9179
1.6607 20000 0.059 0.0345 0.9196 0.9204
1.8268 22000 0.0586 0.0343 0.9193 0.9196
1.9929 24000 0.0573 0.0336 0.9195 0.9196
2.1589 26000 0.0551 0.0334 0.9196 0.9201
2.3250 28000 0.0546 0.0332 0.9206 0.9205
2.4911 30000 0.0546 0.0330 0.9208 0.9208
2.6572 32000 0.0545 0.0329 0.9207 0.9207
2.8232 34000 0.0542 0.0328 0.9207 0.9210
2.9893 36000 0.0546 0.0329 0.9209 0.9211
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 5.1.0
  • Transformers: 4.55.4
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
19
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for novelcore/aristotle

Finetuned
(108)
this model

Papers for novelcore/aristotle

Evaluation results