mrm8488
/

multilingual-e5-large-ft-sts-spanish-matryoshka-768-16-5e

Sentence Similarity

sentence-transformers

feature-extraction

dataset_size:1K<n<10K

loss:MatryoshkaLoss

loss:CoSENTLoss

text-embeddings-inference

Model card Files Files and versions

mrm8488 commited on Aug 30, 2024

Commit

b0fcc7a

·

verified ·

1 Parent(s): 7e35bef

Update README.md

Files changed (1) hide show

README.md +6 -6

README.md CHANGED Viewed

@@ -572,7 +572,7 @@ model-index:
 # SentenceTransformer based on intfloat/multilingual-e5-large
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) on the clibrain/stsb_multi_es_aug_gpt3.5-turbo_2 dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
@@ -583,7 +583,7 @@ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [i
 - **Output Dimensionality:** 1024 tokens
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
-    - clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
@@ -917,9 +917,9 @@ You can finetune this model on your own dataset.
 ### Training Dataset
-#### clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
-* Dataset: clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
 * Size: 2,697 training samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples:
@@ -961,9 +961,9 @@ You can finetune this model on your own dataset.
 ### Evaluation Dataset
-#### clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
-* Dataset: clibrain/stsb_multi_es_aug_gpt3.5-turbo_2
 * Size: 697 evaluation samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples:

 # SentenceTransformer based on intfloat/multilingual-e5-large
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) on an augmented version of `stsb_multi_es` dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 - **Output Dimensionality:** 1024 tokens
 - **Similarity Function:** Cosine Similarity
 - **Training Dataset:**
+  - stsb_multi_es_aug
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
 ### Training Dataset
+#### stsb_multi_es_aug
+* Dataset: stsb_multi_es_aug
 * Size: 2,697 training samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples:
 ### Evaluation Dataset
+#### stsb_multi_es_aug
+* Dataset: stsb_multi_es_aug
 * Size: 697 evaluation samples
 * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
 * Approximate statistics based on the first 1000 samples: