EmbeddingGemma-Scandi-300m

EmbeddingGemma-Scandi-300m is finetuned on the Scandinavian (Danish, Norwegian, Swedish) text embeddings dataset from DDSC (nordic-embedding-training-data) using google/embeddinggemma-300m as the base model via the sentence-transformers framework.

It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: google/embeddinggemma-300m
Maximum Sequence Length: 2048 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- nordic-embedding-training-data
Languages: da, no, sw, sv
License: apache-2.0

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (4): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("emillykkejensen/EmbeddingGemma-Scandi-300m")
# model = SentenceTransformer("google/embeddinggemma-300m") # For comparison

# Run inference
query = "Hvad var årsagen til at Christian IVs militære felttog mod Sverige fik så katastrofale følger?"
documents = [
    "Kong Christian IVs mange byggerier, herunder Rundetårn og Børsen, kostede statskassen dyrt og førte til økonomiske problemer. Hans passion for arkitektur og storslåede monumenter var medvirkende til rigets finansielle vanskeligheder i 1600-tallet.",
    "Den Store Nordiske Krig fra 1700-1721 resulterede i Sveriges tab af mange territorier til Rusland. Karl XIIs aggressive ekspansionspolitik endte med nederlag ved Poltava i 1709, hvilket markerede begyndelsen på Sveriges decline som stormagt.",
    "Christian IV indledte Kalmarkrigen i 1611 mod Sverige, motiveret af ønsket om at genvinde kontrollen over Øresund. Selvom Danmark opnåede nogle territoriale gevinster, var konflikten kostbar og udmattende for begge lande.",
    "Kongens manglende militære erfaring og overvurdering af Danmarks styrke var afgørende faktorer i nederlagene under Torstenson-fejden. Christian IVs personlige ledelse på slagmarken viste sig katastrofal, da han ikke forstod moderne krigsførelsesteknikker og undervurderede den svenske hærs disciplin og taktiske overlegenhed.",
    "Gustav II Adolf moderniserede den svenske hær med forbedret artilleri og mobile enheder. Hans militære reformer revolutionerede europæisk krigsførelse og gav Sverige en betydelig fordel i konflikter under 1600-tallet."
]

query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.2084, 0.2748, 0.3668, 0.6182, 0.2603]]) # emillykkejensen/EmbeddingGemma-Scandi-300m
# tensor([[0.5445, 0.4533, 0.5761, 0.5408, 0.5384]]) # google/embeddinggemma-300m

Evaluation

Metrics

Information Retrieval

Datasets: nordic-embedding-eval-1kq-5kd and nordic-embedding-test-1kq-5kd
Evaluated with InformationRetrievalEvaluator

Metric	nordic-embedding-eval-1kq-5kd	nordic-embedding-test-1kq-5kd
cosine_accuracy@1	0.0155	0.0154
cosine_accuracy@3	0.0201	0.0192
cosine_accuracy@5	0.0215	0.0213
cosine_accuracy@10	0.0232	0.0233
cosine_precision@1	0.0155	0.0154
cosine_precision@3	0.0067	0.0064
cosine_precision@5	0.0043	0.0043
cosine_precision@10	0.0023	0.0023
cosine_recall@1	0.0155	0.0154
cosine_recall@3	0.0201	0.0192
cosine_recall@5	0.0215	0.0213
cosine_recall@10	0.0232	0.0233
cosine_ndcg@10	0.0193	0.0192
cosine_mrr@10	0.0181	0.0179
cosine_map@100	0.0183	0.0181

Training Details

Training Dataset

nordic-embedding-training-data

Dataset: nordic-embedding-training-data at fba903a
Size: 307,241 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 11 tokens mean: 35.64 tokens max: 98 tokens	min: 14 tokens mean: 138.73 tokens max: 604 tokens	min: 8 tokens mean: 90.42 tokens max: 434 tokens

Samples:

anchor	positive	negative
`task: search result \| query: Bruk av musikk i YouTube-videoer`	title: none \| text: Denne lisensen gjelder for alle verk som er tilgjengelige via vår nettside, www.kunstverk.no. Bruk av verkene er tillatt for ikke-kommercielle formål, inkludert bruk i private videoer på plattformer som YouTube, forutsatt at tilstrekkelig kreditering gis til Opphavsmannen. Kreditering skal minst inneholde Opphavsmannens navn og tittelen på verket. Kommersiell bruk, inkludert bruk i reklamevideoer eller andre videoer som genererer inntekter, krever uttrykkelig tillatelse fra Opphavsmannen. Uautorisert bruk kan medføre juridiske konsekvenser, inkludert erstatningsansvar.	`title: none \| text: YouTube er en populær plattform for å dele videoer. Det er viktig å respektere opphavsretten når du laster opp innhold. Bruk av musikk, bilder eller andre verk som er beskyttet av opphavsrett, krever tillatelse fra eierne. Det finnes flere ressurser online som kan hjelpe deg med å finne gratismusikk og bilder som du kan bruke lovlig i dine videoer.`
`task: search result \| query: Jeg ser etter en stilling som krever erfaring med sprogmodellering, spesielt innenfor Transformer-arkitekturen og anvendelse i naturlige språkprosesseringsapplikasjoner.`	title: none \| text: Vi er et ledende teknologiselskap som spesialiserer oss på kunstig intelligens og maskinlæring. For tiden søker vi etter en erfaren Data Scientist med solid bakgrunn i sprogmodellering, spesielt innenfor Transformer-arkitekturer som BERT og GPT. I denne rollen vil du være ansvarlig for å utvikle og implementere avanserte NLP-modeller for en rekke applikasjoner, inkludert maskinoversettelse, tekstanalyse, samtaleassistent og tekstgenerering. Du vil jobbe tett sammen med et team av dyktige forskere og ingeniører for å skape innovative løsninger som driver vår virksomhet videre. Vi forventer at du har en doktorgrad eller tilsvarende erfaring innen et relevant felt, samt god kunnskap om Python og relevante biblioteker som TensorFlow eller PyTorch.	title: none \| text: Vårt team søker en kreativ og dyktig frontend-utvikler med erfaring i React og Redux for å bli med på vår voksende plattform for e-handel. Du vil være ansvarlig for å utvikle og vedlikeholde brukergrensesnitt, optimalisere ytelsen til nettstedet vårt og samarbeide med backend-utviklere for å integrere APIer. Vi ser etter en person som er lidenskapelig opptatt av webteknologi, har gode problemløsningsferdigheter og fungerer godt i team. Erfaring med Javascript, HTML5 og CSS3 er en forutsetning.
`task: search result \| query: Hur implementerar man en databasanslutning med Python och SQLite3 för att spara användarnamn och lösenord?`	title: none \| text: SQLite3 är ett populärt val för små till medelstora projekt på grund av sin enkelhet och portabilitet. För att använda SQLite3 med Python, bör du först importera biblioteket: import sqlite3. Därefter kan du skapa en anslutning till en befintlig databas eller skapa en ny, till exempel: conn = sqlite3.connect('min_databas.db'). När du är ansluten kan du skapa en cursor-objekt för att exekvera SQL-frågor: cursor = conn.cursor(). Nu kan du göra praktiskt taget allt, från att skapa tabeller till att infoga, hämta, uppdatera och radera data. Vidare kan du använda parameterized SQL-frågor för att förebygga SQL-injektionsattacker. Kom ihåg att stänga anslutningen när du är klar: conn.close().	`title: none \| text: Python erbjuder ett brett utbud av bibliotek för olika uppgifter, inklusive dataanalys, maskininlärning och webbutveckling. Till exempel, biblioteket NumPy är kraftfullt för numeriska beräkningar, medan Pandas är utmärkt för databehandling och analys. För webbutveckling är Django och Flask populära ramverk.`

Loss: CachedMultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "mini_batch_size": 8,
    "gather_across_devices": false
}

Evaluation Dataset

nordic-embedding-training-data

Dataset: nordic-embedding-training-data at fba903a
Size: 38,405 evaluation samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 11 tokens mean: 35.31 tokens max: 128 tokens	min: 12 tokens mean: 142.24 tokens max: 675 tokens	min: 16 tokens mean: 93.11 tokens max: 430 tokens

Samples:

anchor	positive	negative
`task: search result \| query: Kan I finde en opskrift på en traditionel dansk kold Tallerken med spegepølse, kogt æg og remoulade, som er perfekt til sommerens varme dage?`	title: none \| text: Den danske sommer er kendt for sine lange, lyse dage og behagelige temperaturer. En perfekt måde at nyde det skønne vejr på er med en klassisk kold tallerken. Traditionelt set består den af kogte eller stegte kartofler, spegepølse, kogte æg (gerne i tern), rødbeder, agurk, tomat, purløg og remoulade. Man kan også tilføje andre grøntsager efter smag, såsom syltede agurker, salatblade eller cherrytomater. For at lave den perfekte kold tallerken starter man med at koge kartoflerne, indtil de er møre, og derefter afkøle dem helt. Spegepølserne skæres i tynde skiver, æggene halveres eller skæres i tern, og grøntsagerne skæres i passende stykker. Remoulade kan købes færdiglavet eller laves selv ved at blande mayonnaise, sennep, syltet agurk, kapers og hakket persille. En kold tallerken kan serveres som hovedret eller som en let frokost. Den er perfekt til fester og grill arrangementer, da den kan forberedes i forvejen og serveres koldt. Tilbehør som rugbrød og øl er og...	title: none \| text: Sommeren i Danmark byder på mange kulinariske muligheder. Ud over den traditionelle kold tallerken er der også andre retter, som er populære i varmere måneder. Smagsoplevelser som frisk fisk med nye kartofler, grillede grøntsager med pesto eller capitulo-salat med lokale bær er blot et par eksempler på, hvordan man kan nyde dansk sommermad. Mange danskere vælger også at drøne ud i den danske natur og nyde et måltid udendørs. Getterup og Vestjylland er populære destinationer, hvor man kan finde frodige enge og skovområder, der indbyder til picnic og afslapning. Den danske sommer er en fest for sanserne, med en unik kombination af natur, mad og kultur.
`task: search result \| query: Katte elsker at lege med garnnuder. De jager dem med kloge øjne og springer rundt`	`title: none \| text: Katte er mestre i at lege med garnnuder. De følger dem med skarpe øjne og hoppe rundt`	`title: none \| text: Min hund elsker at apportere bolden i parken. De løber hurtigt og kaster den tilbage til mig`
`task: search result \| query: Den røde bil kører hurtigt ned ad bakken.`	`title: none \| text: Den blå bil racer hurtigt ned ad vejen.`	`title: none \| text: En bil kører hurtigt forbi et træ.`

Loss: CachedMultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "mini_batch_size": 8,
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
learning_rate: 5e-06
num_train_epochs: 1
warmup_ratio: 0.1
fp16: True
gradient_checkpointing: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-06
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: True
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Click to expand

Epoch	Step	Training Loss	Validation Loss	nordic-embedding-eval-1kq-5kd_cosine_ndcg@10	nordic-embedding-test-1kq-5kd_cosine_ndcg@10
-1	-1	-	-	0.0080	-
0.0052	100	0.994	-	-	-
0.0104	200	0.5401	-	-	-
0.0156	300	0.3802	-	-	-
0.0208	400	0.2988	-	-	-
0.0260	500	0.277	-	-	-
0.0312	600	0.2227	-	-	-
0.0365	700	0.1988	-	-	-
0.0417	800	0.2173	-	-	-
0.0469	900	0.1994	-	-	-
0.0521	1000	0.1882	0.1893	0.0160	-
0.0573	1100	0.1794	-	-	-
0.0625	1200	0.187	-	-	-
0.0677	1300	0.1614	-	-	-
0.0729	1400	0.1572	-	-	-
0.0781	1500	0.1786	-	-	-
0.0833	1600	0.1915	-	-	-
0.0885	1700	0.1495	-	-	-
0.0937	1800	0.1693	-	-	-
0.0989	1900	0.1221	-	-	-
0.1042	2000	0.1711	0.1513	0.0166	-
0.1094	2100	0.1495	-	-	-
0.1146	2200	0.1706	-	-	-
0.1198	2300	0.1596	-	-	-
0.1250	2400	0.1695	-	-	-
0.1302	2500	0.1535	-	-	-
0.1354	2600	0.1753	-	-	-
0.1406	2700	0.1459	-	-	-
0.1458	2800	0.1344	-	-	-
0.1510	2900	0.1303	-	-	-
0.1562	3000	0.137	0.1393	0.0174	-
0.1614	3100	0.1314	-	-	-
0.1666	3200	0.1317	-	-	-
0.1718	3300	0.1279	-	-	-
0.1771	3400	0.1634	-	-	-
0.1823	3500	0.1427	-	-	-
0.1875	3600	0.1167	-	-	-
0.1927	3700	0.1407	-	-	-
0.1979	3800	0.1277	-	-	-
0.2031	3900	0.1046	-	-	-
0.2083	4000	0.1274	0.1327	0.0163	-
0.2135	4100	0.1216	-	-	-
0.2187	4200	0.1295	-	-	-
0.2239	4300	0.1235	-	-	-
0.2291	4400	0.1291	-	-	-
0.2343	4500	0.1003	-	-	-
0.2395	4600	0.1145	-	-	-
0.2448	4700	0.1162	-	-	-
0.2500	4800	0.1383	-	-	-
0.2552	4900	0.1208	-	-	-
0.2604	5000	0.1014	0.1156	0.0183	-
0.2656	5100	0.1007	-	-	-
0.2708	5200	0.1177	-	-	-
0.2760	5300	0.0924	-	-	-
0.2812	5400	0.1148	-	-	-
0.2864	5500	0.0843	-	-	-
0.2916	5600	0.0947	-	-	-
0.2968	5700	0.1113	-	-	-
0.3020	5800	0.1076	-	-	-
0.3072	5900	0.1093	-	-	-
0.3125	6000	0.0973	0.1126	0.0171	-
0.3177	6100	0.1043	-	-	-
0.3229	6200	0.1037	-	-	-
0.3281	6300	0.1077	-	-	-
0.3333	6400	0.1098	-	-	-
0.3385	6500	0.0885	-	-	-
0.3437	6600	0.1074	-	-	-
0.3489	6700	0.0975	-	-	-
0.3541	6800	0.0991	-	-	-
0.3593	6900	0.1035	-	-	-
0.3645	7000	0.1223	0.1035	0.0176	-
0.3697	7100	0.1026	-	-	-
0.3749	7200	0.1085	-	-	-
0.3801	7300	0.0986	-	-	-
0.3854	7400	0.0925	-	-	-
0.3906	7500	0.1051	-	-	-
0.3958	7600	0.0988	-	-	-
0.4010	7700	0.1115	-	-	-
0.4062	7800	0.0961	-	-	-
0.4114	7900	0.0816	-	-	-
0.4166	8000	0.1015	0.0987	0.0188	-
0.4218	8100	0.0813	-	-	-
0.4270	8200	0.0996	-	-	-
0.4322	8300	0.079	-	-	-
0.4374	8400	0.1038	-	-	-
0.4426	8500	0.0983	-	-	-
0.4478	8600	0.1044	-	-	-
0.4531	8700	0.1006	-	-	-
0.4583	8800	0.0802	-	-	-
0.4635	8900	0.1012	-	-	-
0.4687	9000	0.0792	0.0966	0.0184	-
0.4739	9100	0.1047	-	-	-
0.4791	9200	0.103	-	-	-
0.4843	9300	0.0732	-	-	-
0.4895	9400	0.0787	-	-	-
0.4947	9500	0.1118	-	-	-
0.4999	9600	0.0769	-	-	-
0.5051	9700	0.0842	-	-	-
0.5103	9800	0.1119	-	-	-
0.5155	9900	0.1035	-	-	-
0.5208	10000	0.0935	0.0901	0.0185	-
0.5260	10100	0.0835	-	-	-
0.5312	10200	0.0796	-	-	-
0.5364	10300	0.0977	-	-	-
0.5416	10400	0.0644	-	-	-
0.5468	10500	0.0944	-	-	-
0.5520	10600	0.0797	-	-	-
0.5572	10700	0.0852	-	-	-
0.5624	10800	0.0669	-	-	-
0.5676	10900	0.0761	-	-	-
0.5728	11000	0.0796	0.0924	0.0189	-
0.5780	11100	0.0995	-	-	-
0.5832	11200	0.0753	-	-	-
0.5884	11300	0.0895	-	-	-
0.5937	11400	0.0996	-	-	-
0.5989	11500	0.0864	-	-	-
0.6041	11600	0.0713	-	-	-
0.6093	11700	0.0895	-	-	-
0.6145	11800	0.0988	-	-	-
0.6197	11900	0.0775	-	-	-
0.6249	12000	0.1015	0.0851	0.0189	-
0.6301	12100	0.0786	-	-	-
0.6353	12200	0.0874	-	-	-
0.6405	12300	0.0659	-	-	-
0.6457	12400	0.0826	-	-	-
0.6509	12500	0.081	-	-	-
0.6561	12600	0.0761	-	-	-
0.6614	12700	0.0957	-	-	-
0.6666	12800	0.0767	-	-	-
0.6718	12900	0.0816	-	-	-
0.6770	13000	0.0959	0.0821	0.0184	-
0.6822	13100	0.0747	-	-	-
0.6874	13200	0.0704	-	-	-
0.6926	13300	0.0719	-	-	-
0.6978	13400	0.0964	-	-	-
0.7030	13500	0.0687	-	-	-
0.7082	13600	0.0611	-	-	-
0.7134	13700	0.0782	-	-	-
0.7186	13800	0.0924	-	-	-
0.7238	13900	0.0788	-	-	-
0.7291	14000	0.0725	0.0802	0.0189	-
0.7343	14100	0.0837	-	-	-
0.7395	14200	0.0597	-	-	-
0.7447	14300	0.0967	-	-	-
0.7499	14400	0.1048	-	-	-
0.7551	14500	0.067	-	-	-
0.7603	14600	0.0674	-	-	-
0.7655	14700	0.0727	-	-	-
0.7707	14800	0.0918	-	-	-
0.7759	14900	0.0838	-	-	-
0.7811	15000	0.0628	0.0786	0.0193	-
0.7863	15100	0.0981	-	-	-
0.7915	15200	0.0962	-	-	-
0.7968	15300	0.0841	-	-	-
0.8020	15400	0.0911	-	-	-
0.8072	15500	0.0779	-	-	-
0.8124	15600	0.07	-	-	-
0.8176	15700	0.0757	-	-	-
0.8228	15800	0.0698	-	-	-
0.8280	15900	0.0818	-	-	-
0.8332	16000	0.0693	0.0761	0.0190	-
0.8384	16100	0.0796	-	-	-
0.8436	16200	0.0641	-	-	-
0.8488	16300	0.0605	-	-	-
0.8540	16400	0.0674	-	-	-
0.8592	16500	0.0655	-	-	-
0.8644	16600	0.0702	-	-	-
0.8697	16700	0.0719	-	-	-
0.8749	16800	0.0694	-	-	-
0.8801	16900	0.0592	-	-	-
0.8853	17000	0.0839	0.0743	0.0190	-
0.8905	17100	0.0744	-	-	-
0.8957	17200	0.0734	-	-	-
0.9009	17300	0.0814	-	-	-
0.9061	17400	0.0706	-	-	-
0.9113	17500	0.0824	-	-	-
0.9165	17600	0.0493	-	-	-
0.9217	17700	0.0711	-	-	-
0.9269	17800	0.0666	-	-	-
0.9321	17900	0.0802	-	-	-
0.9374	18000	0.0635	0.0732	0.0193	-
0.9426	18100	0.0587	-	-	-
0.9478	18200	0.0854	-	-	-
0.9530	18300	0.0739	-	-	-
0.9582	18400	0.0704	-	-	-
0.9634	18500	0.07	-	-	-
0.9686	18600	0.076	-	-	-
0.9738	18700	0.0807	-	-	-
0.9790	18800	0.0777	-	-	-
0.9842	18900	0.078	-	-	-
0.9894	19000	0.074	0.0730	0.0193	-
0.9946	19100	0.0782	-	-	-
0.9998	19200	0.0579	-	-	-
-1	-1	-	-	0.0193	0.0192

Framework Versions

Python: 3.12.3
Sentence Transformers: 5.1.0
Transformers: 4.56.1
PyTorch: 2.8.0+cu128
Accelerate: 1.10.1
Datasets: 4.0.0
Tokenizers: 0.22.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

Downloads last month: 334

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for emillykkejensen/EmbeddingGemma-Scandi-300m

Base model

google/embeddinggemma-300m

Finetuned

(137)

this model

Dataset used to train emillykkejensen/EmbeddingGemma-Scandi-300m

Evaluation results

Cosine Accuracy@1 on nordic embedding eval 1kq 5kd
self-reported

0.015
Cosine Accuracy@3 on nordic embedding eval 1kq 5kd
self-reported

0.020
Cosine Accuracy@5 on nordic embedding eval 1kq 5kd
self-reported

0.022
Cosine Accuracy@10 on nordic embedding eval 1kq 5kd
self-reported

0.023
Cosine Precision@1 on nordic embedding eval 1kq 5kd
self-reported

0.015
Cosine Precision@3 on nordic embedding eval 1kq 5kd
self-reported

0.007
Cosine Precision@5 on nordic embedding eval 1kq 5kd
self-reported

0.004
Cosine Precision@10 on nordic embedding eval 1kq 5kd
self-reported

0.002
Cosine Recall@1 on nordic embedding eval 1kq 5kd
self-reported

0.015
Cosine Recall@3 on nordic embedding eval 1kq 5kd
self-reported

0.020

View on Papers With Code

anchor	positive	negative
`task: search result \| query: Bruk av musikk i YouTube-videoer`	title: none \| text: Denne lisensen gjelder for alle verk som er tilgjengelige via vår nettside, www.kunstverk.no. Bruk av verkene er tillatt for ikke-kommercielle formål, inkludert bruk i private videoer på plattformer som YouTube, forutsatt at tilstrekkelig kreditering gis til Opphavsmannen. Kreditering skal minst inneholde Opphavsmannens navn og tittelen på verket. Kommersiell bruk, inkludert bruk i reklamevideoer eller andre videoer som genererer inntekter, krever uttrykkelig tillatelse fra Opphavsmannen. Uautorisert bruk kan medføre juridiske konsekvenser, inkludert erstatningsansvar.	`title: none \| text: YouTube er en populær plattform for å dele videoer. Det er viktig å respektere opphavsretten når du laster opp innhold. Bruk av musikk, bilder eller andre verk som er beskyttet av opphavsrett, krever tillatelse fra eierne. Det finnes flere ressurser online som kan hjelpe deg med å finne gratismusikk og bilder som du kan bruke lovlig i dine videoer.`
`task: search result \| query: Jeg ser etter en stilling som krever erfaring med sprogmodellering, spesielt innenfor Transformer-arkitekturen og anvendelse i naturlige språkprosesseringsapplikasjoner.`	title: none \| text: Vi er et ledende teknologiselskap som spesialiserer oss på kunstig intelligens og maskinlæring. For tiden søker vi etter en erfaren Data Scientist med solid bakgrunn i sprogmodellering, spesielt innenfor Transformer-arkitekturer som BERT og GPT. I denne rollen vil du være ansvarlig for å utvikle og implementere avanserte NLP-modeller for en rekke applikasjoner, inkludert maskinoversettelse, tekstanalyse, samtaleassistent og tekstgenerering. Du vil jobbe tett sammen med et team av dyktige forskere og ingeniører for å skape innovative løsninger som driver vår virksomhet videre. Vi forventer at du har en doktorgrad eller tilsvarende erfaring innen et relevant felt, samt god kunnskap om Python og relevante biblioteker som TensorFlow eller PyTorch.	title: none \| text: Vårt team søker en kreativ og dyktig frontend-utvikler med erfaring i React og Redux for å bli med på vår voksende plattform for e-handel. Du vil være ansvarlig for å utvikle og vedlikeholde brukergrensesnitt, optimalisere ytelsen til nettstedet vårt og samarbeide med backend-utviklere for å integrere APIer. Vi ser etter en person som er lidenskapelig opptatt av webteknologi, har gode problemløsningsferdigheter og fungerer godt i team. Erfaring med Javascript, HTML5 og CSS3 er en forutsetning.
`task: search result \| query: Hur implementerar man en databasanslutning med Python och SQLite3 för att spara användarnamn och lösenord?`	title: none \| text: SQLite3 är ett populärt val för små till medelstora projekt på grund av sin enkelhet och portabilitet. För att använda SQLite3 med Python, bör du först importera biblioteket: import sqlite3. Därefter kan du skapa en anslutning till en befintlig databas eller skapa en ny, till exempel: conn = sqlite3.connect('min_databas.db'). När du är ansluten kan du skapa en cursor-objekt för att exekvera SQL-frågor: cursor = conn.cursor(). Nu kan du göra praktiskt taget allt, från att skapa tabeller till att infoga, hämta, uppdatera och radera data. Vidare kan du använda parameterized SQL-frågor för att förebygga SQL-injektionsattacker. Kom ihåg att stänga anslutningen när du är klar: conn.close().	`title: none \| text: Python erbjuder ett brett utbud av bibliotek för olika uppgifter, inklusive dataanalys, maskininlärning och webbutveckling. Till exempel, biblioteket NumPy är kraftfullt för numeriska beräkningar, medan Pandas är utmärkt för databehandling och analys. För webbutveckling är Django och Flask populära ramverk.`

anchor	positive	negative
`task: search result \| query: Kan I finde en opskrift på en traditionel dansk kold Tallerken med spegepølse, kogt æg og remoulade, som er perfekt til sommerens varme dage?`	title: none \| text: Den danske sommer er kendt for sine lange, lyse dage og behagelige temperaturer. En perfekt måde at nyde det skønne vejr på er med en klassisk kold tallerken. Traditionelt set består den af kogte eller stegte kartofler, spegepølse, kogte æg (gerne i tern), rødbeder, agurk, tomat, purløg og remoulade. Man kan også tilføje andre grøntsager efter smag, såsom syltede agurker, salatblade eller cherrytomater. For at lave den perfekte kold tallerken starter man med at koge kartoflerne, indtil de er møre, og derefter afkøle dem helt. Spegepølserne skæres i tynde skiver, æggene halveres eller skæres i tern, og grøntsagerne skæres i passende stykker. Remoulade kan købes færdiglavet eller laves selv ved at blande mayonnaise, sennep, syltet agurk, kapers og hakket persille. En kold tallerken kan serveres som hovedret eller som en let frokost. Den er perfekt til fester og grill arrangementer, da den kan forberedes i forvejen og serveres koldt. Tilbehør som rugbrød og øl er og...	title: none \| text: Sommeren i Danmark byder på mange kulinariske muligheder. Ud over den traditionelle kold tallerken er der også andre retter, som er populære i varmere måneder. Smagsoplevelser som frisk fisk med nye kartofler, grillede grøntsager med pesto eller capitulo-salat med lokale bær er blot et par eksempler på, hvordan man kan nyde dansk sommermad. Mange danskere vælger også at drøne ud i den danske natur og nyde et måltid udendørs. Getterup og Vestjylland er populære destinationer, hvor man kan finde frodige enge og skovområder, der indbyder til picnic og afslapning. Den danske sommer er en fest for sanserne, med en unik kombination af natur, mad og kultur.
`task: search result \| query: Katte elsker at lege med garnnuder. De jager dem med kloge øjne og springer rundt`	`title: none \| text: Katte er mestre i at lege med garnnuder. De følger dem med skarpe øjne og hoppe rundt`	`title: none \| text: Min hund elsker at apportere bolden i parken. De løber hurtigt og kaster den tilbage til mig`
`task: search result \| query: Den røde bil kører hurtigt ned ad bakken.`	`title: none \| text: Den blå bil racer hurtigt ned ad vejen.`	`title: none \| text: En bil kører hurtigt forbi et træ.`