--- language: - da - 'no' - sw - sv license: apache-2.0 tags: - sentence-transformers - sentence-similarity - feature-extraction - dense - generated_from_trainer - dataset_size:307241 - loss:CachedMultipleNegativesRankingLoss base_model: google/embeddinggemma-300m widget: - source_sentence: 'task: search result | query: Hvad var årsagen til at Christian IVs militære felttog mod Sverige fik så katastrofale følger?' sentences: - 'title: none | text: Kong Christian IVs mange byggerier, herunder Rundetårn og Børsen, kostede statskassen dyrt og førte til økonomiske problemer. Hans passion for arkitektur og storslåede monumenter var medvirkende til rigets finansielle vanskeligheder i 1600-tallet.' - 'title: none | text: Den Store Nordiske Krig fra 1700-1721 resulterede i Sveriges tab af mange territorier til Rusland. Karl XIIs aggressive ekspansionspolitik endte med nederlag ved Poltava i 1709, hvilket markerede begyndelsen på Sveriges decline som stormagt.' - 'title: none | text: Christian IV indledte Kalmarkrigen i 1611 mod Sverige, motiveret af ønsket om at genvinde kontrollen over Øresund. Selvom Danmark opnåede nogle territoriale gevinster, var konflikten kostbar og udmattende for begge lande.' - 'title: none | text: Kongens manglende militære erfaring og overvurdering af Danmarks styrke var afgørende faktorer i nederlagene under Torstenson-fejden. Christian IVs personlige ledelse på slagmarken viste sig katastrofal, da han ikke forstod moderne krigsførelsesteknikker og undervurderede den svenske hærs disciplin og taktiske overlegenhed.' - 'title: none | text: Gustav II Adolf moderniserede den svenske hær med forbedret artilleri og mobile enheder. Hans militære reformer revolutionerede europæisk krigsførelse og gav Sverige en betydelig fordel i konflikter under 1600-tallet.' - source_sentence: 'task: search result | query: Historikere debatterer stadig om årsagerne til den franske revolution.' sentences: - 'title: none | text: Vi erbjuder ett brett utbud av reservdelar och tillbehör till äldre Sony Ericsson-modeller. Bland annat har vi ett kraftfullt litiumjonbatteri som är speciellt utformat för Sony Ericsson K750i. Batteriet har en kapacitet på 720 mAh och är konstruerat för att ge maximal batteritid även i kyla. Dessutom är batteriet designad med hållbarhet i fokus och tåler upp till 500 laddningscykler. Med detta batteri behöver du inte oroa dig för att din gamla K750i ska dö mitt under dagen, även inte under årets mörkaste och kallaste månader. Vi rekommenderar starkt detta batteri till alla som vill förlänga batteritiden i sin K750i och få ut det mesta av sin telefon. Förutom batteriet har vi även andra tillbehör som skal, laddare och headset. Se vårt kompletta utbud på vår webbplats.' - 'title: none | text: Den danske forfatter udgav en bog om revolutionens indflydelse på europæisk kunst.' - 'title: none | text: Diskussionen om årsagerne til den franske revolutions kompleksitet fortsætter blandt historikere.' - source_sentence: 'task: search result | query: Hur påverkade den sociopolitiska laddningen av de postkoloniala rörelserna i Latinamerika under den första hälften av 20-talet den initiala utvecklingen av abstrakta expressionistiska konstformer i USA?' sentences: - 'title: none | text: Abstrakt expressionism exploderade på amerikanska konstscenen efter andra världskriget. Den nya stilen, karakteriserad av gestaltande penseldrag, spontana kompositioner och ett fokus på färgens kraft, representerade en renässans för måleriet i en tid präglad av abstrakt surrealism och kubism. Pionjärer som Jackson Pollock och Willem de Kooning bröt sig loss från konventionella bildspråk och skapade verk som utmärktes av en djupgående personlig och emotionell intensitet. Kanske kan man dra paralleller till den europeiska avantgardes rörelser och dess inflytande på amerikansk konst.' - 'title: none | text: Den Latinamerikanska konstscenen under 1920- och 30-talet präglades av en komplex samverkan mellan modernismens framväxt, inhemska identitetsUtforskningar och den pågående effekten av kolonialismens arv. Inspirerad av europeiska avantgarde-strömningar, men samtidigt kritiska till västerländska dominans, uppstod en unik stil som utmanade konventionella estetiska normer. Samtidigt påverkade den växande politiska aktivism, med rörelser som indigenismo och socialrealism, konstnärernas teman och uttryckssätt. Den abstrakta expressionismens rötter i USA kan spåras till denna period, då amerikanska konstnärer började söka efter nya former av självuttryck och konfronterade de kulturella och politiska spänningar i det moderna samhället. De var fascinerade av den Latinamerikanska konstens öppnaheretolerans och dess förmåga att kommunicera starka känslor utan att vara bunden av traditionella representationella former.' - 'title: none | text: Byens nye kunstmuseum er et arkitektonisk mesterverk med en samling av moderne kunst som fascinerer besøkende. Museet arrangerer også en rekke kurs og verksteder.' - source_sentence: 'task: search result | query: Hvor er grensene for selvforsvar når det gjelder hjerneblødning, psykisk helse og bakhold?' sentences: - 'title: none | text: Hjerneblødning kan ha mange årsaker, inkludert slag, hodetraumer og hypertensjon. Symptomer kan variere fra milde, som hodepine og svimmelhet, til alvorlige, som lammelse og talevansker. Behandling av hjerneblødning avhenger av alvorlighetsgraden og kan omhandle medisiner, kirurgi eller rehabilitering. Det er viktig å søke medisinsk hjelp umiddelbart hvis man mistenker hjerneblødning.' - 'title: none | text: Med smerter i knæene kravlede den ældre mand op ad trappen.' - 'title: none | text: Dommen i Rt. 2004 1419 omhandlet en sak der tiltalte ble dømt for drap etter å ha påført offeret, som hadde store psykiske problemer, et dødebringende slag. Tiltalte hevdet at handlingen var forsettelig selforsvar, da han fryktet for sitt eget liv på grunn av offerets aggressive oppførsel. Høyesterett fastslo at selvforsvar bare er berettigelse i akutt fare og at det må foreligge en konkret og objektiv trussel. I denne saken fant retten at tiltaltes frykt ikke var objektivt begrunnet, og at han hadde Andre muligheter for å unngå voldsbruk.' - source_sentence: 'task: search result | query: Den postmoderne tilgang til litteraturen understreger ofte teksten som et åbent system, hvor mening ikke er fastlagt af forfatteren, men snarere konstrueres i interaktionen mellem læser og tekst. ' sentences: - 'title: none | text: Naturvidenskabens fremskridt har revolutioneret vores forståelse af universet. Fra kvantemekanikken til kosmologiens dybeste mysterier, udvider videnskabelige opdagelser konstant vores horisonter. ' - 'title: none | text: Postmodernisme i litteraturen karakteriseres ofte ved afvisning af objektivitet og fastlagte betydninger. Læseren inviteres til aktivt at deltage i meningsdannelsen i dialog med den polyfone tekst. ' - 'title: none | text: Filosofisk dekonstruktion aflighed i moderniteten stiller spørgsmålstegn ved de normative rammer for sandhed.' datasets: - DDSC/nordic-embedding-training-data pipeline_tag: sentence-similarity library_name: sentence-transformers metrics: - cosine_accuracy@1 - cosine_accuracy@3 - cosine_accuracy@5 - cosine_accuracy@10 - cosine_precision@1 - cosine_precision@3 - cosine_precision@5 - cosine_precision@10 - cosine_recall@1 - cosine_recall@3 - cosine_recall@5 - cosine_recall@10 - cosine_ndcg@10 - cosine_mrr@10 - cosine_map@100 model-index: - name: EmbeddingGemma-Scandi-300m results: - task: type: information-retrieval name: Information Retrieval dataset: name: nordic embedding eval 1kq 5kd type: nordic-embedding-eval-1kq-5kd metrics: - type: cosine_accuracy@1 value: 0.015492774378336155 name: Cosine Accuracy@1 - type: cosine_accuracy@3 value: 0.020075511001171723 name: Cosine Accuracy@3 - type: cosine_accuracy@5 value: 0.02153365447207395 name: Cosine Accuracy@5 - type: cosine_accuracy@10 value: 0.023200104153105066 name: Cosine Accuracy@10 - type: cosine_precision@1 value: 0.015492774378336155 name: Cosine Precision@1 - type: cosine_precision@3 value: 0.006691837000390573 name: Cosine Precision@3 - type: cosine_precision@5 value: 0.004306730894414789 name: Cosine Precision@5 - type: cosine_precision@10 value: 0.0023200104153105064 name: Cosine Precision@10 - type: cosine_recall@1 value: 0.015492774378336155 name: Cosine Recall@1 - type: cosine_recall@3 value: 0.020075511001171723 name: Cosine Recall@3 - type: cosine_recall@5 value: 0.02153365447207395 name: Cosine Recall@5 - type: cosine_recall@10 value: 0.023200104153105066 name: Cosine Recall@10 - type: cosine_ndcg@10 value: 0.019307532487262188 name: Cosine Ndcg@10 - type: cosine_mrr@10 value: 0.01806597603238666 name: Cosine Mrr@10 - type: cosine_map@100 value: 0.018262549063546303 name: Cosine Map@100 - task: type: information-retrieval name: Information Retrieval dataset: name: nordic embedding test 1kq 5kd type: nordic-embedding-test-1kq-5kd metrics: - type: cosine_accuracy@1 value: 0.015440295787116596 name: Cosine Accuracy@1 - type: cosine_accuracy@3 value: 0.019241785137738894 name: Cosine Accuracy@3 - type: cosine_accuracy@5 value: 0.021324793001093578 name: Cosine Accuracy@5 - type: cosine_accuracy@10 value: 0.02330365047128053 name: Cosine Accuracy@10 - type: cosine_precision@1 value: 0.015440295787116596 name: Cosine Precision@1 - type: cosine_precision@3 value: 0.006413928379246298 name: Cosine Precision@3 - type: cosine_precision@5 value: 0.004264958600218715 name: Cosine Precision@5 - type: cosine_precision@10 value: 0.0023303650471280524 name: Cosine Precision@10 - type: cosine_recall@1 value: 0.015440295787116596 name: Cosine Recall@1 - type: cosine_recall@3 value: 0.019241785137738894 name: Cosine Recall@3 - type: cosine_recall@5 value: 0.021324793001093578 name: Cosine Recall@5 - type: cosine_recall@10 value: 0.02330365047128053 name: Cosine Recall@10 - type: cosine_ndcg@10 value: 0.019172284555172784 name: Cosine Ndcg@10 - type: cosine_mrr@10 value: 0.01787439793220141 name: Cosine Mrr@10 - type: cosine_map@100 value: 0.01805606864229168 name: Cosine Map@100 --- # EmbeddingGemma-Scandi-300m EmbeddingGemma-Scandi-300m is finetuned on the Scandinavian (Danish, Norwegian, Swedish) text embeddings dataset from [DDSC](https://huggingface.co/DDSC) ([nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data)) using [google/embeddinggemma-300m](https://huggingface.co/google/embeddinggemma-300m) as the base model via the [sentence-transformers](https://www.SBERT.net) framework. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [google/embeddinggemma-300m](https://huggingface.co/google/embeddinggemma-300m) - **Maximum Sequence Length:** 2048 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity - **Training Dataset:** - [nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) - **Languages:** da, no, sw, sv - **License:** apache-2.0 ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'}) (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'}) (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'}) (4): Normalize() ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("emillykkejensen/EmbeddingGemma-Scandi-300m") # model = SentenceTransformer("google/embeddinggemma-300m") # For comparison # Run inference query = "Hvad var årsagen til at Christian IVs militære felttog mod Sverige fik så katastrofale følger?" documents = [ "Kong Christian IVs mange byggerier, herunder Rundetårn og Børsen, kostede statskassen dyrt og førte til økonomiske problemer. Hans passion for arkitektur og storslåede monumenter var medvirkende til rigets finansielle vanskeligheder i 1600-tallet.", "Den Store Nordiske Krig fra 1700-1721 resulterede i Sveriges tab af mange territorier til Rusland. Karl XIIs aggressive ekspansionspolitik endte med nederlag ved Poltava i 1709, hvilket markerede begyndelsen på Sveriges decline som stormagt.", "Christian IV indledte Kalmarkrigen i 1611 mod Sverige, motiveret af ønsket om at genvinde kontrollen over Øresund. Selvom Danmark opnåede nogle territoriale gevinster, var konflikten kostbar og udmattende for begge lande.", "Kongens manglende militære erfaring og overvurdering af Danmarks styrke var afgørende faktorer i nederlagene under Torstenson-fejden. Christian IVs personlige ledelse på slagmarken viste sig katastrofal, da han ikke forstod moderne krigsførelsesteknikker og undervurderede den svenske hærs disciplin og taktiske overlegenhed.", "Gustav II Adolf moderniserede den svenske hær med forbedret artilleri og mobile enheder. Hans militære reformer revolutionerede europæisk krigsførelse og gav Sverige en betydelig fordel i konflikter under 1600-tallet." ] query_embeddings = model.encode_query(queries) document_embeddings = model.encode_document(documents) # Get the similarity scores for the embeddings similarities = model.similarity(query_embeddings, document_embeddings) print(similarities) # tensor([[0.2084, 0.2748, 0.3668, 0.6182, 0.2603]]) # emillykkejensen/EmbeddingGemma-Scandi-300m # tensor([[0.5445, 0.4533, 0.5761, 0.5408, 0.5384]]) # google/embeddinggemma-300m ``` ## Evaluation ### Metrics #### Information Retrieval * Datasets: `nordic-embedding-eval-1kq-5kd` and `nordic-embedding-test-1kq-5kd` * Evaluated with [InformationRetrievalEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) | Metric | nordic-embedding-eval-1kq-5kd | nordic-embedding-test-1kq-5kd | |:--------------------|:------------------------------|:------------------------------| | cosine_accuracy@1 | 0.0155 | 0.0154 | | cosine_accuracy@3 | 0.0201 | 0.0192 | | cosine_accuracy@5 | 0.0215 | 0.0213 | | cosine_accuracy@10 | 0.0232 | 0.0233 | | cosine_precision@1 | 0.0155 | 0.0154 | | cosine_precision@3 | 0.0067 | 0.0064 | | cosine_precision@5 | 0.0043 | 0.0043 | | cosine_precision@10 | 0.0023 | 0.0023 | | cosine_recall@1 | 0.0155 | 0.0154 | | cosine_recall@3 | 0.0201 | 0.0192 | | cosine_recall@5 | 0.0215 | 0.0213 | | cosine_recall@10 | 0.0232 | 0.0233 | | **cosine_ndcg@10** | **0.0193** | **0.0192** | | cosine_mrr@10 | 0.0181 | 0.0179 | | cosine_map@100 | 0.0183 | 0.0181 | ## Training Details ### Training Dataset #### nordic-embedding-training-data * Dataset: [nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) at [fba903a](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data/tree/fba903a3f0369fa1a239aab9993c735b0f3d6e12) * Size: 307,241 training samples * Columns: anchor, positive, and negative * Approximate statistics based on the first 1000 samples: | | anchor | positive | negative | |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| | type | string | string | string | | details | | | | * Samples: | anchor | positive | negative | |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | task: search result \| query: Bruk av musikk i YouTube-videoer | title: none \| text: Denne lisensen gjelder for alle verk som er tilgjengelige via vår nettside, www.kunstverk.no. Bruk av verkene er tillatt for ikke-kommercielle formål, inkludert bruk i private videoer på plattformer som YouTube, forutsatt at tilstrekkelig kreditering gis til Opphavsmannen. Kreditering skal minst inneholde Opphavsmannens navn og tittelen på verket. Kommersiell bruk, inkludert bruk i reklamevideoer eller andre videoer som genererer inntekter, krever uttrykkelig tillatelse fra Opphavsmannen. Uautorisert bruk kan medføre juridiske konsekvenser, inkludert erstatningsansvar. | title: none \| text: YouTube er en populær plattform for å dele videoer. Det er viktig å respektere opphavsretten når du laster opp innhold. Bruk av musikk, bilder eller andre verk som er beskyttet av opphavsrett, krever tillatelse fra eierne. Det finnes flere ressurser online som kan hjelpe deg med å finne gratismusikk og bilder som du kan bruke lovlig i dine videoer. | | task: search result \| query: Jeg ser etter en stilling som krever erfaring med sprogmodellering, spesielt innenfor Transformer-arkitekturen og anvendelse i naturlige språkprosesseringsapplikasjoner. | title: none \| text: Vi er et ledende teknologiselskap som spesialiserer oss på kunstig intelligens og maskinlæring. For tiden søker vi etter en erfaren Data Scientist med solid bakgrunn i sprogmodellering, spesielt innenfor Transformer-arkitekturer som BERT og GPT. I denne rollen vil du være ansvarlig for å utvikle og implementere avanserte NLP-modeller for en rekke applikasjoner, inkludert maskinoversettelse, tekstanalyse, samtaleassistent og tekstgenerering. Du vil jobbe tett sammen med et team av dyktige forskere og ingeniører for å skape innovative løsninger som driver vår virksomhet videre. Vi forventer at du har en doktorgrad eller tilsvarende erfaring innen et relevant felt, samt god kunnskap om Python og relevante biblioteker som TensorFlow eller PyTorch. | title: none \| text: Vårt team søker en kreativ og dyktig frontend-utvikler med erfaring i React og Redux for å bli med på vår voksende plattform for e-handel. Du vil være ansvarlig for å utvikle og vedlikeholde brukergrensesnitt, optimalisere ytelsen til nettstedet vårt og samarbeide med backend-utviklere for å integrere APIer. Vi ser etter en person som er lidenskapelig opptatt av webteknologi, har gode problemløsningsferdigheter og fungerer godt i team. Erfaring med Javascript, HTML5 og CSS3 er en forutsetning. | | task: search result \| query: Hur implementerar man en databasanslutning med Python och SQLite3 för att spara användarnamn och lösenord? | title: none \| text: SQLite3 är ett populärt val för små till medelstora projekt på grund av sin enkelhet och portabilitet. För att använda SQLite3 med Python, bör du först importera biblioteket: `import sqlite3`. Därefter kan du skapa en anslutning till en befintlig databas eller skapa en ny, till exempel: `conn = sqlite3.connect('min_databas.db')`. När du är ansluten kan du skapa en cursor-objekt för att exekvera SQL-frågor: `cursor = conn.cursor()`. Nu kan du göra praktiskt taget allt, från att skapa tabeller till att infoga, hämta, uppdatera och radera data. Vidare kan du använda parameterized SQL-frågor för att förebygga SQL-injektionsattacker. Kom ihåg att stänga anslutningen när du är klar: `conn.close()`. | title: none \| text: Python erbjuder ett brett utbud av bibliotek för olika uppgifter, inklusive dataanalys, maskininlärning och webbutveckling. Till exempel, biblioteket NumPy är kraftfullt för numeriska beräkningar, medan Pandas är utmärkt för databehandling och analys. För webbutveckling är Django och Flask populära ramverk. | * Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 8, "gather_across_devices": false } ``` ### Evaluation Dataset #### nordic-embedding-training-data * Dataset: [nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) at [fba903a](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data/tree/fba903a3f0369fa1a239aab9993c735b0f3d6e12) * Size: 38,405 evaluation samples * Columns: anchor, positive, and negative * Approximate statistics based on the first 1000 samples: | | anchor | positive | negative | |:--------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------| | type | string | string | string | | details | | | | * Samples: | anchor | positive | negative | |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | task: search result \| query: Kan I finde en opskrift på en traditionel dansk kold Tallerken med spegepølse, kogt æg og remoulade, som er perfekt til sommerens varme dage? | title: none \| text: Den danske sommer er kendt for sine lange, lyse dage og behagelige temperaturer. En perfekt måde at nyde det skønne vejr på er med en klassisk kold tallerken. Traditionelt set består den af kogte eller stegte kartofler, spegepølse, kogte æg (gerne i tern), rødbeder, agurk, tomat, purløg og remoulade. Man kan også tilføje andre grøntsager efter smag, såsom syltede agurker, salatblade eller cherrytomater. For at lave den perfekte kold tallerken starter man med at koge kartoflerne, indtil de er møre, og derefter afkøle dem helt. Spegepølserne skæres i tynde skiver, æggene halveres eller skæres i tern, og grøntsagerne skæres i passende stykker. Remoulade kan købes færdiglavet eller laves selv ved at blande mayonnaise, sennep, syltet agurk, kapers og hakket persille. En kold tallerken kan serveres som hovedret eller som en let frokost. Den er perfekt til fester og grill arrangementer, da den kan forberedes i forvejen og serveres koldt. Tilbehør som rugbrød og øl er og... | title: none \| text: Sommeren i Danmark byder på mange kulinariske muligheder. Ud over den traditionelle kold tallerken er der også andre retter, som er populære i varmere måneder. Smagsoplevelser som frisk fisk med nye kartofler, grillede grøntsager med pesto eller capitulo-salat med lokale bær er blot et par eksempler på, hvordan man kan nyde dansk sommermad. Mange danskere vælger også at drøne ud i den danske natur og nyde et måltid udendørs. Getterup og Vestjylland er populære destinationer, hvor man kan finde frodige enge og skovområder, der indbyder til picnic og afslapning. Den danske sommer er en fest for sanserne, med en unik kombination af natur, mad og kultur. | | task: search result \| query: Katte elsker at lege med garnnuder. De jager dem med kloge øjne og springer rundt | title: none \| text: Katte er mestre i at lege med garnnuder. De følger dem med skarpe øjne og hoppe rundt | title: none \| text: Min hund elsker at apportere bolden i parken. De løber hurtigt og kaster den tilbage til mig | | task: search result \| query: Den røde bil kører hurtigt ned ad bakken. | title: none \| text: Den blå bil racer hurtigt ned ad vejen. | title: none \| text: En bil kører hurtigt forbi et træ. | * Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 8, "gather_across_devices": false } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: steps - `per_device_train_batch_size`: 16 - `per_device_eval_batch_size`: 16 - `learning_rate`: 5e-06 - `num_train_epochs`: 1 - `warmup_ratio`: 0.1 - `fp16`: True - `gradient_checkpointing`: True - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: steps - `prediction_loss_only`: True - `per_device_train_batch_size`: 16 - `per_device_eval_batch_size`: 16 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 5e-06 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 1 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.1 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: True - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `parallelism_config`: None - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch_fused - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: None - `hub_always_push`: False - `hub_revision`: None - `gradient_checkpointing`: True - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `include_for_metrics`: [] - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `liger_kernel_config`: None - `eval_use_gather_object`: False - `average_tokens_across_devices`: False - `prompts`: None - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional - `router_mapping`: {} - `learning_rate_mapping`: {}
### Training Logs
Click to expand | Epoch | Step | Training Loss | Validation Loss | nordic-embedding-eval-1kq-5kd_cosine_ndcg@10 | nordic-embedding-test-1kq-5kd_cosine_ndcg@10 | |:------:|:-----:|:-------------:|:---------------:|:--------------------------------------------:|:--------------------------------------------:| | -1 | -1 | - | - | 0.0080 | - | | 0.0052 | 100 | 0.994 | - | - | - | | 0.0104 | 200 | 0.5401 | - | - | - | | 0.0156 | 300 | 0.3802 | - | - | - | | 0.0208 | 400 | 0.2988 | - | - | - | | 0.0260 | 500 | 0.277 | - | - | - | | 0.0312 | 600 | 0.2227 | - | - | - | | 0.0365 | 700 | 0.1988 | - | - | - | | 0.0417 | 800 | 0.2173 | - | - | - | | 0.0469 | 900 | 0.1994 | - | - | - | | 0.0521 | 1000 | 0.1882 | 0.1893 | 0.0160 | - | | 0.0573 | 1100 | 0.1794 | - | - | - | | 0.0625 | 1200 | 0.187 | - | - | - | | 0.0677 | 1300 | 0.1614 | - | - | - | | 0.0729 | 1400 | 0.1572 | - | - | - | | 0.0781 | 1500 | 0.1786 | - | - | - | | 0.0833 | 1600 | 0.1915 | - | - | - | | 0.0885 | 1700 | 0.1495 | - | - | - | | 0.0937 | 1800 | 0.1693 | - | - | - | | 0.0989 | 1900 | 0.1221 | - | - | - | | 0.1042 | 2000 | 0.1711 | 0.1513 | 0.0166 | - | | 0.1094 | 2100 | 0.1495 | - | - | - | | 0.1146 | 2200 | 0.1706 | - | - | - | | 0.1198 | 2300 | 0.1596 | - | - | - | | 0.1250 | 2400 | 0.1695 | - | - | - | | 0.1302 | 2500 | 0.1535 | - | - | - | | 0.1354 | 2600 | 0.1753 | - | - | - | | 0.1406 | 2700 | 0.1459 | - | - | - | | 0.1458 | 2800 | 0.1344 | - | - | - | | 0.1510 | 2900 | 0.1303 | - | - | - | | 0.1562 | 3000 | 0.137 | 0.1393 | 0.0174 | - | | 0.1614 | 3100 | 0.1314 | - | - | - | | 0.1666 | 3200 | 0.1317 | - | - | - | | 0.1718 | 3300 | 0.1279 | - | - | - | | 0.1771 | 3400 | 0.1634 | - | - | - | | 0.1823 | 3500 | 0.1427 | - | - | - | | 0.1875 | 3600 | 0.1167 | - | - | - | | 0.1927 | 3700 | 0.1407 | - | - | - | | 0.1979 | 3800 | 0.1277 | - | - | - | | 0.2031 | 3900 | 0.1046 | - | - | - | | 0.2083 | 4000 | 0.1274 | 0.1327 | 0.0163 | - | | 0.2135 | 4100 | 0.1216 | - | - | - | | 0.2187 | 4200 | 0.1295 | - | - | - | | 0.2239 | 4300 | 0.1235 | - | - | - | | 0.2291 | 4400 | 0.1291 | - | - | - | | 0.2343 | 4500 | 0.1003 | - | - | - | | 0.2395 | 4600 | 0.1145 | - | - | - | | 0.2448 | 4700 | 0.1162 | - | - | - | | 0.2500 | 4800 | 0.1383 | - | - | - | | 0.2552 | 4900 | 0.1208 | - | - | - | | 0.2604 | 5000 | 0.1014 | 0.1156 | 0.0183 | - | | 0.2656 | 5100 | 0.1007 | - | - | - | | 0.2708 | 5200 | 0.1177 | - | - | - | | 0.2760 | 5300 | 0.0924 | - | - | - | | 0.2812 | 5400 | 0.1148 | - | - | - | | 0.2864 | 5500 | 0.0843 | - | - | - | | 0.2916 | 5600 | 0.0947 | - | - | - | | 0.2968 | 5700 | 0.1113 | - | - | - | | 0.3020 | 5800 | 0.1076 | - | - | - | | 0.3072 | 5900 | 0.1093 | - | - | - | | 0.3125 | 6000 | 0.0973 | 0.1126 | 0.0171 | - | | 0.3177 | 6100 | 0.1043 | - | - | - | | 0.3229 | 6200 | 0.1037 | - | - | - | | 0.3281 | 6300 | 0.1077 | - | - | - | | 0.3333 | 6400 | 0.1098 | - | - | - | | 0.3385 | 6500 | 0.0885 | - | - | - | | 0.3437 | 6600 | 0.1074 | - | - | - | | 0.3489 | 6700 | 0.0975 | - | - | - | | 0.3541 | 6800 | 0.0991 | - | - | - | | 0.3593 | 6900 | 0.1035 | - | - | - | | 0.3645 | 7000 | 0.1223 | 0.1035 | 0.0176 | - | | 0.3697 | 7100 | 0.1026 | - | - | - | | 0.3749 | 7200 | 0.1085 | - | - | - | | 0.3801 | 7300 | 0.0986 | - | - | - | | 0.3854 | 7400 | 0.0925 | - | - | - | | 0.3906 | 7500 | 0.1051 | - | - | - | | 0.3958 | 7600 | 0.0988 | - | - | - | | 0.4010 | 7700 | 0.1115 | - | - | - | | 0.4062 | 7800 | 0.0961 | - | - | - | | 0.4114 | 7900 | 0.0816 | - | - | - | | 0.4166 | 8000 | 0.1015 | 0.0987 | 0.0188 | - | | 0.4218 | 8100 | 0.0813 | - | - | - | | 0.4270 | 8200 | 0.0996 | - | - | - | | 0.4322 | 8300 | 0.079 | - | - | - | | 0.4374 | 8400 | 0.1038 | - | - | - | | 0.4426 | 8500 | 0.0983 | - | - | - | | 0.4478 | 8600 | 0.1044 | - | - | - | | 0.4531 | 8700 | 0.1006 | - | - | - | | 0.4583 | 8800 | 0.0802 | - | - | - | | 0.4635 | 8900 | 0.1012 | - | - | - | | 0.4687 | 9000 | 0.0792 | 0.0966 | 0.0184 | - | | 0.4739 | 9100 | 0.1047 | - | - | - | | 0.4791 | 9200 | 0.103 | - | - | - | | 0.4843 | 9300 | 0.0732 | - | - | - | | 0.4895 | 9400 | 0.0787 | - | - | - | | 0.4947 | 9500 | 0.1118 | - | - | - | | 0.4999 | 9600 | 0.0769 | - | - | - | | 0.5051 | 9700 | 0.0842 | - | - | - | | 0.5103 | 9800 | 0.1119 | - | - | - | | 0.5155 | 9900 | 0.1035 | - | - | - | | 0.5208 | 10000 | 0.0935 | 0.0901 | 0.0185 | - | | 0.5260 | 10100 | 0.0835 | - | - | - | | 0.5312 | 10200 | 0.0796 | - | - | - | | 0.5364 | 10300 | 0.0977 | - | - | - | | 0.5416 | 10400 | 0.0644 | - | - | - | | 0.5468 | 10500 | 0.0944 | - | - | - | | 0.5520 | 10600 | 0.0797 | - | - | - | | 0.5572 | 10700 | 0.0852 | - | - | - | | 0.5624 | 10800 | 0.0669 | - | - | - | | 0.5676 | 10900 | 0.0761 | - | - | - | | 0.5728 | 11000 | 0.0796 | 0.0924 | 0.0189 | - | | 0.5780 | 11100 | 0.0995 | - | - | - | | 0.5832 | 11200 | 0.0753 | - | - | - | | 0.5884 | 11300 | 0.0895 | - | - | - | | 0.5937 | 11400 | 0.0996 | - | - | - | | 0.5989 | 11500 | 0.0864 | - | - | - | | 0.6041 | 11600 | 0.0713 | - | - | - | | 0.6093 | 11700 | 0.0895 | - | - | - | | 0.6145 | 11800 | 0.0988 | - | - | - | | 0.6197 | 11900 | 0.0775 | - | - | - | | 0.6249 | 12000 | 0.1015 | 0.0851 | 0.0189 | - | | 0.6301 | 12100 | 0.0786 | - | - | - | | 0.6353 | 12200 | 0.0874 | - | - | - | | 0.6405 | 12300 | 0.0659 | - | - | - | | 0.6457 | 12400 | 0.0826 | - | - | - | | 0.6509 | 12500 | 0.081 | - | - | - | | 0.6561 | 12600 | 0.0761 | - | - | - | | 0.6614 | 12700 | 0.0957 | - | - | - | | 0.6666 | 12800 | 0.0767 | - | - | - | | 0.6718 | 12900 | 0.0816 | - | - | - | | 0.6770 | 13000 | 0.0959 | 0.0821 | 0.0184 | - | | 0.6822 | 13100 | 0.0747 | - | - | - | | 0.6874 | 13200 | 0.0704 | - | - | - | | 0.6926 | 13300 | 0.0719 | - | - | - | | 0.6978 | 13400 | 0.0964 | - | - | - | | 0.7030 | 13500 | 0.0687 | - | - | - | | 0.7082 | 13600 | 0.0611 | - | - | - | | 0.7134 | 13700 | 0.0782 | - | - | - | | 0.7186 | 13800 | 0.0924 | - | - | - | | 0.7238 | 13900 | 0.0788 | - | - | - | | 0.7291 | 14000 | 0.0725 | 0.0802 | 0.0189 | - | | 0.7343 | 14100 | 0.0837 | - | - | - | | 0.7395 | 14200 | 0.0597 | - | - | - | | 0.7447 | 14300 | 0.0967 | - | - | - | | 0.7499 | 14400 | 0.1048 | - | - | - | | 0.7551 | 14500 | 0.067 | - | - | - | | 0.7603 | 14600 | 0.0674 | - | - | - | | 0.7655 | 14700 | 0.0727 | - | - | - | | 0.7707 | 14800 | 0.0918 | - | - | - | | 0.7759 | 14900 | 0.0838 | - | - | - | | 0.7811 | 15000 | 0.0628 | 0.0786 | 0.0193 | - | | 0.7863 | 15100 | 0.0981 | - | - | - | | 0.7915 | 15200 | 0.0962 | - | - | - | | 0.7968 | 15300 | 0.0841 | - | - | - | | 0.8020 | 15400 | 0.0911 | - | - | - | | 0.8072 | 15500 | 0.0779 | - | - | - | | 0.8124 | 15600 | 0.07 | - | - | - | | 0.8176 | 15700 | 0.0757 | - | - | - | | 0.8228 | 15800 | 0.0698 | - | - | - | | 0.8280 | 15900 | 0.0818 | - | - | - | | 0.8332 | 16000 | 0.0693 | 0.0761 | 0.0190 | - | | 0.8384 | 16100 | 0.0796 | - | - | - | | 0.8436 | 16200 | 0.0641 | - | - | - | | 0.8488 | 16300 | 0.0605 | - | - | - | | 0.8540 | 16400 | 0.0674 | - | - | - | | 0.8592 | 16500 | 0.0655 | - | - | - | | 0.8644 | 16600 | 0.0702 | - | - | - | | 0.8697 | 16700 | 0.0719 | - | - | - | | 0.8749 | 16800 | 0.0694 | - | - | - | | 0.8801 | 16900 | 0.0592 | - | - | - | | 0.8853 | 17000 | 0.0839 | 0.0743 | 0.0190 | - | | 0.8905 | 17100 | 0.0744 | - | - | - | | 0.8957 | 17200 | 0.0734 | - | - | - | | 0.9009 | 17300 | 0.0814 | - | - | - | | 0.9061 | 17400 | 0.0706 | - | - | - | | 0.9113 | 17500 | 0.0824 | - | - | - | | 0.9165 | 17600 | 0.0493 | - | - | - | | 0.9217 | 17700 | 0.0711 | - | - | - | | 0.9269 | 17800 | 0.0666 | - | - | - | | 0.9321 | 17900 | 0.0802 | - | - | - | | 0.9374 | 18000 | 0.0635 | 0.0732 | 0.0193 | - | | 0.9426 | 18100 | 0.0587 | - | - | - | | 0.9478 | 18200 | 0.0854 | - | - | - | | 0.9530 | 18300 | 0.0739 | - | - | - | | 0.9582 | 18400 | 0.0704 | - | - | - | | 0.9634 | 18500 | 0.07 | - | - | - | | 0.9686 | 18600 | 0.076 | - | - | - | | 0.9738 | 18700 | 0.0807 | - | - | - | | 0.9790 | 18800 | 0.0777 | - | - | - | | 0.9842 | 18900 | 0.078 | - | - | - | | 0.9894 | 19000 | 0.074 | 0.0730 | 0.0193 | - | | 0.9946 | 19100 | 0.0782 | - | - | - | | 0.9998 | 19200 | 0.0579 | - | - | - | | -1 | -1 | - | - | 0.0193 | 0.0192 |
### Framework Versions - Python: 3.12.3 - Sentence Transformers: 5.1.0 - Transformers: 4.56.1 - PyTorch: 2.8.0+cu128 - Accelerate: 1.10.1 - Datasets: 4.0.0 - Tokenizers: 0.22.0 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### CachedMultipleNegativesRankingLoss ```bibtex @misc{gao2021scaling, title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan}, year={2021}, eprint={2101.06983}, archivePrefix={arXiv}, primaryClass={cs.LG} } ```