Marqo
/

marqo-chimera-arctic-bge-m

Feature Extraction

marqo-chimera-arctic-bge-m

Model card Files Files and versions

OwenElliott commited on Sep 6, 2024

Commit

6a6a2dd

·

verified ·

1 Parent(s): 6353c49

Update README.md

Files changed (1) hide show

README.md +65 -3

README.md CHANGED Viewed

@@ -1,3 +1,65 @@
----
-license: mit
----

+---
+license: mit
+---
+# Marqo Chimera Arctic bge M
+This is a chimera model which concatenates embeddings from [Snowflake/snowflake-arctic-embed-m-v1.5](https://huggingface.co/Snowflake/snowflake-arctic-embed-m-v1.5) and [BAAI/bge-base-en-v1.5](https://huggingface.co/BAAI/bge-base-en-v1.5). This model produces an embedding with 1536 dimensions (768+768) and has a total of 218M parameters (109+109).
+## Usage
+```python
+import torch
+from torch.nn.functional import normalize
+from transformers import AutoModel, AutoTokenizer
+# Load the model and tokenizer.
+tokenizer = AutoTokenizer.from_pretrained("Marqo/marqo-chimera-arctic-bge-m")
+model = AutoModel.from_pretrained("Marqo/marqo-chimera-arctic-bge-m", trust_remote_code=True)
+model.eval()
+# Model constants.
+query_prefix = 'Represent this sentence for searching relevant passages: '
+# Your queries and docs.
+queries  = ['what is snowflake?', 'Where can I get the best tacos?']
+documents = ['The Data Cloud!', 'Mexico City of Course!']
+# Add query prefix and tokenize queries and docs.
+queries_with_prefix = [f"{query_prefix}{q}" for q in queries]
+query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=512)
+document_tokens =  tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=512)
+# Use the model to generate text embeddings.
+with torch.inference_mode():
+    query_embeddings = model(**query_tokens)
+    document_embeddings = model(**document_tokens)
+# Remember to normalize embeddings.
+query_embeddings = normalize(query_embeddings)
+document_embeddings = normalize(document_embeddings)
+# Scores via dotproduct.
+scores = query_embeddings @ document_embeddings.T
+# Pretty-print the results.
+for query, query_scores in zip(queries, scores):
+    doc_score_pairs = list(zip(documents, query_scores))
+    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
+    print(f'Query: "{query}"')
+    for document, score in doc_score_pairs:
+        print(f'Score: {score:.4f} | Document: "{document}"')
+    print()
+#### OUTPUT ####
+# Query: "what is snowflake?"
+# Score: 0.3025 | Document: "The Data Cloud!"
+# Score: 0.2297 | Document: "Mexico City of Course!"
+# Query: "Where can I get the best tacos?"
+# Score: 0.4512 | Document: "Mexico City of Course!"
+# Score: 0.2336 | Document: "The Data Cloud!"
+```