SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: bkai-foundation-models/vietnamese-bi-encoder
- Maximum Sequence Length: 256 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_vinum")
# Run inference
sentences = [
'Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi Chris_Buonocore đến năm 2018 .',
'Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những bức ảnh " nóng " cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và " khủng_bố " cô . Chúng yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ kia : " Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ " . \n Cho rằng mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox . Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14 tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . " Đây không phải là một vụ tấn_công mạng đơn_thuần " , ông nói . \n',
'Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên , các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị ở Cát_Tiên có_thể kể đến đi thuyền " săn " cá_sấu trên vùng đầm lầy Bàu_Sấu , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237 km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000 đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng , chở 10 - 15 khách . \n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.6322, 0.0179],
# [ 0.6322, 1.0000, -0.0044],
# [ 0.0179, -0.0044, 1.0000]])
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,668 training samples
- Columns:
anchorandpositive - Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 10 tokens
- mean: 25.22 tokens
- max: 78 tokens
- min: 187 tokens
- mean: 255.24 tokens
- max: 256 tokens
- Samples:
anchor positive Võ_sĩ người Việt_Nam Thạch_Kim_Tuấn , một người từng đoạt ba huy_chương vàng hạng cân 56kg .Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này .
Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg .
Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp .
Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...Việt_Nam đã vô_địch ở Arab_Saudi , khi Ngô_Sơn_Đỉnh giành cả ba HC bạc và về nhì .Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này .
Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg .
Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp .
Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...Đô cử duy_nhất của Việt_Nam_Gia_Thành vừa đoạt HC vàng SEA_Games ba kỳ liên_tiếp cũng ở hạng cân 55kg .Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này .
Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg .
Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp .
Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận... - Loss:
CachedMultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 1024, "gather_across_devices": false }
Evaluation Dataset
Unnamed Dataset
- Size: 333 evaluation samples
- Columns:
anchorandpositive - Approximate statistics based on the first 333 samples:
anchor positive type string string details - min: 11 tokens
- mean: 24.4 tokens
- max: 71 tokens
- min: 70 tokens
- mean: 252.54 tokens
- max: 256 tokens
- Samples:
anchor positive Nhật_Bản và Việt_Nam đã có cuộc tranh_đấu khi đội Nhật chiến_thắng ở 15 - 11 .Ở bán_kết , Nhật_Bản tốn sức khi phải thi_đấu năm set và thua Thái_Lan 2 - 3 . Họ cũng có ít thời_gian để nghỉ_ngơi hơn do thi_đấu sau Việt_Nam . Dù thua Trung_Quốc 0 - 3 , việc chỉ thi_đấu ba set giúp các học_trò của HLV Nguyễn_Tuấn_Kiệt phần_nào giữ được thể_lực .
Đây là một phần lý_do giúp Việt_Nam nắm ưu_thế trong nhiều thời_điểm quan_trọng ở trận tranh HC đồng chiều nay . Hai đội cũng tạo được thế_trận đôi công đẹp_mắt . Nhưng , đại_diện Đông_Á vẫn tạo được khác_biệt là khả_năng phòng_ngự hàng sau , cùng tay đập Fuyumi_Hawi .
Ở set một , Việt_Nam bị dẫn trước phần_lớn thời_gian nhưng cố_gắng bám sát để khoảng_cách không vượt quá hai điểm . Khi tỷ_số là 19 - 20 , Nhật_Bản mắc bốn sai_lầm , trong đó có ba tình_huống đập bóng ra ngoài liên_tiếp , giúp Việt_Nam dẫn 23 - 21 . Sau đó , Hoàng_Thị_Kiều_Trinh tấn_công ghi_điểm thứ 24 , trước khi Trần_Thị Thanh Thuý chắn tốt để thắng 25 - 21 .
Sang set hai , Nhật_Bản cải_thiện khả_năng đập bóng với 17 điểm tấn_công để thắng 25 - 14 . ...Dennis_Schroder , Franz_Wagner và Daniel_Theis là ba cầu_thủ có đóng_góp lớn_lao trong việc giúp Đức thắng cuộc .Kỳ World_Cup thứ hai liên_tiếp , Mỹ không_thể vào chung_kết . Đây được xem là kết_quả đáng thất_vọng với cường_quốc bóng_rổ số một thế_giới . Với việc thua Đức lần đầu sau bảy lần chạm_trán ở World_Cup và Olympic , Mỹ sẽ phải đấu trận tranh vị_trí thứ ba với Canada vào Chủ_nhật 10 / 9 . Cùng ngày , trong lần đầu_vào chung_kết , Đức sẽ gặp Serbia .
Mỹ dẫn 60 - 59 sau hai hiệp đầu , nhưng chơi mất tập_trung trong phòng_ngự và thua 24 - 35 ở hiệp ba . Dàn sao NBA với những Anthony_Edwards , Jalen_Brunson , Austin_Reaves hay Tyrese Haliburton nỗ_lực ở hiệp cuối nhưng không_thể san_lấp cách_biệt , chịu_thua 111 - 113 .
Dù không mang đến World_Cup những cầu_thủ hay nhất NBA , Mỹ vẫn được đánh_giá cao nhất giải khi những ngôi_sao kể trên cũng thuộc hàng " số má " ở giải bóng_rổ nhà_nghề Mỹ . Tuyển Đức cũng có những cầu_thủ đang thi_đấu tại NBA như Dennis_Schroder , Franz_Wagner và Daniel_Theis . Bộ ba này đều chơi tốt và góp_phần giúp Đức duy_trì thành_tích bất_bại từ đầu giải .
" Bóng_...Từ nhà chị Hằng đến trường phải mất khoảng thời_gian là gần 50 phút với phương_tiện là xuồng .Tại Hà_Nội , đường_phố nhộn_nhịp từ 6h30 khi gần 2,3 triệu học_sinh các cấp đi khai_giảng . Đây là địa_phương có số học_sinh và trường , lớp nhiều nhất cả nước .
Cổng trường Tiểu_học Yên_Nghĩa , quận Hà_Đông , được trang_hoàng rực_rỡ với cổng bóng và hoa tươi . Trịnh Minh_Khang , lớp 4A1 , đạp xe đi từ nhà lúc 6h .
" Tối qua con ngủ chập_chờn , một lúc lại thức dậy vì háo_hức . Hôm_nay con hát hai bài Tiếng trống trường em và Thầy_cô cho em ước_mơ " , Khang nói , cho biết đã cùng các bạn trong đội văn_nghệ tập_luyện cả tuần trước . Em cũng tự tay bọc sách , dán nhãn_vở , thích_thú với bộ học liệu khoa_học công_nghệ , tự tháo ra và lắp_ghép .
Ở trường THCS Trần_Duy_Hưng , quận Cầu Giấy , thầy phó hiệu_trưởng Nguyễn_Ngọc_Phúc cho biết khai_giảng bắt_đầu lúc 7h30 , trong khoảng 45 phút , tinh_thần là gọn_nhẹ .
" Sau đó , học_sinh_học tiết hai như bình_thường " , thầy Phúc nói . Trường THCS Trần_Duy_Hưng tiếp_tục đặt mục_tiêu phát_triển giáo_dục mũi_nhọn , tiên_tiến trong năm_học m... - Loss:
CachedMultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 1024, "gather_across_devices": false }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 5warmup_ratio: 0.1warmup_steps: 50fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 5max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 50log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 1.1905 | 100 | 0.5895 | - |
| 2.3810 | 200 | 0.2979 | - |
| 3.5714 | 300 | 0.1551 | 0.2772 |
| 4.7619 | 400 | 0.0906 | - |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 5.1.2
- Transformers: 4.51.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.5.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 12
Model tree for truong1301/bi_encoder_vinum
Base model
bkai-foundation-models/vietnamese-bi-encoder