SentenceTransformer based on dangvantuan/vietnamese-document-embedding

This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding on the qqp_triplet dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'VietnameseModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("KietRiu/vietnamese-document-embedding_FT_QQP")
# Run inference
sentences = [
    'Antivirus có phục hồi được các tập tin đã xóa không?',
    'Làm thế nào phần mềm chống vi-rút phục hồi các tập tin đã xóa?',
    'Làm cách nào để khôi phục các tập tin bị xóa vĩnh viễn?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9915, 0.7706],
#         [0.9915, 1.0000, 0.8112],
#         [0.7706, 0.8112, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.6685

Training Details

Training Dataset

qqp_triplet

  • Dataset: qqp_triplet at a48ebfe
  • Size: 81,409 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 17.34 tokens
    • max: 50 tokens
    • min: 7 tokens
    • mean: 17.34 tokens
    • max: 50 tokens
    • min: 7 tokens
    • mean: 18.08 tokens
    • max: 66 tokens
  • Samples:
    anchor positive negative
    Donald Trump mong đợi Mexico trả tiền cho bức tường biên giới do ông đề xuất như thế nào? Làm thế nào Donald Trump có thể khiến Mexico trả tiền cho bức tường biên giới? Điều gì sẽ xảy ra nếu bức tường của Trump hoàn toàn không phải là bức tường vật lý? Ông ấy nói Mexico sẽ trả tiền. Một số biện pháp ngăn chặn tài chính mà Mỹ có thể áp đặt là gì? Có thể được không?
    Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm phương Tây là gì? Sự khác biệt giữa thực phẩm phương Tây và Trung Quốc là gì? Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm Nhật Bản là gì?
    Làm cách nào tôi có thể đặt câu hỏi cho một người cụ thể trên Quora ngoài những câu hỏi được đề xuất? Tôi muốn đặt câu hỏi cho một người cụ thể trên Quora, tôi phải làm gì? Câu hỏi nào bạn có thể hỏi ai đó sẽ khơi dậy cuộc trò chuyện sâu sắc và thú vị?
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 0.7
    }
    

Evaluation Dataset

qqp_triplet

  • Dataset: qqp_triplet at a48ebfe
  • Size: 20,353 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 6 tokens
    • mean: 17.65 tokens
    • max: 56 tokens
    • min: 6 tokens
    • mean: 17.49 tokens
    • max: 53 tokens
    • min: 6 tokens
    • mean: 18.61 tokens
    • max: 78 tokens
  • Samples:
    anchor positive negative
    Có trang web nào khác tương tự như Quora không? Trang web tương tự như Quora là gì? Quora có phải là một công cụ tìm kiếm (hơn một số loại trang web khác) không?
    Hanuman Chalisa có thực sự hiệu quả hay chỉ đơn thuần là một hệ thống niềm tin? Việc đọc và nói Hanuman Chalisa đối với tất cả những người theo đạo Hindu có hiệu quả đến mức nào? Tại sao chúng ta nên đọc Hanuman chalisa? Kết quả của nó là gì?
    Mục đích thực sự của cuộc sống là gì? Mục đích cuộc sống của bạn nên là gì? Chúng ta có thực sự có mục đích nào đó trong cuộc sống không? Hay chúng ta tạo ra một mục đích để khiến bản thân cảm thấy mình có ý nghĩa trong thế giới vô cùng rộng lớn, hay để khiến bản thân cảm thấy rằng sự tồn tại của chúng ta trong thế giới rộng lớn là cần thiết?
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 0.7
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • eval_accumulation_steps: 1
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_8bit
  • push_to_hub: True
  • hub_model_id: KietRiu/vietnamese-document-embedding_FT_QQP
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: 1
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_8bit
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: KietRiu/vietnamese-document-embedding_FT_QQP
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss cosine_accuracy
-1 -1 - - 0.9535
0.3928 500 0.7236 0.7945 0.6861
0.7855 1000 0.6335 0.7567 0.6616
1.1783 1500 0.6148 0.7505 0.6670
1.5711 2000 0.6028 0.7680 0.6837
1.9639 2500 0.593 0.7641 0.6759
2.3566 3000 0.5819 0.7465 0.6632
2.7494 3500 0.5757 0.7529 0.6685
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.3
  • PyTorch: 2.9.1+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.3.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
56
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for KietRiu/vietnamese-document-embedding_FT_QQP

Finetuned
(8)
this model

Dataset used to train KietRiu/vietnamese-document-embedding_FT_QQP

Papers for KietRiu/vietnamese-document-embedding_FT_QQP

Evaluation results