Spicy Motivator - DPO

한국어 명언을 비꼬는 문장으로 변환하는 모델 (DPO로 학습)

모델 설명

Base Model: meta-llama/Llama-3.1-8B
학습 방법: Direct Preference Optimization (DPO)
LoRA: r=16, alpha=32

사용법

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# Base 모델 로드
base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B",
    torch_dtype=torch.float16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B")

# LoRA 어댑터 로드
model = PeftModel.from_pretrained(base_model, "YOUR_USERNAME/spicy-motivator-dpo")

# 생성
prompt = "### 명언: 실패는 성공의 어머니이다.\n### 비꼬는 답변:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

프로젝트 정보

충남대학교 강화학습 수업 텀 프로젝트
PPO vs DPO 비교 연구

Downloads last month: 141

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Guardrium/spicy-motivator-dpo

Base model

meta-llama/Llama-3.1-8B

Adapter

(535)

this model