Spaces:

quan1998
/

llama

Sleeping

quan1998 commited on 10 days ago

Commit

ca3abd0

verified ·

1 Parent(s): c751402

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,8 +7,8 @@ app = FastAPI()
 HF_TOKEN = os.getenv("HF_TOKEN")  # đọc token từ Secrets
 # client = InferenceClient(token=HF_TOKEN, model="google/gemma-3-12b-it", provider="featherless-ai")
-# client = InferenceClient(token=HF_TOKEN, model="meta-llama/Llama-3.2-3B-Instruct")
-client = InferenceClient(token=HF_TOKEN, model="Qwen/Qwen3-4B-Instruct-2507")
 # client = InferenceClient(token=HF_TOKEN, model="swiss-ai/Apertus-70B-Instruct-2509")
@@ -26,5 +26,5 @@ async def generate(request: Request):
     ]
     out = client.chat_completion(messages)
     print(out)
-    response = out.choices[0]["message"]["content"]
     return {"response": response}

 HF_TOKEN = os.getenv("HF_TOKEN")  # đọc token từ Secrets
 # client = InferenceClient(token=HF_TOKEN, model="google/gemma-3-12b-it", provider="featherless-ai")
+client = InferenceClient(token=HF_TOKEN, model="meta-llama/Llama-3.2-3B-Instruct")
+# client = InferenceClient(token=HF_TOKEN, model="Qwen/Qwen3-4B-Instruct-2507")
 # client = InferenceClient(token=HF_TOKEN, model="swiss-ai/Apertus-70B-Instruct-2509")
     ]
     out = client.chat_completion(messages)
     print(out)
+    response = out.choices[0].message.content
     return {"response": response}