Spaces:

Tonic
/

Petite-LLM-3

Running on Zero

Tonic commited on Jul 30

Commit

3679e0b

1 Parent(s): cfb5435

removes cache implementation static

Files changed (1) hide show

app.py CHANGED Viewed

@@ -218,7 +218,7 @@ def generate_response(message, history, system_message, max_tokens, temperature,
             attention_mask=inputs['attention_mask'],
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
-            cache_implementation="static"
         )
         response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
         assistant_response = response[len(full_prompt):].strip()

             attention_mask=inputs['attention_mask'],
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
+            # cache_implementation="static"
         )
         response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
         assistant_response = response[len(full_prompt):].strip()