Spaces:

Tonic
/

Petite-LLM-3

Running on Zero

App Files Files Community

Tonic commited on Jul 30

Commit

0004ba8

1 Parent(s): 9413e52

adds minor changes to the README

Browse files

Files changed (2) hide show

README.md +1 -1
app.py +33 -33

README.md CHANGED Viewed

@@ -28,7 +28,7 @@ A complete Gradio application for the [Petite Elle L'Aime 3](https://huggingface
 ## 📋 Model Information
-- **Base Model**: SmolLM3-3B
 - **Parameters**: ~3B
 - **Context Length**: 128k
 - **Precision**: Full fine-tuned model (float16/float32)

 ## 📋 Model Information
+- **Base Model**: HuggingFaceTB/SmolLM3-3B
 - **Parameters**: ~3B
 - **Context Length**: 128k
 - **Precision**: Full fine-tuned model (float16/float32)

app.py CHANGED Viewed

@@ -224,35 +224,35 @@ def generate_response(message, history, system_message, max_tokens, temperature,
         response_with_tokens = tokenizer.decode(output_ids[0], skip_special_tokens=False)
         # Debug: Print the full raw response with tokens
-        logger.info(f"=== FULL RAW RESPONSE WITH TOKENS DEBUG ===")
-        logger.info(f"Raw response with tokens length: {len(response_with_tokens)}")
-        logger.info(f"Raw response with tokens: {repr(response_with_tokens)}")
         # More robust response extraction - look for assistant marker
-        logger.info(f"Looking for assistant marker in response...")
         if "<|im_start|>assistant" in response_with_tokens:
-            logger.info(f"Found assistant marker in response")
             # Find the start of assistant response
             assistant_start = response_with_tokens.find("<|im_start|>assistant")
-            logger.info(f"Assistant marker found at position: {assistant_start}")
             if assistant_start != -1:
                 # Find the end of the assistant marker
                 marker_end = response_with_tokens.find("\n", assistant_start)
-                logger.info(f"Marker end found at position: {marker_end}")
                 if marker_end != -1:
                     assistant_response = response_with_tokens[marker_end + 1:].strip()
-                    logger.info(f"Using marker-based extraction")
                 else:
                     assistant_response = response_with_tokens[assistant_start + len("<|im_start|>assistant"):].strip()
-                    logger.info(f"Using fallback marker extraction")
             else:
                 # Fallback to prompt-based extraction
                 response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
                 assistant_response = response[len(full_prompt):].strip()
-                logger.info(f"Using prompt-based extraction (marker not found)")
         else:
             # Fallback to original method
-            logger.info(f"No assistant marker found, using prompt-based extraction")
             response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
             assistant_response = response[len(full_prompt):].strip()
@@ -262,34 +262,34 @@ def generate_response(message, history, system_message, max_tokens, temperature,
         assistant_response = re.sub(r'<\|im_end\|>', '', assistant_response)
         # Debug: Print the extracted assistant response after cleanup
-        logger.info(f"=== EXTRACTED ASSISTANT RESPONSE AFTER CLEANUP DEBUG ===")
-        logger.info(f"Extracted response length: {len(assistant_response)}")
-        logger.info(f"Extracted response: {repr(assistant_response)}")
         # Debug: Print before cleanup
-        logger.info(f"=== BEFORE CLEANUP DEBUG ===")
-        logger.info(f"Before cleanup length: {len(assistant_response)}")
-        logger.info(f"Before cleanup: {repr(assistant_response)}")
         assistant_response = re.sub(r'<\|im_start\|>.*?<\|im_end\|>', '', assistant_response, flags=re.DOTALL)
         # Debug: Print after first cleanup
-        logger.info(f"=== AFTER FIRST CLEANUP DEBUG ===")
-        logger.info(f"After first cleanup length: {len(assistant_response)}")
-        logger.info(f"After first cleanup: {repr(assistant_response)}")
         if not enable_thinking:
             assistant_response = re.sub(r'<think>.*?</think>', '', assistant_response, flags=re.DOTALL)
             # Debug: Print after thinking cleanup
-            logger.info(f"=== AFTER THINKING CLEANUP DEBUG ===")
-            logger.info(f"After thinking cleanup length: {len(assistant_response)}")
-            logger.info(f"After thinking cleanup: {repr(assistant_response)}")
         # Debug: Print before tool call handling
-        logger.info(f"=== BEFORE TOOL CALL HANDLING DEBUG ===")
-        logger.info(f"Before tool call handling length: {len(assistant_response)}")
-        logger.info(f"Before tool call handling: {repr(assistant_response)}")
         # Handle tool calls if present
         if parsed_tools and ("<tool_call>" in assistant_response or "<code>" in assistant_response):
@@ -305,17 +305,17 @@ def generate_response(message, history, system_message, max_tokens, temperature,
                     assistant_response += f"\n\n🐍 Python Tool Call: {code_call}\n\nNote: This is a simulated Python tool call. In a real scenario, the function would be executed and its output would be used to generate a final response."
         # Debug: Print after tool call handling
-        logger.info(f"=== AFTER TOOL CALL HANDLING DEBUG ===")
-        logger.info(f"After tool call handling length: {len(assistant_response)}")
-        logger.info(f"After tool call handling: {repr(assistant_response)}")
         assistant_response = assistant_response.strip()
         # Debug: Print final response
-        logger.info(f"=== FINAL RESPONSE DEBUG ===")
-        logger.info(f"Final response length: {len(assistant_response)}")
-        logger.info(f"Final response: {repr(assistant_response)}")
-        logger.info(f"=== END DEBUG ===")
         return assistant_response

         response_with_tokens = tokenizer.decode(output_ids[0], skip_special_tokens=False)
         # Debug: Print the full raw response with tokens
+        # logger.info(f"=== FULL RAW RESPONSE WITH TOKENS DEBUG ===")
+        # logger.info(f"Raw response with tokens length: {len(response_with_tokens)}")
+        # logger.info(f"Raw response with tokens: {repr(response_with_tokens)}")
         # More robust response extraction - look for assistant marker
+        # logger.info(f"Looking for assistant marker in response...")
         if "<|im_start|>assistant" in response_with_tokens:
+            # logger.info(f"Found assistant marker in response")
             # Find the start of assistant response
             assistant_start = response_with_tokens.find("<|im_start|>assistant")
+            # logger.info(f"Assistant marker found at position: {assistant_start}")
             if assistant_start != -1:
                 # Find the end of the assistant marker
                 marker_end = response_with_tokens.find("\n", assistant_start)
+                # logger.info(f"Marker end found at position: {marker_end}")
                 if marker_end != -1:
                     assistant_response = response_with_tokens[marker_end + 1:].strip()
+                    # logger.info(f"Using marker-based extraction")
                 else:
                     assistant_response = response_with_tokens[assistant_start + len("<|im_start|>assistant"):].strip()
+                    # logger.info(f"Using fallback marker extraction")
             else:
                 # Fallback to prompt-based extraction
                 response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
                 assistant_response = response[len(full_prompt):].strip()
+                # logger.info(f"Using prompt-based extraction (marker not found)")
         else:
             # Fallback to original method
+            # logger.info(f"No assistant marker found, using prompt-based extraction")
             response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
             assistant_response = response[len(full_prompt):].strip()
         assistant_response = re.sub(r'<\|im_end\|>', '', assistant_response)
         # Debug: Print the extracted assistant response after cleanup
+        # logger.info(f"=== EXTRACTED ASSISTANT RESPONSE AFTER CLEANUP DEBUG ===")
+        # logger.info(f"Extracted response length: {len(assistant_response)}")
+        # logger.info(f"Extracted response: {repr(assistant_response)}")
         # Debug: Print before cleanup
+        # logger.info(f"=== BEFORE CLEANUP DEBUG ===")
+        # logger.info(f"Before cleanup length: {len(assistant_response)}")
+        # logger.info(f"Before cleanup: {repr(assistant_response)}")
         assistant_response = re.sub(r'<\|im_start\|>.*?<\|im_end\|>', '', assistant_response, flags=re.DOTALL)
         # Debug: Print after first cleanup
+        # logger.info(f"=== AFTER FIRST CLEANUP DEBUG ===")
+        # logger.info(f"After first cleanup length: {len(assistant_response)}")
+        # logger.info(f"After first cleanup: {repr(assistant_response)}")
         if not enable_thinking:
             assistant_response = re.sub(r'<think>.*?</think>', '', assistant_response, flags=re.DOTALL)
             # Debug: Print after thinking cleanup
+            # logger.info(f"=== AFTER THINKING CLEANUP DEBUG ===")
+            # logger.info(f"After thinking cleanup length: {len(assistant_response)}")
+            # logger.info(f"After thinking cleanup: {repr(assistant_response)}")
         # Debug: Print before tool call handling
+        # logger.info(f"=== BEFORE TOOL CALL HANDLING DEBUG ===")
+        # logger.info(f"Before tool call handling length: {len(assistant_response)}")
+        # logger.info(f"Before tool call handling: {repr(assistant_response)}")
         # Handle tool calls if present
         if parsed_tools and ("<tool_call>" in assistant_response or "<code>" in assistant_response):
                     assistant_response += f"\n\n🐍 Python Tool Call: {code_call}\n\nNote: This is a simulated Python tool call. In a real scenario, the function would be executed and its output would be used to generate a final response."
         # Debug: Print after tool call handling
+        # logger.info(f"=== AFTER TOOL CALL HANDLING DEBUG ===")
+        # logger.info(f"After tool call handling length: {len(assistant_response)}")
+        # logger.info(f"After tool call handling: {repr(assistant_response)}")
         assistant_response = assistant_response.strip()
         # Debug: Print final response
+        # logger.info(f"=== FINAL RESPONSE DEBUG ===")
+        # logger.info(f"Final response length: {len(assistant_response)}")
+        # logger.info(f"Final response: {repr(assistant_response)}")
+        # logger.info(f"=== END DEBUG ===")
         return assistant_response