Spaces:

prithivMLmods
/

VisionScope-R2

Running on Zero

App Files Files Community

prithivMLmods commited on Jul 2

Commit

b73b9a6

verified ·

1 Parent(s): 940e0b8

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -8

app.py CHANGED Viewed

@@ -74,7 +74,7 @@ model_y = Qwen2_5_VLForConditionalGeneration.from_pretrained(
     torch_dtype=torch.float16
 ).to(device).eval()
-#video sampling
 def downsample_video(video_path):
     """
     Downsamples the video to evenly spaced frames.
@@ -129,13 +129,23 @@ def generate_image(model_name: str, text: str, image: Image.Image,
         yield "Please upload an image."
         return
-    messages = [{
-        "role": "user",
-        "content": [
-            {"type": "image", "image": image},
-            {"type": "text", "text": text},
         ]
-    }]
     prompt_full = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(
         text=[prompt_full],
@@ -190,14 +200,21 @@ def generate_video(model_name: str, text: str, video_path: str,
         return
     frames = downsample_video(video_path)
     messages = [
-        {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]},
         {"role": "user", "content": [{"type": "text", "text": text}]}
     ]
     for frame in frames:
         image, timestamp = frame
         messages[1]["content"].append({"type": "text", "text": f"Frame {timestamp}:"})
         messages[1]["content"].append({"type": "image", "image": image})
     inputs = processor.apply_chat_template(
         messages,
         tokenize=True,

     torch_dtype=torch.float16
 ).to(device).eval()
+# Video sampling
 def downsample_video(video_path):
     """
     Downsamples the video to evenly spaced frames.
         yield "Please upload an image."
         return
+    if model_name == "Behemoth-3B-070225-post0.1":
+        messages = [
+            {"role": "system", "content": [{"type": "text", "text": "detailed thinking on"}]},
+            {"role": "user", "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": text},
+            ]}
         ]
+    else:
+        messages = [{
+            "role": "user",
+            "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": text},
+            ]
+        }]
     prompt_full = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = processor(
         text=[prompt_full],
         return
     frames = downsample_video(video_path)
+    if model_name == "Behemoth-3B-070225-post0.1":
+        system_message = "detailed thinking on"
+    else:
+        system_message = "You are a helpful assistant."
     messages = [
+        {"role": "system", "content": [{"type": "text", "text": system_message}]},
         {"role": "user", "content": [{"type": "text", "text": text}]}
     ]
     for frame in frames:
         image, timestamp = frame
         messages[1]["content"].append({"type": "text", "text": f"Frame {timestamp}:"})
         messages[1]["content"].append({"type": "image", "image": image})
     inputs = processor.apply_chat_template(
         messages,
         tokenize=True,