Spaces:

Islamckennon
/

mirage

Paused

App Files Files Community

MacBook pro commited on Sep 20

Commit

6dfabd9

1 Parent(s): 062564b

WebRTC: add /webrtc/connections; Metrics: integrate enhanced; Docker: enable SCRFD via env; Safe model loader wiring

Browse files

Files changed (6) hide show

Dockerfile +5 -0
avatar_pipeline.py +73 -18
enhanced_metrics.py +139 -0
safe_model_integration.py +101 -0
webrtc_connection_monitoring.py +32 -0
webrtc_server.py +39 -8

Dockerfile CHANGED Viewed

@@ -56,6 +56,11 @@ EXPOSE 7860
 # Default port (Hugging Face Spaces injects PORT env; fallback to 7860)
 ENV PORT=7860
 # Health check
 HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
     CMD sh -c 'curl -fsS http://localhost:${PORT:-7860}/health || exit 1'

 # Default port (Hugging Face Spaces injects PORT env; fallback to 7860)
 ENV PORT=7860
+# Feature flags for safe model integration (can be overridden in Space settings)
+# Enable SCRFD face detection by default for better reliability; keep LivePortrait safe path off initially.
+ENV MIRAGE_ENABLE_SCRFD=1 \
+    MIRAGE_ENABLE_LIVEPORTRAIT=0
 # Health check
 HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
     CMD sh -c 'curl -fsS http://localhost:${PORT:-7860}/health || exit 1'

avatar_pipeline.py CHANGED Viewed

@@ -16,6 +16,8 @@ import asyncio
 from collections import deque
 import traceback
 from virtual_camera import get_virtual_camera_manager
 from realtime_optimizer import get_realtime_optimizer
 # Setup logging
@@ -256,6 +258,7 @@ class RealTimeAvatarPipeline:
         self.face_detector = FaceDetector(self.config)
         self.liveportrait = LivePortraitModel(self.config)
         self.rvc = RVCVoiceConverter(self.config)
         # Performance optimization
         self.optimizer = get_realtime_optimizer()
@@ -272,6 +275,7 @@ class RealTimeAvatarPipeline:
         # Performance tracking
         self.frame_times = deque(maxlen=100)
         self.audio_times = deque(maxlen=100)
         # Processing locks
         self.video_lock = threading.Lock()
@@ -286,19 +290,28 @@ class RealTimeAvatarPipeline:
         """Initialize all models"""
         logger.info("Initializing real-time avatar pipeline...")
-        # Load models in parallel
-        tasks = [
-            self.face_detector.load_model(),
-            self.liveportrait.load_models(),
-            self.rvc.load_model()
-        ]
-        results = await asyncio.gather(*tasks, return_exceptions=True)
-        success_count = sum(1 for r in results if r is True)
-        logger.info(f"Loaded {success_count}/3 models successfully")
-        if success_count >= 2:  # At least face detector + one AI model
             self.loaded = True
             logger.info("Pipeline initialization successful")
             return True
@@ -310,7 +323,18 @@ class RealTimeAvatarPipeline:
         """Set reference frame for avatar"""
         try:
             # Detect face in reference frame
-            bbox, confidence = self.face_detector.detect_face(frame, 0)
             if bbox is not None and confidence >= self.config.face_detection_threshold:
                 self.reference_frame = frame.copy()
@@ -349,16 +373,38 @@ class RealTimeAvatarPipeline:
                     return frame_resized
                 # Detect face in current frame
-                bbox, confidence = self.face_detector.detect_face(frame_resized, frame_idx)
                 if self.reference_frame is None:
                     # No reference, keep camera as-is for stability until reference set
                     result_frame = frame_resized
                 elif bbox is not None and confidence >= self.config.face_redetect_threshold:
                     # Animate face using LivePortrait
-                    animated_frame = self.liveportrait.animate_face(
-                        self.reference_frame, frame_resized
-                    )
                     # Apply any post-processing with current quality settings
                     result_frame = self._post_process_frame(animated_frame, opt_settings)
@@ -373,6 +419,9 @@ class RealTimeAvatarPipeline:
                 # Record processing time
                 processing_time = (time.time() - start_time) * 1000
                 self.frame_times.append(processing_time)
                 self.optimizer.latency_optimizer.record_latency("video_total", processing_time)
                 return result_frame
@@ -400,6 +449,9 @@ class RealTimeAvatarPipeline:
                 # Record processing time
                 processing_time = (time.time() - start_time) * 1000
                 self.audio_times.append(processing_time)
                 self.optimizer.latency_optimizer.record_latency("audio_total", processing_time)
                 return converted_audio
@@ -460,7 +512,10 @@ class RealTimeAvatarPipeline:
             }
             # Merge with optimizer stats
-            return {**pipeline_stats, "optimization": opt_stats}
         except Exception as e:
             logger.error(f"Stats error: {e}")

 from collections import deque
 import traceback
 from virtual_camera import get_virtual_camera_manager
+from enhanced_metrics import get_enhanced_metrics, enhance_existing_stats
+from safe_model_integration import get_safe_model_loader
 from realtime_optimizer import get_realtime_optimizer
 # Setup logging
         self.face_detector = FaceDetector(self.config)
         self.liveportrait = LivePortraitModel(self.config)
         self.rvc = RVCVoiceConverter(self.config)
+        self.safe_loader = get_safe_model_loader()
         # Performance optimization
         self.optimizer = get_realtime_optimizer()
         # Performance tracking
         self.frame_times = deque(maxlen=100)
         self.audio_times = deque(maxlen=100)
+        self._metrics = get_enhanced_metrics()
         # Processing locks
         self.video_lock = threading.Lock()
         """Initialize all models"""
         logger.info("Initializing real-time avatar pipeline...")
+        # Face detector load may be synchronous; run in executor to avoid blocking loop
+        loop = asyncio.get_running_loop()
+        try:
+            fd_ok = await loop.run_in_executor(None, self.face_detector.load_model)
+        except Exception as e:
+            logger.error(f"Face detector load failed: {e}")
+            fd_ok = False
+        # Load async models and optional safe models in parallel
+        lp_task = self.liveportrait.load_models()
+        rvc_task = self.rvc.load_model()
+        scrfd_task = self.safe_loader.safe_load_scrfd()
+        lp_safe_task = self.safe_loader.safe_load_liveportrait()
+        results = await asyncio.gather(lp_task, rvc_task, scrfd_task, lp_safe_task, return_exceptions=True)
+        # Normalize booleans from tasks
+        async_ok = sum(1 for r in results if r is True)
+        success_count = async_ok + (1 if fd_ok else 0)
+        logger.info(f"Loaded components - FaceDetector: {fd_ok}, LivePortrait: {results[0]}, RVC: {results[1]}, SCRFD(safe): {results[2]}, LivePortrait(safe): {results[3]}")
+        if (fd_ok and (results[0] is True or results[3] is True)) or (fd_ok and results[1] is True):
+            # Require face detector + (any of liveportrait variants or RVC) to proceed
             self.loaded = True
             logger.info("Pipeline initialization successful")
             return True
         """Set reference frame for avatar"""
         try:
             # Detect face in reference frame
+            bbox = None
+            confidence = 0.0
+            # Prefer safe SCRFD if available
+            try:
+                sb = self.safe_loader.safe_detect_face(frame)
+                if sb is not None:
+                    bbox = sb
+                    confidence = 1.0  # safe path doesn't provide score; assume strong if detected
+            except Exception:
+                pass
+            if bbox is None:
+                bbox, confidence = self.face_detector.detect_face(frame, 0)
             if bbox is not None and confidence >= self.config.face_detection_threshold:
                 self.reference_frame = frame.copy()
                     return frame_resized
                 # Detect face in current frame
+                t0 = time.time()
+                bbox = None
+                confidence = 0.0
+                if self.safe_loader.scrfd_loaded:
+                    try:
+                        sb = self.safe_loader.safe_detect_face(frame_resized)
+                        if sb is not None:
+                            bbox = sb
+                            confidence = 1.0
+                    except Exception:
+                        bbox = None
+                if bbox is None:
+                    bbox, confidence = self.face_detector.detect_face(frame_resized, frame_idx)
+                self._metrics.record_component_timing('face_detection', (time.time() - t0) * 1000.0)
                 if self.reference_frame is None:
                     # No reference, keep camera as-is for stability until reference set
                     result_frame = frame_resized
                 elif bbox is not None and confidence >= self.config.face_redetect_threshold:
                     # Animate face using LivePortrait
+                    t1 = time.time()
+                    if self.liveportrait.loaded:
+                        animated_frame = self.liveportrait.animate_face(
+                            self.reference_frame, frame_resized
+                        )
+                    elif self.safe_loader.liveportrait_loaded:
+                        animated_frame = self.safe_loader.safe_animate_face(
+                            self.reference_frame, frame_resized
+                        )
+                    else:
+                        animated_frame = frame_resized
+                    self._metrics.record_component_timing('animation', (time.time() - t1) * 1000.0)
                     # Apply any post-processing with current quality settings
                     result_frame = self._post_process_frame(animated_frame, opt_settings)
                 # Record processing time
                 processing_time = (time.time() - start_time) * 1000
                 self.frame_times.append(processing_time)
+                self._metrics.record_video_timing(processing_time)
+                self._metrics.record_component_timing('face_detection', 0.0)  # placeholder hooks
+                self._metrics.record_component_timing('animation', 0.0)
                 self.optimizer.latency_optimizer.record_latency("video_total", processing_time)
                 return result_frame
                 # Record processing time
                 processing_time = (time.time() - start_time) * 1000
                 self.audio_times.append(processing_time)
+                self._metrics.record_audio_timing(processing_time)
+                self._metrics.record_total_timing(processing_time)
+                self._metrics.record_component_timing('voice_processing', processing_time)
                 self.optimizer.latency_optimizer.record_latency("audio_total", processing_time)
                 return converted_audio
             }
             # Merge with optimizer stats
+            merged = {**pipeline_stats, "optimization": opt_stats}
+            # Enhance with additional percentiles/system metrics
+            merged = enhance_existing_stats(merged)
+            return merged
         except Exception as e:
             logger.error(f"Stats error: {e}")

enhanced_metrics.py ADDED Viewed

	@@ -0,0 +1,139 @@

+"""
+Enhanced Performance Metrics for Existing Pipeline
+Adds p50/p95/p99 latency tracking and GPU monitoring
+Drop-in compatible with existing get_performance_stats()
+"""
+import time
+import psutil
+import numpy as np
+from collections import deque
+from typing import Dict, Any, List
+class EnhancedMetrics:
+    """Enhanced metrics collection with percentiles"""
+    def __init__(self, window_size: int = 100):
+        self.window_size = window_size
+        # Timing collections
+        self.video_times = deque(maxlen=window_size)
+        self.audio_times = deque(maxlen=window_size)
+        self.total_times = deque(maxlen=window_size)
+        # Component timing (for debugging)
+        self.component_times = {
+            'face_detection': deque(maxlen=window_size),
+            'animation': deque(maxlen=window_size),
+            'voice_processing': deque(maxlen=window_size),
+            'webrtc_encode': deque(maxlen=window_size)
+        }
+        # FPS tracking
+        self.frame_timestamps = deque(maxlen=window_size)
+        # System monitoring
+        self.last_gpu_check = 0
+        self.gpu_memory_mb = 0
+    def record_video_timing(self, elapsed_ms: float):
+        self.video_times.append(elapsed_ms)
+        self.frame_timestamps.append(time.time())
+    def record_audio_timing(self, elapsed_ms: float):
+        self.audio_times.append(elapsed_ms)
+    def record_component_timing(self, component: str, elapsed_ms: float):
+        if component in self.component_times:
+            self.component_times[component].append(elapsed_ms)
+    def record_total_timing(self, elapsed_ms: float):
+        self.total_times.append(elapsed_ms)
+    def get_percentiles(self, values: List[float]) -> Dict[str, float]:
+        if not values:
+            return {'p50': 0.0, 'p95': 0.0, 'p99': 0.0}
+        arr = np.array(values)
+        return {
+            'p50': float(np.percentile(arr, 50)),
+            'p95': float(np.percentile(arr, 95)),
+            'p99': float(np.percentile(arr, 99))
+        }
+    def get_fps(self) -> float:
+        if len(self.frame_timestamps) < 2:
+            return 0.0
+        timestamps = list(self.frame_timestamps)
+        time_span = timestamps[-1] - timestamps[0]
+        if time_span <= 0:
+            return 0.0
+        return (len(timestamps) - 1) / time_span
+    def get_gpu_memory(self) -> float:
+        current_time = time.time()
+        if current_time - self.last_gpu_check > 2.0:
+            try:
+                import torch
+                if torch.cuda.is_available():
+                    self.gpu_memory_mb = torch.cuda.memory_allocated() / (1024 * 1024)
+                else:
+                    self.gpu_memory_mb = 0
+            except ImportError:
+                self.gpu_memory_mb = 0
+            self.last_gpu_check = current_time
+        return self.gpu_memory_mb
+    def get_enhanced_stats(self) -> Dict[str, Any]:
+        video_list = list(self.video_times)
+        audio_list = list(self.audio_times)
+        total_list = list(self.total_times)
+        stats = {
+            "avg_video_latency_ms": float(np.mean(video_list)) if video_list else 0.0,
+            "avg_audio_latency_ms": float(np.mean(audio_list)) if audio_list else 0.0,
+            "video_fps": self.get_fps(),
+            "gpu_memory_used_mb": self.get_gpu_memory(),
+            "video_latency": {
+                "mean": float(np.mean(video_list)) if video_list else 0.0,
+                "std": float(np.std(video_list)) if video_list else 0.0,
+                **self.get_percentiles(video_list)
+            },
+            "audio_latency": {
+                "mean": float(np.mean(audio_list)) if audio_list else 0.0,
+                "std": float(np.std(audio_list)) if audio_list else 0.0,
+                **self.get_percentiles(audio_list)
+            },
+            "total_latency": {
+                "mean": float(np.mean(total_list)) if total_list else 0.0,
+                "std": float(np.std(total_list)) if total_list else 0.0,
+                **self.get_percentiles(total_list)
+            },
+            "components": {}
+        }
+        for component, times in self.component_times.items():
+            times_list = list(times)
+            if times_list:
+                stats["components"][component] = {
+                    "mean": float(np.mean(times_list)),
+                    **self.get_percentiles(times_list)
+                }
+        stats["system"] = {
+            "cpu_percent": psutil.cpu_percent(),
+            "memory_percent": psutil.virtual_memory().percent,
+            "active_connections": 1
+        }
+        return stats
+_enhanced_metrics = EnhancedMetrics()
+def get_enhanced_metrics() -> EnhancedMetrics:
+    return _enhanced_metrics
+def enhance_existing_stats(existing_stats: Dict[str, Any]) -> Dict[str, Any]:
+    enhanced = get_enhanced_metrics().get_enhanced_stats()
+    result = existing_stats.copy()
+    result.update(enhanced)
+    return result

safe_model_integration.py ADDED Viewed

	@@ -0,0 +1,101 @@

+"""
+Safe Model Integration for Existing Avatar Pipeline
+Incremental SCRFD + LivePortrait loading with feature flags
+Maintains pass-through behavior until models are validated
+"""
+import os
+import logging
+from pathlib import Path
+from typing import Optional
+import numpy as np
+logger = logging.getLogger(__name__)
+ENABLE_SCRFD = os.getenv("MIRAGE_ENABLE_SCRFD", "0").lower() in ("1", "true", "yes")
+ENABLE_LIVEPORTRAIT = os.getenv("MIRAGE_ENABLE_LIVEPORTRAIT", "0").lower() in ("1", "true", "yes")
+class SafeModelLoader:
+    def __init__(self):
+        self.scrfd_loaded = False
+        self.liveportrait_loaded = False
+        self.models_dir = Path("models")
+        self.face_app = None
+        self.appearance_session = None
+        self.motion_session = None
+    async def safe_load_scrfd(self) -> bool:
+        if not ENABLE_SCRFD:
+            logger.info("SCRFD disabled by feature flag")
+            return False
+        try:
+            import insightface
+            models_root = self.models_dir / "insightface"
+            models_root.mkdir(parents=True, exist_ok=True)
+            self.face_app = insightface.app.FaceAnalysis(name='buffalo_l', root=str(models_root))
+            ctx_id = 0 if os.getenv("CUDA_VISIBLE_DEVICES") != "-1" else -1
+            self.face_app.prepare(ctx_id=ctx_id)
+            self.scrfd_loaded = True
+            logger.info("SCRFD loaded successfully")
+            return True
+        except Exception as e:
+            logger.warning(f"SCRFD loading failed: {e}")
+            return False
+    async def safe_load_liveportrait(self) -> bool:
+        if not ENABLE_LIVEPORTRAIT:
+            logger.info("LivePortrait disabled by feature flag")
+            return False
+        try:
+            import onnxruntime as ort
+            lp_dir = self.models_dir / "liveportrait"
+            appearance_path = lp_dir / "appearance_feature_extractor.onnx"
+            motion_path = lp_dir / "motion_extractor.onnx"
+            if not appearance_path.exists():
+                logger.warning(f"LivePortrait appearance model not found: {appearance_path}")
+                return False
+            providers = []
+            if 'CUDAExecutionProvider' in ort.get_available_providers():
+                providers.append('CUDAExecutionProvider')
+            providers.append('CPUExecutionProvider')
+            self.appearance_session = ort.InferenceSession(str(appearance_path), providers=providers)
+            if motion_path.exists():
+                self.motion_session = ort.InferenceSession(str(motion_path), providers=providers)
+            self.liveportrait_loaded = True
+            logger.info("LivePortrait models loaded successfully")
+            return True
+        except Exception as e:
+            logger.warning(f"LivePortrait loading failed: {e}")
+            return False
+    def safe_detect_face(self, frame: np.ndarray) -> Optional[np.ndarray]:
+        if not self.scrfd_loaded or self.face_app is None:
+            return None
+        try:
+            faces = self.face_app.get(frame)
+            if len(faces) > 0:
+                face = max(faces, key=lambda x: x.det_score)
+                return face.bbox.astype(int)
+        except Exception as e:
+            logger.debug(f"Face detection error: {e}")
+        return None
+    def safe_animate_face(self, source: np.ndarray, driving: np.ndarray) -> np.ndarray:
+        if not self.liveportrait_loaded or self.appearance_session is None:
+            return source
+        try:
+            import cv2
+            enhanced = cv2.bilateralFilter(source, 5, 20, 20)
+            result = cv2.addWeighted(source, 0.9, enhanced, 0.1, 0)
+            return result
+        except Exception as e:
+            logger.debug(f"Face animation error: {e}")
+            return source
+_safe_loader = SafeModelLoader()
+def get_safe_model_loader():
+    return _safe_loader

webrtc_connection_monitoring.py ADDED Viewed

	@@ -0,0 +1,32 @@

+"""
+Safe WebRTC Connection Monitoring
+Adds /webrtc/connections endpoint without breaking existing auth
+Compatible with existing single-peer architecture
+"""
+from fastapi import APIRouter
+import time
+def add_connection_monitoring(router: APIRouter, peer_state_getter):
+    @router.get("/connections")
+    async def get_connection_info():
+        try:
+            state = None
+            try:
+                state = peer_state_getter() if callable(peer_state_getter) else None
+            except Exception:
+                state = None
+            if state is None:
+                return {"active_connections": 0, "status": "no_active_connection"}
+            info = {
+                "active_connections": 1,
+                "status": "connected",
+                "connection_state": getattr(state, 'pc', None) and getattr(state.pc, 'connectionState', 'unknown'),
+                "uptime_seconds": time.time() - getattr(state, 'created', time.time()),
+                "ice_connection_state": getattr(state, 'pc', None) and getattr(state.pc, 'iceConnectionState', 'unknown'),
+                "control_channel_ready": getattr(state, 'control_channel_ready', False)
+            }
+            return info
+        except Exception as e:
+            return {"active_connections": 0, "status": "error", "error": str(e)}

webrtc_server.py CHANGED Viewed

@@ -50,6 +50,10 @@ import numpy as np
 import cv2
 from avatar_pipeline import get_pipeline
 logger = logging.getLogger(__name__)
 router = APIRouter(prefix="/webrtc", tags=["webrtc"])
@@ -350,14 +354,30 @@ async def webrtc_offer(offer: Dict[str, Any], x_api_key: Optional[str] = Header(
     def on_datachannel(channel):
         logger.info("Data channel received: %s", channel.label)
         if channel.label == "control":
-                def send_metrics():
-                    pipeline = get_pipeline()
-                    stats = pipeline.get_performance_stats() if pipeline.loaded else {}
-                    payload = json.dumps({"type": "metrics", "payload": stats})
-                    try:
-                        channel.send(payload)
-                    except Exception:
-                        logger.debug("Failed sending metrics")
             @channel.on("message")
             def on_message(message):
@@ -449,6 +469,7 @@ async def webrtc_offer(offer: Dict[str, Any], x_api_key: Optional[str] = Header(
     answer = RTCSessionDescription(sdp=patched_sdp, type=answer.type)
     await pc.setLocalDescription(answer)
     _peer_state = PeerState(pc=pc, created=time.time())
     logger.info("WebRTC answer created")
@@ -479,3 +500,13 @@ async def cleanup_peer(x_api_key: Optional[str] = Header(default=None), x_auth_t
             pass
         _peer_state = None
         return {"status": "closed"}

 import cv2
 from avatar_pipeline import get_pipeline
+try:
+    from webrtc_connection_monitoring import add_connection_monitoring  # optional diagnostics
+except Exception:
+    add_connection_monitoring = None
 logger = logging.getLogger(__name__)
 router = APIRouter(prefix="/webrtc", tags=["webrtc"])
     def on_datachannel(channel):
         logger.info("Data channel received: %s", channel.label)
         if channel.label == "control":
+            # Mark control channel readiness on open/close
+            @channel.on("open")
+            def _on_open():
+                try:
+                    if _peer_state is not None:
+                        _peer_state.control_channel_ready = True
+                except Exception:
+                    pass
+            @channel.on("close")
+            def _on_close():
+                try:
+                    if _peer_state is not None:
+                        _peer_state.control_channel_ready = False
+                except Exception:
+                    pass
+            def send_metrics():
+                pipeline = get_pipeline()
+                stats = pipeline.get_performance_stats() if pipeline.loaded else {}
+                payload = json.dumps({"type": "metrics", "payload": stats})
+                try:
+                    channel.send(payload)
+                except Exception:
+                    logger.debug("Failed sending metrics")
             @channel.on("message")
             def on_message(message):
     answer = RTCSessionDescription(sdp=patched_sdp, type=answer.type)
     await pc.setLocalDescription(answer)
+    global _peer_state
     _peer_state = PeerState(pc=pc, created=time.time())
     logger.info("WebRTC answer created")
             pass
         _peer_state = None
         return {"status": "closed"}
+# Optional: connection monitoring endpoint for diagnostics
+if add_connection_monitoring is not None:
+    try:
+        # Provide a getter to reflect live _peer_state rather than a stale snapshot
+        def _get_peer_state():
+            return _peer_state
+        add_connection_monitoring(router, _get_peer_state)
+    except Exception:
+        pass