Audio Module Deep Dive

Pipeline

  1. استخراج الصوت من الفيديو عبر ffmpeg (عند الحاجة).
  2. Resample إلى 22050 Hz mono.
  3. Slice windows (2.0 s, hop متغير حسب الواجهة).
  4. تحويل كل window إلى 128-bin log-Mel.
  5. Min-Max normalization per-window.
  6. CNN inference وإخراج probability.
  7. Optional M-of-N temporal confirmation.

نقاط ضبط مهمة

  • threshold الافتراضي: 0.5.
  • window_s: 2.0.
  • hop_s: غالبًا 1.0 أو 0.5 حسب المسار.
Built with LogoFlowershow