V1-1 Plan (ar)

v1-1

خطة الاندماج متعدد الوسائط

التاريخ: 28 أبريل 2026

الهدف: توسيع نطاق "المشروع v1" من محاكاة تعتمد على الرادار فقط إلى نظام كشف موحد (رادار + رؤية حاسوبية + صوت)، بهدف تقليل الإنذارات الكاذبة من خلال دمج الأدلة.

المتوقع اخراجه هو:

نظام كشف موحد ومتزامن متعدد الوسائط، يعتمد على جدول زمني مشترك للأحداث، ومنطق تسجيل نقاط (scoring) موحد، وقرار نهائي مدمج.

إذا لم يتم توحيد التوقيت، وطريقة تسجيل النقاط، وقواعد اتخاذ القرار، فستظهر النتيجة كأنها ثلاثة عروض تجريبية منفصلة وليست نظاماً واحداً.

الوضع الحالي

تعريف النظام الرئيسي

يجب أن يصبح المشروع المطور:

نظام كشف طائرات بدون طيار (درون) متعدد الوسائط، يستخدم الاستشعار المستوحى من الرادار السلبي، والكشف بالرؤية، والكشف الصوتي مع اندماج القرارات.

لماذا نضيف الرؤية والصوت؟

الرادار وحده قد يعطي إنذارات كاذبة في حالات:

تسرب الضجيج البيئي (Clutter leakage).
التداخل الضعيف للأجسام المتحركة.
أخطاء ضبط عتبة الكشف (Threshold tuning).
القمم الصغيرة الغامضة في الإشارة.

تساعد الرؤية في تأكيد:

وجود جسم طائر مرئي.
الموقع التقريبي في الصورة.
استمرارية الجسم عبر إطارات الفيديو.
الأدلة الخاصة بفئة الجسم (Class-specific).

يساعد الصوت في تأكيد:

البصمة الصوتية للمراوح/المحركات.
المحتوى النغمي المستمر الشبيه بصوت الدرون.
الأحداث التي يراها الرادار ولكن تخفق الرؤية في رصدها بسبب انخفاض دقة الإطارات.

هدف الاندماج ليس:

رادار أو رؤية أو صوت

بل هدف الاندماج هو:

حساسية عالية من الرادار
كبح الإنذارات الكاذبة بواسطة الرؤية والصوت
ثقة نهائية ناتجة عن دمج الأدلة المُعايرة

اختيار النطاق الصحيح

بما أن المشروع الحالي يعتمد على بايثون فقط ولا يتضمن عتاداً مادياً (Hardware)، فإن البنية الأنسب للمدى القريب هي:

النمط (أ): اندماج متعدد الوسائط "أوفلاين" / يعتمد على الملفات

المدخلات:

مخرجات محاكاة الرادار.
ملف فيديو.
مسار صوتي أو ملف wav.

يجب محاذاة المسارات الثلاثة على جدول زمني مشترك. هذا هو النطاق الأفضل لمشروع التخرج لأنه:

قابل للاختبار.
قابل لإعادة الإنتاج.
يتجنب تعقيدات العتاد.
يظهر مهارات هندسة الأنظمة الحقيقية.

النمط (ب): نظام متعدد الوسائط يعمل بالزمن الحقيقي

هذا يمثل امتداداً مستقبلياً وليس الهدف الأول. لا تجعل الاندماج بالزمن الحقيقي هو المرحلة الأولى ما لم تمتلك مسارات معالجة مستقرة لكل وسيلة على حدة.

بنية النظام الموحد

يجب بناء النظام الموحد من خمس طبقات:

1. طبقة الاستيعاب (Ingestion Layer)

الغرض: تحميل سيناريو الرادار، إطارات الفيديو، والموجات الصوتية مع تعيين الطوابع الزمنية.

المخرجات: RadarFrame ،VideoFrame ،AudioWindow. (يجب أن تحمل جميعها وقت البدء، وقت الانتهاء، ومعرف المسار).

2. طبقة الاستدلال لكل وسيلة (Per-Modality Inference Layer)

الغرض: تشغيل الكشف الراداري، وتتبع الأجسام بالرؤية، والتصنيف الصوتي.

المخرجات: RadarDetections ،VisionDetections ،AudioDetections. (تشمل درجة الثقة، القياسات، والارتياب).

3. طبقة المحاذاة الزمنية (Temporal Alignment Layer)

الغرض: إسقاط كشوفات الرادار والفيديو والصوت على شبكة زمنية موحدة. (هذا الإجراء إلزامي لضمان قوة الاندماج تقنياً).

4. طبقة الاندماج (Fusion Layer)

الغرض: دمج الأدلة من الوسائط الثلاث في درجة حدث واحدة.

المخرجات: درجة الحدث المدمجة، ملصق التنبيه الموحد، وتفسير لمساهمة كل وسيلة.

5. طبقة التتبع واتخاذ القرار (Tracking and Decision Layer)

الغرض: الحفاظ على استمرارية الحدث عبر الزمن، كبح القفزات المفاجئة في إطار واحد، وتأكيد التنبيهات فقط بعد ثبوت الأدلة.

أفضل الخوارزميات لكل وحدة

وحدة الرادار

الخيار العملي الحالي: معالجة المدى ودوبلر بناءً على OFDM، استخدام CA-CFAR أو OS-CFAR، وتأكيد التتبع باستخدام منطق M من N، مع مرشح كالمان بسيط للتنعيم الزمني.
مسار التطوير: الانتقال إلى OS-CFAR في حالات الضجيج البيئي الكثيف، وإضافة منطق التتبع قبل التأكيد.

وحدة الرؤية

الخيار العملي الحالي: YOLO11 للكشف مع متتبع مثل ByteTrack أو BoT-SORT.
الخيار البحثي الطموح: RT-DETR (كاشف طرف لطرف).
التوصية: استخدم YOLO11 لسهولة التكامل، إلا إذا كانت الرؤية هي محور الأطروحة الأساسي. ملاحظة: التتبع ضروري لأن تقليل الإنذارات الكاذبة يعتمد على استمرارية المسار وتناسقه.

وحدة الصوت

الخيار العملي الحالي: مسار الميزات المصممة يدويًا (MFCC، الميزات الطيفية) مع نموذج LightGBM.
مسار التطوير: استخدام تضمينات صوتية سابقة التدريب (Pretrained embeddings) مثل YAMNet أو PANNs مع مصنف بسيط فوقها.
التوصية: احتفظ بنظام MFCC + LightGBM كخط أساس، وقارنه مع نموذج التضمينات.

أفضل خوارزميات الاندماج

استراتيجية الاندماج المثلى حالياً

استخدام الاندماج المتأخر (Late Fusion) مع درجات ثقة مُعايرة لكل وسيلة.

الدرجة المدمجة = (وزن الرادار × ثقة الرادار) + (وزن الرؤية × ثقة الرؤية) + (وزن الصوت × ثقة الصوت)

ثم اشتراط تجاوز هذه الدرجة لعتبة معينة واستمراريتها عبر نوافذ زمنية (منطق M من N).

خطة التنفيذ المرحلية (Phase-by-Phase)

المرحلة 1: حسم أطروحة الاندماج (توثيق الاندماج "أوفلاين" والجدول الزمني المشترك).
المرحلة 2: تثبيت الرادار كـ "مُطلق للحساسية العالية" مع إضافة تتبع كالمان.
المرحلة 3: بناء فرع الرؤية (YOLO11 + التتبع).
المرحلة 4: بناء فرع الصوت (MFCC كخط أساس).
المرحلة 5: بناء المحاذاة الزمنية وتوحيد النوافذ.
المرحلة 6: بناء منطق الاندماج وقواعد التنبيه.
المرحلة 7: بناء التطبيق الموحد/واجهة المستخدم الرسومية (TUI).
المرحلة 8: إجراء دراسة الاستئصال (Ablation Study) لمقارنة أداء الرادار منفرداً مقابل النظام المدمج.

ملاحظات ختامية للنجاح

الاندماج لا يعمل إلا بالمعايرة: درجات الثقة الخام من النماذج المختلفة لا يمكن مقارنتها مباشرة دون موازنة.
التتبع لا يقل أهمية عن التصنيف: الدليل الضعيف المستمر غالباً ما يكون أغلى من كشف واحد قوي معزول.
الرؤية والصوت يؤكدان الرادار: يجب أن يظل الرادار هو الحساس الرئيسي للمساحات الواسعة في سردية مشروعك.
قابلية التفسير: يجب أن يجيب التنبيه المدمج على: ماذا رأت كل وسيلة؟ متى؟ ولماذا اتخذ النظام القرار النهائي؟

هذه الخطة متماسكة، قابلة للدفاع عنها أكاديمياً، وممكنة التحقيق تقنياً.