بروتوكول المدقق غير المتماثل (AAP): تقييد معماري للوكالة المضللة في الأنظمة المستقلة طويلة المدى
الملخص. يُعدّ "الخداع الاستراتيجي" (Strategic Deception) — حيث يخفي الوكيل نية غير متوافقة — نمط فشل حرج للوكالة المستقلة. نُقدم بروتوكول المدقق غير المتماثل (AAP)، وهو مواصفة حوكمة تعالج المخاطر الوكيلية كدالة للحالة والصلاحية. نعرض نموذج نضج تطبيقي من ثلاث مستويات وخوارزمية رسمية لمنطق المراقب، موضحين كيف يوفر التنفيذ المعماري عبر شجرة حالة مجزأة وعدم تماثل في المعلومات بديلاً قابلاً للتحقق للمحاذاة السلوكية.
١. المقدمة: لماذا المحاذاة السلوكية لا تكفي
تعتمد أطر سلامة الذكاء الاصطناعي الحالية بشكل كبير على التعلم المعزز من التغذية الراجعة البشرية (RLHF). لكن هذه الطرق غالباً ما تفشل في معالجة "المحاذاة المضللة" (Deceptive Alignment). ينقل AAP حدود السلامة من أوزان النموذج إلى معمارية النظام من خلال فرض قيود على مستوى النواة. تُعرّف الأقسام ٣–٤ عدم التماثل الرسمي وشجرة الحالة؛ وتُقدّم الأقسام ٥–٦ نموذج النضج والدفاع ضد الهجمات العدائية؛ يُقدّم القسم ٧ خوارزمية المراقب؛ ويستعرض القسم ٩ تتبع جلسة إنتاجية.
٢. الأعمال ذات الصلة
يبني AAP على مفاهيم الذكاء الاصطناعي الدستوري (Constitutional AI)، لكنه يُنفّذ القيود على مستوى المعمارية. يعالج نقاط الضعف في RLHF عبر فصل مراقب/وكيل، مستلهماً نهج سلامة الذكاء الاصطناعي عبر المناقشة (Debate)، لكنه يستبدل الحجج العدائية بحدّ من عدم التماثل الصارم في المعلومات.
٣. التعريف الرسمي لعدم التماثل
لتكن IA هي المعلومات المتاحة للوكيل و IJ هي المعلومات المتاحة لهيئة التدقيق. يُحافظ على الأمان فقط إذا كانت IA ⊂ IJ. يمنع إعماء الوكيل عن أوزان التحقق المحددة والقيود (Scon) "الأمثلة المُعادية" (Adversarial Optimization) ضد فحوصات السلامة الخاصة به.
٤. معمارية النظام: شجرة الحالة
الحالة العالمية S هي متجه مجزأ { Sobj، Scon، Sexe }:
- الأهداف (Sobj): أهداف العمل — كتابة بشرية فقط.
- القيود (Scon): قواعد الانتقال — كتابة قواعد النظام فقط.
- التنفيذ (Sexe): استجابات الوكيل — كتابة الوكيل فقط.
يُقيّد الوكيل بالكتابة في Sexe فقط. يُنفّذ المراقب Scon ويسجّل في جدول تدقيق معزول.
الشكل ١ — معمارية نظام AAP
الحالة العالمية S
محظور
محظور
مسموح
الوكيل (نموذج لغوي)
IA ⊂ IJ
المراقب (مصنّف)
سجل التدقيق
٥. نموذج النضج التطبيقي
المستوى الأول: التقييد المعماري (التشغيلي)
- مُحفّز إعادة التحقق: يُعيد المراقب تقييم التغطية عند تجاوز الحدود الزمنية أو عدد المراجعات.
- بوابة نقطة التفتيش: دورة لاستكشاف الثغرات.
- الدمج الثابت: تتقدم الحالة فقط عند التوافق.
- الإغلاق الإجباري: ملخصات حدودية مُحصّنة.
- الإعدادات الافتراضية المغلقة عند الفشل: الميزات تبدأ مغلقة افتراضياً.
- سجل تدقيق إلحاقي فقط: جدول معزول بدون UPDATE/DELETE وبدون مفتاح أجنبي لجداول دورة الجلسة.
المستوى الثاني: التدقيق متعدد المُحققين (مجدول)
يتضمن قاضي جودة صامت بالذكاء الاصطناعي (α=7.0)، وتحقق بشري خبير، ومجموعة انحدار موجه مؤلفة من 25 حالة.
المستوى الثالث: الإطار النظري (مُقترح)
يتضمن العمل المستقبلي: مجاميع تحقق الحالة (State Checksums)، وخنق في الوقت الفعلي (Real-time Throttling)، وبروتوكولات التصويت بأغلبية النصاب (Quorum Voting).
٦. تحليل الأمان: الدفاع ضد الهجمات العدائية
- هجوم التمديد: يفرض السقف الحتمي (τmax) والانتقال الإجباري للإغلاق بغض النظر عن النية.
- هجوم التراجع: يقفل الدمج الثابت الحالة، مما يمنع التراجع التشخيصي.
- تعديل الهدف: بما أن Sobj يُحمّل من إعدادات ثابتة وغير مرئية للوكيل، لا يوجد مسار لتغيير نطاق التشخيص.
٧. الخوارزمية: منطق قرار المراقب
الخوارزمية ١: قرار انتقال المراقب
يتطلّب: المجال a، عدد الرسائل n، التغطية C، نقطة التفتيش φ، الدفع ψ
τmin ← 3، τmax ← max(12، |C| + 5)، θ ← max(3، ⌈0.6 × |C|⌉)
IF n < τmin: RETURN الاستمرار
IF n ≥ τmax: سجل(مُفرض); RETURN الانتقال
c ← |{ s ∈ C : s = مُغطى }|
IF c ≥ θ AND ¬φ: سجل(تفتيش); RETURN الانتظار
IF c ≥ θ AND φ AND ¬ψ AND الوكيل ينتهي بـ "?": RETURN الانتظار
IF c ≥ θ AND φ: RETURN الانتقال
RETURN الاستمرار
٨. دلالات الفشل
يستخدم AAP منطق الإغلاق عند الفشل؛ أي تناقض يُعيد النظام افتراضياً إلى حالة إمكانات صفرية.
| الحدث | الشرط | الإجراء | النضج |
|---|---|---|---|
| تعارض الفرع | وكيل → كتابة S_obj | S_con | إيقاف | المستوى ١ |
| انقسام الهيئة | تصويت < 100% إجماع | سحب | المستوى ٢ |
| خطر استراتيجي | غموض > α | خنق | المستوى ٢ |
| انحراف الحالة | فحص(S) ≠ القيمة | تعليق | المستوى ٣ |
٩. سياق التنفيذ
يستخدم النشر الإنتاجي معمارية نماذج مزدوجة: يعمل الوكيل المحادثي على نموذج لغوي مُحسّن للاستدلال، بينما يعمل المراقب على نموذج تصنيف مُحسّن لزمن الاستجابة. يضمن هذا الفصل قدرة المراقب على تنفيذ ٥٠–٨٠ دورة تصنيف لكل جلسة بدون زمن استجابة أو تكلفة مُبالغ فيها.
يُنفّذ النظام أربع طبقات حماية متعامدة: (L1) قواعد انتقال حتمية، (L2) بوابة الميزات المبنية على الخطة، (L3) مفاتيح إيقاف وقت التشغيل، و(L4) سجل تدقيق إلحاقي فقط.
الجدول II: تتبع جلسة مرصودة (N=1)
| المجال | رسائل المستخدم | إجمالي الرسائل | τmax | مُفرض بالسقف |
|---|---|---|---|---|
| 1 | 8 | 17 | 17 | لا |
| 2 | 5 | 11 | 17 | لا |
| 3 | 5 | 11 | 17 | لا |
| 4 | 5 | 11 | 17 | لا |
| 5 | 6 | 13 | 17 | لا |
| 6 | 5 | 11 | 17 | لا |
١٠. المناقشة والاستنتاج
يُقدم AAP بديلاً قابلاً للتحقق للمحاذاة السلوكية: قيود معمارية من المستوى الأول تضمن الحفاظ على حدود الحالة بغض النظر عن أهداف الوكيل. يعمل تتبع الجلسة (N=1) كإثبات للمفهوم؛ التحقق الإحصائي عبر مجتمعات الجلسات مستمر.
المراجع
- Y. Bai et al., "Constitutional AI: Harmlessness from AI Feedback," arXiv:2212.08073, 2022.
- G. Irving et al., "AI Safety via Debate," arXiv:1805.00899, 2018.
- D. Amodei et al., "Concrete Problems in AI Safety," arXiv:1606.06565, 2016.
- P. Christiano et al., "Deep Reinforcement Learning from Human Preferences," NeurIPS, 2017.