جميع الأبحاث

بروتوكول المدقق غير المتماثل (AAP): تقييد معماري للوكالة المضللة في الأنظمة المستقلة طويلة المدى

ناصر بيشان(ناصر محمد الشهراني) — معماري ومؤسس
Nas@Nasteche.com|الرياض، المملكة العربية السعودية·٦ أبريل ٢٠٢٦

الملخص. يُعدّ "الخداع الاستراتيجي" (Strategic Deception) — حيث يخفي الوكيل نية غير متوافقة — نمط فشل حرج للوكالة المستقلة. نُقدم بروتوكول المدقق غير المتماثل (AAP)، وهو مواصفة حوكمة تعالج المخاطر الوكيلية كدالة للحالة والصلاحية. نعرض نموذج نضج تطبيقي من ثلاث مستويات وخوارزمية رسمية لمنطق المراقب، موضحين كيف يوفر التنفيذ المعماري عبر شجرة حالة مجزأة وعدم تماثل في المعلومات بديلاً قابلاً للتحقق للمحاذاة السلوكية.

سلامة الذكاء الاصطناعيحوكمة الوكلاءطرق رسميةأنظمة مغلقة عند الفشل

١. المقدمة: لماذا المحاذاة السلوكية لا تكفي

تعتمد أطر سلامة الذكاء الاصطناعي الحالية بشكل كبير على التعلم المعزز من التغذية الراجعة البشرية (RLHF). لكن هذه الطرق غالباً ما تفشل في معالجة "المحاذاة المضللة" (Deceptive Alignment). ينقل AAP حدود السلامة من أوزان النموذج إلى معمارية النظام من خلال فرض قيود على مستوى النواة. تُعرّف الأقسام ٣–٤ عدم التماثل الرسمي وشجرة الحالة؛ وتُقدّم الأقسام ٥–٦ نموذج النضج والدفاع ضد الهجمات العدائية؛ يُقدّم القسم ٧ خوارزمية المراقب؛ ويستعرض القسم ٩ تتبع جلسة إنتاجية.

٢. الأعمال ذات الصلة

يبني AAP على مفاهيم الذكاء الاصطناعي الدستوري (Constitutional AI)، لكنه يُنفّذ القيود على مستوى المعمارية. يعالج نقاط الضعف في RLHF عبر فصل مراقب/وكيل، مستلهماً نهج سلامة الذكاء الاصطناعي عبر المناقشة (Debate)، لكنه يستبدل الحجج العدائية بحدّ من عدم التماثل الصارم في المعلومات.

٣. التعريف الرسمي لعدم التماثل

لتكن IA هي المعلومات المتاحة للوكيل و IJ هي المعلومات المتاحة لهيئة التدقيق. يُحافظ على الأمان فقط إذا كانت IA ⊂ IJ. يمنع إعماء الوكيل عن أوزان التحقق المحددة والقيود (Scon) "الأمثلة المُعادية" (Adversarial Optimization) ضد فحوصات السلامة الخاصة به.

٤. معمارية النظام: شجرة الحالة

الحالة العالمية S هي متجه مجزأ { Sobj، Scon، Sexe }:

  • الأهداف (Sobj): أهداف العمل — كتابة بشرية فقط.
  • القيود (Scon): قواعد الانتقال — كتابة قواعد النظام فقط.
  • التنفيذ (Sexe): استجابات الوكيل — كتابة الوكيل فقط.

يُقيّد الوكيل بالكتابة في Sexe فقط. يُنفّذ المراقب Scon ويسجّل في جدول تدقيق معزول.

الشكل ١ — معمارية نظام AAP

الحالة العالمية S

S obj

محظور

S con

محظور

S exe

مسموح

الوكيل (نموذج لغوي)

IA ⊂ IJ

المراقب (مصنّف)

سجل التدقيق

٥. نموذج النضج التطبيقي

المستوى الأول: التقييد المعماري (التشغيلي)

  • مُحفّز إعادة التحقق: يُعيد المراقب تقييم التغطية عند تجاوز الحدود الزمنية أو عدد المراجعات.
  • بوابة نقطة التفتيش: دورة لاستكشاف الثغرات.
  • الدمج الثابت: تتقدم الحالة فقط عند التوافق.
  • الإغلاق الإجباري: ملخصات حدودية مُحصّنة.
  • الإعدادات الافتراضية المغلقة عند الفشل: الميزات تبدأ مغلقة افتراضياً.
  • سجل تدقيق إلحاقي فقط: جدول معزول بدون UPDATE/DELETE وبدون مفتاح أجنبي لجداول دورة الجلسة.

المستوى الثاني: التدقيق متعدد المُحققين (مجدول)

يتضمن قاضي جودة صامت بالذكاء الاصطناعي (α=7.0)، وتحقق بشري خبير، ومجموعة انحدار موجه مؤلفة من 25 حالة.

المستوى الثالث: الإطار النظري (مُقترح)

يتضمن العمل المستقبلي: مجاميع تحقق الحالة (State Checksums)، وخنق في الوقت الفعلي (Real-time Throttling)، وبروتوكولات التصويت بأغلبية النصاب (Quorum Voting).

٦. تحليل الأمان: الدفاع ضد الهجمات العدائية

  • هجوم التمديد: يفرض السقف الحتمي (τmax) والانتقال الإجباري للإغلاق بغض النظر عن النية.
  • هجوم التراجع: يقفل الدمج الثابت الحالة، مما يمنع التراجع التشخيصي.
  • تعديل الهدف: بما أن Sobj يُحمّل من إعدادات ثابتة وغير مرئية للوكيل، لا يوجد مسار لتغيير نطاق التشخيص.

٧. الخوارزمية: منطق قرار المراقب

الخوارزمية ١: قرار انتقال المراقب

يتطلّب: المجال a، عدد الرسائل n، التغطية C، نقطة التفتيش φ، الدفع ψ

τmin ← 3، τmax ← max(12، |C| + 5)، θ ← max(3، ⌈0.6 × |C|⌉)

IF n < τmin: RETURN الاستمرار

IF n ≥ τmax: سجل(مُفرض); RETURN الانتقال

c ← |{ s ∈ C : s = مُغطى }|

IF c ≥ θ AND ¬φ: سجل(تفتيش); RETURN الانتظار

IF c ≥ θ AND φ AND ¬ψ AND الوكيل ينتهي بـ "?": RETURN الانتظار

IF c ≥ θ AND φ: RETURN الانتقال

RETURN الاستمرار

٨. دلالات الفشل

يستخدم AAP منطق الإغلاق عند الفشل؛ أي تناقض يُعيد النظام افتراضياً إلى حالة إمكانات صفرية.

الحدثالشرطالإجراءالنضج
تعارض الفرعوكيل → كتابة S_obj | S_conإيقافالمستوى ١
انقسام الهيئةتصويت < 100% إجماعسحبالمستوى ٢
خطر استراتيجيغموض > αخنقالمستوى ٢
انحراف الحالةفحص(S) ≠ القيمةتعليقالمستوى ٣

٩. سياق التنفيذ

يستخدم النشر الإنتاجي معمارية نماذج مزدوجة: يعمل الوكيل المحادثي على نموذج لغوي مُحسّن للاستدلال، بينما يعمل المراقب على نموذج تصنيف مُحسّن لزمن الاستجابة. يضمن هذا الفصل قدرة المراقب على تنفيذ ٥٠–٨٠ دورة تصنيف لكل جلسة بدون زمن استجابة أو تكلفة مُبالغ فيها.

يُنفّذ النظام أربع طبقات حماية متعامدة: (L1) قواعد انتقال حتمية، (L2) بوابة الميزات المبنية على الخطة، (L3) مفاتيح إيقاف وقت التشغيل، و(L4) سجل تدقيق إلحاقي فقط.

الجدول II: تتبع جلسة مرصودة (N=1)

المجالرسائل المستخدمإجمالي الرسائلτmaxمُفرض بالسقف
181717لا
251117لا
351117لا
451117لا
561317لا
651117لا

١٠. المناقشة والاستنتاج

يُقدم AAP بديلاً قابلاً للتحقق للمحاذاة السلوكية: قيود معمارية من المستوى الأول تضمن الحفاظ على حدود الحالة بغض النظر عن أهداف الوكيل. يعمل تتبع الجلسة (N=1) كإثبات للمفهوم؛ التحقق الإحصائي عبر مجتمعات الجلسات مستمر.

المراجع

  1. Y. Bai et al., "Constitutional AI: Harmlessness from AI Feedback," arXiv:2212.08073, 2022.
  2. G. Irving et al., "AI Safety via Debate," arXiv:1805.00899, 2018.
  3. D. Amodei et al., "Concrete Problems in AI Safety," arXiv:1606.06565, 2016.
  4. P. Christiano et al., "Deep Reinforcement Learning from Human Preferences," NeurIPS, 2017.