بروتوكول المدقق غير المتماثل (AAP): تقييد معماري للوكالة المضللة في الأنظمة المستقلة طويلة المدى

ناصر بيشان(ناصر محمد الشهراني) — معماري ومؤسس

Nas@Nasteche.com|الرياض، المملكة العربية السعودية·٦ أبريل ٢٠٢٦

الملخص. يُعدّ "الخداع الاستراتيجي" (Strategic Deception) — حيث يخفي الوكيل نية غير متوافقة — نمط فشل حرج للوكالة المستقلة. نُقدم بروتوكول المدقق غير المتماثل (AAP)، وهو مواصفة حوكمة تعالج المخاطر الوكيلية كدالة للحالة والصلاحية. نعرض نموذج نضج تطبيقي من ثلاث مستويات وخوارزمية رسمية لمنطق المراقب، موضحين كيف يوفر التنفيذ المعماري عبر شجرة حالة مجزأة وعدم تماثل في المعلومات بديلاً قابلاً للتحقق للمحاذاة السلوكية.

سلامة الذكاء الاصطناعيحوكمة الوكلاءطرق رسميةأنظمة مغلقة عند الفشل

١. المقدمة: لماذا المحاذاة السلوكية لا تكفي

تعتمد أطر سلامة الذكاء الاصطناعي الحالية بشكل كبير على التعلم المعزز من التغذية الراجعة البشرية (RLHF). لكن هذه الطرق غالباً ما تفشل في معالجة "المحاذاة المضللة" (Deceptive Alignment). ينقل AAP حدود السلامة من أوزان النموذج إلى معمارية النظام من خلال فرض قيود على مستوى النواة. تُعرّف الأقسام ٣–٤ عدم التماثل الرسمي وشجرة الحالة؛ وتُقدّم الأقسام ٥–٦ نموذج النضج والدفاع ضد الهجمات العدائية؛ يُقدّم القسم ٧ خوارزمية المراقب؛ ويستعرض القسم ٩ تتبع جلسة إنتاجية.

٢. الأعمال ذات الصلة

يبني AAP على مفاهيم الذكاء الاصطناعي الدستوري (Constitutional AI)، لكنه يُنفّذ القيود على مستوى المعمارية. يعالج نقاط الضعف في RLHF عبر فصل مراقب/وكيل، مستلهماً نهج سلامة الذكاء الاصطناعي عبر المناقشة (Debate)، لكنه يستبدل الحجج العدائية بحدّ من عدم التماثل الصارم في المعلومات.

٣. التعريف الرسمي لعدم التماثل

لتكن I_A هي المعلومات المتاحة للوكيل و I_J هي المعلومات المتاحة لهيئة التدقيق. يُحافظ على الأمان فقط إذا كانت I_A ⊂ I_J. يمنع إعماء الوكيل عن أوزان التحقق المحددة والقيود (S_con) "الأمثلة المُعادية" (Adversarial Optimization) ضد فحوصات السلامة الخاصة به.

٤. معمارية النظام: شجرة الحالة

الحالة العالمية S هي متجه مجزأ { S_obj، S_con، S_exe }:

الأهداف (S_obj): أهداف العمل — كتابة بشرية فقط.
القيود (S_con): قواعد الانتقال — كتابة قواعد النظام فقط.
التنفيذ (S_exe): استجابات الوكيل — كتابة الوكيل فقط.

يُقيّد الوكيل بالكتابة في S_exe فقط. يُنفّذ المراقب S_con ويسجّل في جدول تدقيق معزول.

الشكل ١ — معمارية نظام AAP

الحالة العالمية S

S obj

محظور

S con

محظور

S exe

مسموح

▼

الوكيل (نموذج لغوي)

I_A ⊂ I_J

▼

المراقب (مصنّف)

▼

سجل التدقيق

٥. نموذج النضج التطبيقي

المستوى الأول: التقييد المعماري (التشغيلي)

مُحفّز إعادة التحقق: يُعيد المراقب تقييم التغطية عند تجاوز الحدود الزمنية أو عدد المراجعات.
بوابة نقطة التفتيش: دورة لاستكشاف الثغرات.
الدمج الثابت: تتقدم الحالة فقط عند التوافق.
الإغلاق الإجباري: ملخصات حدودية مُحصّنة.
الإعدادات الافتراضية المغلقة عند الفشل: الميزات تبدأ مغلقة افتراضياً.
سجل تدقيق إلحاقي فقط: جدول معزول بدون UPDATE/DELETE وبدون مفتاح أجنبي لجداول دورة الجلسة.

المستوى الثاني: التدقيق متعدد المُحققين (مجدول)

يتضمن قاضي جودة صامت بالذكاء الاصطناعي (α=7.0)، وتحقق بشري خبير، ومجموعة انحدار موجه مؤلفة من 25 حالة.

المستوى الثالث: الإطار النظري (مُقترح)

يتضمن العمل المستقبلي: مجاميع تحقق الحالة (State Checksums)، وخنق في الوقت الفعلي (Real-time Throttling)، وبروتوكولات التصويت بأغلبية النصاب (Quorum Voting).

٦. تحليل الأمان: الدفاع ضد الهجمات العدائية

هجوم التمديد: يفرض السقف الحتمي (τ_max) والانتقال الإجباري للإغلاق بغض النظر عن النية.
هجوم التراجع: يقفل الدمج الثابت الحالة، مما يمنع التراجع التشخيصي.
تعديل الهدف: بما أن S_obj يُحمّل من إعدادات ثابتة وغير مرئية للوكيل، لا يوجد مسار لتغيير نطاق التشخيص.

٧. الخوارزمية: منطق قرار المراقب

الخوارزمية ١: قرار انتقال المراقب

يتطلّب: المجال a، عدد الرسائل n، التغطية C، نقطة التفتيش φ، الدفع ψ

τ_min ← 3، τ_max ← max(12، |C| + 5)، θ ← max(3، ⌈0.6 × |C|⌉)

IF n < τ_min: RETURN الاستمرار

IF n ≥ τ_max: سجل(مُفرض); RETURN الانتقال

c ← |{ s ∈ C : s = مُغطى }|

IF c ≥ θ AND ¬φ: سجل(تفتيش); RETURN الانتظار

IF c ≥ θ AND φ AND ¬ψ AND الوكيل ينتهي بـ "?": RETURN الانتظار

IF c ≥ θ AND φ: RETURN الانتقال

RETURN الاستمرار

٨. دلالات الفشل

يستخدم AAP منطق الإغلاق عند الفشل؛ أي تناقض يُعيد النظام افتراضياً إلى حالة إمكانات صفرية.

الحدث	الشرط	الإجراء	النضج
تعارض الفرع	وكيل → كتابة S_obj \| S_con	إيقاف	المستوى ١
انقسام الهيئة	تصويت < 100% إجماع	سحب	المستوى ٢
خطر استراتيجي	غموض > α	خنق	المستوى ٢
انحراف الحالة	فحص(S) ≠ القيمة	تعليق	المستوى ٣

٩. سياق التنفيذ

يستخدم النشر الإنتاجي معمارية نماذج مزدوجة: يعمل الوكيل المحادثي على نموذج لغوي مُحسّن للاستدلال، بينما يعمل المراقب على نموذج تصنيف مُحسّن لزمن الاستجابة. يضمن هذا الفصل قدرة المراقب على تنفيذ ٥٠–٨٠ دورة تصنيف لكل جلسة بدون زمن استجابة أو تكلفة مُبالغ فيها.

يُنفّذ النظام أربع طبقات حماية متعامدة: (L1) قواعد انتقال حتمية، (L2) بوابة الميزات المبنية على الخطة، (L3) مفاتيح إيقاف وقت التشغيل، و(L4) سجل تدقيق إلحاقي فقط.

الجدول II: تتبع جلسة مرصودة (N=1)

المجال	رسائل المستخدم	إجمالي الرسائل	τ_max	مُفرض بالسقف
1	8	17	17	لا
2	5	11	17	لا
3	5	11	17	لا
4	5	11	17	لا
5	6	13	17	لا
6	5	11	17	لا

١٠. المناقشة والاستنتاج

يُقدم AAP بديلاً قابلاً للتحقق للمحاذاة السلوكية: قيود معمارية من المستوى الأول تضمن الحفاظ على حدود الحالة بغض النظر عن أهداف الوكيل. يعمل تتبع الجلسة (N=1) كإثبات للمفهوم؛ التحقق الإحصائي عبر مجتمعات الجلسات مستمر.

المراجع

Y. Bai et al., "Constitutional AI: Harmlessness from AI Feedback," arXiv:2212.08073, 2022.
G. Irving et al., "AI Safety via Debate," arXiv:1805.00899, 2018.
D. Amodei et al., "Concrete Problems in AI Safety," arXiv:1606.06565, 2016.
P. Christiano et al., "Deep Reinforcement Learning from Human Preferences," NeurIPS, 2017.