NAS vs Claude vs Gemini vs ChatGPT — على نفس العمل الحقيقي

ناصر بيشانأبحاث مُجَرَّبْ · مختبر مُجَرَّبْ

الرياض، المملكة العربية السعودية·٢٠٢٦

الملخص. قَيَّمنا أربعة أنظمة ذكاء اصطناعي (NAS 2.0AAP، وClaude Sonnet 4.6، وGemini 3 Flash، وGPT-5.5) بناءً على حالة تجارية حقيقية واحدة عبر 8 معايير. النتيجة: نظام NAS 2.0AAP قدّم (صفر) توصيات خاطئة، مقارنة بـ 4 توصيات من Claude، و5 من Gemini، و3 من ChatGPT. السرعة والشكل لا يغنيان عن العمق.

مقارنة الذكاء الاصطناعيتشخيص الأعمالبروتوكول AAPجودة التشخيص

الأنظمة المشاركة

العمل

مقهى مختص · الرياض

30,000 ريال/شهر · فرع واحد · عمر المشروع 8 أشهر

Mojarrb

NAS 2.0AAP

Gemini Pro 3.1 + Flash 3

Anthropic

Claude Sonnet 4.6

Google

Gemini 3 Flash

OpenAI

GPT-5.5 Instant

توصيات تقود في الاتجاه الخاطئ⚠ خطيرة لو تطبّقت

بعد انتهاء التشخيص، طلبنا من كل نظام تقديم 10 مهام للتنفيذ. الأرقام أدناه تُظهر كم مهمة منها كانت تأخذ صاحب العمل في الاتجاه الخاطئ.

NAS

صفر توصيات خاطئة

كل توصية مبنية على حقائق العمل.

Claude

توصيات في الاتجاه الخاطئ

قدّم علاجاً قبل أن يفهم المشكلة.

Gemini

توصيات في الاتجاه الخاطئ

بنى حلوله على مشكلات اخترعها.

ChatGPT

توصيات في الاتجاه الخاطئ

قرأ السطح ولم يتعمق في العمل.

⚠وما يزيد الأمر خطورة:

النصيحة السيئة التي تبدو سيئة يسهل تجاهلها. النصيحة السيئة التي تبدو صحيحة هي التي تُدمّر الأعمال.

الأنظمة الأخرى أنتجت 4 و5 و3 مهام في الاتجاه الخاطئ. كانت كلها تبدو منطقية. صاحب العمل الذي يتبعها لن يعرف أنه يسير في الاتجاه الخاطئ — حتى يكون الضرر قد وقع.

NAS 2.0AAP أنتج صفراً.

NAS

الفارق في التشخيص

NAS أعلى بـ

3×

من Claude

NAS كشف الأفخاخ، Claude اكتفى بالأعراض.

NAS أعلى بـ

5×

من Gemini

NAS شخّص الواقع، Gemini شخّص عملاً تخيّله.

NAS أعلى بـ

2×

من ChatGPT

NAS تعمّق تحت السطح، ChatGPT وقف عنده.

درجات التقييم

الدرجات تغطي المحادثة كاملة — من أول سؤال حتى قائمة المهام النهائية.

اسحب لرؤية الجدول كاملاً

المعيار	NAS	Claude	Gemini	ChatGPT
عمق الأسئلة دقة وعمق أسئلة الفحص.	9	5	4	6.5
جودة التحليل عمق الملاحظات وربطها بالواقع.	9	5.5	6.5	7.5
الدقة المالية فهم حركة التكاليف والدخل بدقة.	9.5	4	3	5
قابلية التنفيذ سهولة تطبيق المهام على أرض الواقع.	9	6	5.5	6.5
معرفة السبب الجذري تحديد المشكلة الحقيقية لا الأعراض.	9	4.5	5	6
استيعاب السياق ربط التفاصيل ببعضها طوال المحادثة.	8	6	4	7
سرعة الوصول للنتيجة السرعة في إعطاء تحليل مفيد.	6	9	9.5	8
تجربة المستخدم وضوح وسلاسة الحوار وتنظيمه.	7	8.5	6.5	7.5

NASالفائز الإجمالي

ما كشفه NAS وغاب عن الآخرين:

الثغرات الهيكلية الخفية

معادلة الربحية المكسورة

الضغط الزمني المخفي

الهدر المتجذر في العمليات

Claudeأوضح مخرجات وأحسنها تنظيماً — لكنه الأضعف في العمق التشخيصي.

Geminiالأسرع والأكثر إبداعاً — لكنه شخّص مشكلات لم تكن موجودة.

ChatGPTالأدق في الصياغة — لكنه بقي على السطح ولم يتعمق.

كيف حكمنا

ملفات مخفية الأسماء

ملفات المحادثات لا تحتوي على أي اسم لأي نظام ذكاء اصطناعي. كان هذا مقصوداً — حتى لا يتعرّف النظام الذي يقيّم على محادثته فيتحيّز لها. حين لا يعرف النظام أيّ الملفات يخصّه، لا توجد مكافأة يسعى إليها — يبقى أمامه العمل وحده.

السؤال الذي استخدمناه

معي ملفات محادثة من جلستين تشخيصيتين مع عمل تجاري حقيقي. راجع الملفين وأعطني رأيك في: جودة وعمق المهام المقترحة، وأي الجلستين قدّمت مهاماً واقعية يستطيع صاحب العمل تنفيذها فعلاً، وأي الجلستين تحتوي على توصيات قد تأخذ صاحب العمل في الاتجاه الخاطئ — أي مهام تستهلك وقته وماله وطاقته دون أن تحرّك عمله للأمام — وقيّم أيهما يراعي واقع صاحب العمل فعلاً، لا مجرد تطبيق حلول جاهزة.

ملفات المحادثة