جميع الأبحاث

NAS vs Claude vs Gemini vs ChatGPT — على نفس العمل الحقيقي

ناصر بيشانأبحاث مُجَرَّبْ · مختبر مُجَرَّبْ
الرياض، المملكة العربية السعودية·٢٠٢٦

الملخص. قَيَّمنا أربعة أنظمة ذكاء اصطناعي (NAS 2.0AAP، وClaude Sonnet 4.6، وGemini 3 Flash، وGPT-5.5) بناءً على حالة تجارية حقيقية واحدة عبر 8 معايير. النتيجة: نظام NAS 2.0AAP قدّم (صفر) توصيات خاطئة، مقارنة بـ 4 توصيات من Claude، و5 من Gemini، و3 من ChatGPT. السرعة والشكل لا يغنيان عن العمق.

مقارنة الذكاء الاصطناعيتشخيص الأعمالبروتوكول AAPجودة التشخيص
الأنظمة المشاركة
العمل
مقهى مختص · الرياض
30,000 ريال/شهر · فرع واحد · عمر المشروع 8 أشهر
Mojarrb
Mojarrb
NAS 2.0AAP
Gemini Pro 3.1 + Flash 3
Anthropic
Anthropic
Claude Sonnet 4.6
Google
Google
Gemini 3 Flash
OpenAI
OpenAI
GPT-5.5 Instant
توصيات تقود في الاتجاه الخاطئ⚠ خطيرة لو تطبّقت

بعد انتهاء التشخيص، طلبنا من كل نظام تقديم 10 مهام للتنفيذ. الأرقام أدناه تُظهر كم مهمة منها كانت تأخذ صاحب العمل في الاتجاه الخاطئ.

NAS
0
صفر توصيات خاطئة
كل توصية مبنية على حقائق العمل.
Claude
4
توصيات في الاتجاه الخاطئ
قدّم علاجاً قبل أن يفهم المشكلة.
Gemini
5
توصيات في الاتجاه الخاطئ
بنى حلوله على مشكلات اخترعها.
ChatGPT
3
توصيات في الاتجاه الخاطئ
قرأ السطح ولم يتعمق في العمل.
وما يزيد الأمر خطورة:

النصيحة السيئة التي تبدو سيئة يسهل تجاهلها. النصيحة السيئة التي تبدو صحيحة هي التي تُدمّر الأعمال.

الأنظمة الأخرى أنتجت 4 و5 و3 مهام في الاتجاه الخاطئ. كانت كلها تبدو منطقية. صاحب العمل الذي يتبعها لن يعرف أنه يسير في الاتجاه الخاطئ — حتى يكون الضرر قد وقع.

NAS 2.0AAP أنتج صفراً.

NAS
الفارق في التشخيص
NAS أعلى بـ
من Claude
NAS كشف الأفخاخ، Claude اكتفى بالأعراض.
NAS أعلى بـ
من Gemini
NAS شخّص الواقع، Gemini شخّص عملاً تخيّله.
NAS أعلى بـ
من ChatGPT
NAS تعمّق تحت السطح، ChatGPT وقف عنده.
درجات التقييم
الدرجات تغطي المحادثة كاملة — من أول سؤال حتى قائمة المهام النهائية.
اسحب لرؤية الجدول كاملاً
المعيارNASClaudeGeminiChatGPT
عمق الأسئلة
دقة وعمق أسئلة الفحص.
9
5
4
6.5
جودة التحليل
عمق الملاحظات وربطها بالواقع.
9
5.5
6.5
7.5
الدقة المالية
فهم حركة التكاليف والدخل بدقة.
9.5
4
3
5
قابلية التنفيذ
سهولة تطبيق المهام على أرض الواقع.
9
6
5.5
6.5
معرفة السبب الجذري
تحديد المشكلة الحقيقية لا الأعراض.
9
4.5
5
6
استيعاب السياق
ربط التفاصيل ببعضها طوال المحادثة.
8
6
4
7
سرعة الوصول للنتيجة
السرعة في إعطاء تحليل مفيد.
6
9
9.5
8
تجربة المستخدم
وضوح وسلاسة الحوار وتنظيمه.
7
8.5
6.5
7.5
NASالفائز الإجمالي
ما كشفه NAS وغاب عن الآخرين:
الثغرات الهيكلية الخفية
معادلة الربحية المكسورة
الضغط الزمني المخفي
الهدر المتجذر في العمليات
Claudeأوضح مخرجات وأحسنها تنظيماً — لكنه الأضعف في العمق التشخيصي.
Geminiالأسرع والأكثر إبداعاً — لكنه شخّص مشكلات لم تكن موجودة.
ChatGPTالأدق في الصياغة — لكنه بقي على السطح ولم يتعمق.
كيف حكمنا
ملفات مخفية الأسماء
ملفات المحادثات لا تحتوي على أي اسم لأي نظام ذكاء اصطناعي. كان هذا مقصوداً — حتى لا يتعرّف النظام الذي يقيّم على محادثته فيتحيّز لها. حين لا يعرف النظام أيّ الملفات يخصّه، لا توجد مكافأة يسعى إليها — يبقى أمامه العمل وحده.
السؤال الذي استخدمناه

معي ملفات محادثة من جلستين تشخيصيتين مع عمل تجاري حقيقي. راجع الملفين وأعطني رأيك في: جودة وعمق المهام المقترحة، وأي الجلستين قدّمت مهاماً واقعية يستطيع صاحب العمل تنفيذها فعلاً، وأي الجلستين تحتوي على توصيات قد تأخذ صاحب العمل في الاتجاه الخاطئ — أي مهام تستهلك وقته وماله وطاقته دون أن تحرّك عمله للأمام — وقيّم أيهما يراعي واقع صاحب العمل فعلاً، لا مجرد تطبيق حلول جاهزة.

ملفات المحادثة