NAS vs Claude vs Gemini vs ChatGPT — على نفس العمل الحقيقي
الملخص. قَيَّمنا أربعة أنظمة ذكاء اصطناعي (NAS 2.0AAP، وClaude Sonnet 4.6، وGemini 3 Flash، وGPT-5.5) بناءً على حالة تجارية حقيقية واحدة عبر 8 معايير. النتيجة: نظام NAS 2.0AAP قدّم (صفر) توصيات خاطئة، مقارنة بـ 4 توصيات من Claude، و5 من Gemini، و3 من ChatGPT. السرعة والشكل لا يغنيان عن العمق.
بعد انتهاء التشخيص، طلبنا من كل نظام تقديم 10 مهام للتنفيذ. الأرقام أدناه تُظهر كم مهمة منها كانت تأخذ صاحب العمل في الاتجاه الخاطئ.
النصيحة السيئة التي تبدو سيئة يسهل تجاهلها. النصيحة السيئة التي تبدو صحيحة هي التي تُدمّر الأعمال.
الأنظمة الأخرى أنتجت 4 و5 و3 مهام في الاتجاه الخاطئ. كانت كلها تبدو منطقية. صاحب العمل الذي يتبعها لن يعرف أنه يسير في الاتجاه الخاطئ — حتى يكون الضرر قد وقع.
NAS 2.0AAP أنتج صفراً.
| المعيار | NAS | Claude | Gemini | ChatGPT |
|---|---|---|---|---|
عمق الأسئلة دقة وعمق أسئلة الفحص. | 9 | 5 | 4 | 6.5 |
جودة التحليل عمق الملاحظات وربطها بالواقع. | 9 | 5.5 | 6.5 | 7.5 |
الدقة المالية فهم حركة التكاليف والدخل بدقة. | 9.5 | 4 | 3 | 5 |
قابلية التنفيذ سهولة تطبيق المهام على أرض الواقع. | 9 | 6 | 5.5 | 6.5 |
معرفة السبب الجذري تحديد المشكلة الحقيقية لا الأعراض. | 9 | 4.5 | 5 | 6 |
استيعاب السياق ربط التفاصيل ببعضها طوال المحادثة. | 8 | 6 | 4 | 7 |
سرعة الوصول للنتيجة السرعة في إعطاء تحليل مفيد. | 6 | 9 | 9.5 | 8 |
تجربة المستخدم وضوح وسلاسة الحوار وتنظيمه. | 7 | 8.5 | 6.5 | 7.5 |
معي ملفات محادثة من جلستين تشخيصيتين مع عمل تجاري حقيقي. راجع الملفين وأعطني رأيك في: جودة وعمق المهام المقترحة، وأي الجلستين قدّمت مهاماً واقعية يستطيع صاحب العمل تنفيذها فعلاً، وأي الجلستين تحتوي على توصيات قد تأخذ صاحب العمل في الاتجاه الخاطئ — أي مهام تستهلك وقته وماله وطاقته دون أن تحرّك عمله للأمام — وقيّم أيهما يراعي واقع صاحب العمل فعلاً، لا مجرد تطبيق حلول جاهزة.