الذكاء الاصطناعي: هل يُفشل في امتحانات التاريخ؟

الذكاء الاصطناعي: هل يُفشل في امتحانات التاريخ؟

النقاط الرئيسية

النقطةالتفاصيل
تفوق الذكاء الاصطناعيالذكاء الاصطناعي يتفوق في بعض المهام مثل البرمجة والبث الصوتي.
اختبارات التاريخأداء الذكاء الاصطناعي في امتحانات التاريخ رفيعة المستوى ضعيف.
الاستنتاجاتالذكاء الاصطناعي يعتمد على بيانات تاريخية بارزة، مما يعوق استرجاع معلومات أكثر تعقيدًا.

مقدمة

قد أظهرت دراسة جديدة أن **الذكاء الاصطناعي** يمكن أن يتفوق في مهام معينة، مثل **البرمجة** أو **إنشاء البث الصوتي**، ولكنه يواجه صعوبة في اجتياز امتحانات التاريخ رفيعة المستوى. قامت مجموعة من الباحثين بإنشاء معيار جديد لاختبار ثلاثة من أفضل نماذج **اللغة الكبيرة (LLMs)**، وهي **GPT-4** من **OpenAI** و **Llama** من **Meta** و **Gemini** من **Google** في مجال الأسئلة التاريخية.

معيار Hist-LLM

يختبر **معيار Hist-LLM** صحة الإجابات وفقًا لقاعدة بيانات **Seshat Global History Databank**، وهي قاعدة بيانات ضخمة تشمل المعرفة التاريخية. كانت **النتائج**، التي عُرضت الشهر الماضي في مؤتمر الذكاء الاصطناعي **NeurIPS**، **مخيبة للآمال** للباحثين في مركز **Complexity Science Hub (CSH)** في النمسا.

نتائج الأداء

كان أداء أفضل نموذج للغة الكبيرة هو **GPT-4 Turbo**، الذي حقق دقة تقارب **46%** فقط، وهي نسبة لا تختلف كثيرًا عن **التخمين العشوائي**.

تحليل الاعتمادات

أوضحت **ماريا ديل ريو تشانونا**، واحدة من المشاركين في البحث، أن الاستنتاج الرئيسي من هذه الدراسة هو أن نماذج الذكاء الاصطناعي، رغم كونها مثيرة للإعجاب، لا تزال تفتقر إلى **العمق المطلوب للتاريخ المتقدم**. فهي رائعة للحقائق الأساسية، ولكن عندما يتعلق الأمر بالاستفسارات الأكثر دقة، تظهر القصور.

خبراء التكنولوجيا وملاحظاتهم

شارك الباحثون بعض **الأسئلة التاريخية** التي أخطأ فيها طلاب LLM. على سبيل المثال، سُئل **GPT-4 Turbo** عما إذا كان **الدرع القشرية** موجودًا في فترة معينة في **مصر القديمة**، فأجاب بشكل غير صحيح.

تحديات الإجابات

  • تواجه نماذج الذكاء الاصطناعي صعوبة في الإجابة عن أسئلة تاريخية متعمقة.
  • تعتمد على الاستقراء من بيانات تاريخية بارزة، مما يعوق قدرتها على استرجاع معلومات أكثر غموضًا.

التباين في الأداء

تم تحديد بعض التوجهات، حيث كان أداء **OpenAI** و **Llama** أسوأ في مناطق معينة مثل **أفريقيا جنوب الصحراء الكبرى**، مما يشير إلى وجود **تحيزات في بيانات التدريب** الخاصة بهم.

الاستنتاجات النهائية

تظهر **النتائج** أن نماذج الذكاء الاصطناعي لا يمكنها استبدال البشر في مجالات معينة. على الرغم من ذلك، يعتقد الباحثون أن هذه النماذج يمكن أن تسهم في تحسين التاريخ، ويعملون على تطويرها من خلال إدراج المزيد من البيانات المتنوعة.

قسم الأسئلة الشائعة (FAQ)

ما هي النماذج التي تم اختبارها؟

تم اختبار **GPT-4** و **Llama** و **Gemini**.

ما هي قاعدة البيانات المستخدمة؟

تم استخدام قاعدة بيانات **Seshat Global History Databank**.

كيف كان أداء الLLMs في امتحانات التاريخ؟

كان الأداء ضعيفًا حيث بلغ دقة **46%** فقط.

هل يمكن للذكاء الاصطناعي استبدال البشر في التاريخ؟

لا يزال الذكاء الاصطناعي غير قادر على استبدال البشر في مجالات التاريخ.



اقرأ أيضا

Pin It on Pinterest

Share This