يشهد عالم الذكاء الاصطناعي تطورات متسارعة، ومعها تتزايد الضغوط على النماذج اللغوية الكبيرة (LLMs) لتتجاوز مجرد الإجابة عن الاستفسارات المعقدة. فبينما برعت هذه النماذج في توليد النصوص وتلخيص المعلومات، ظل التحدي الأكبر يكمن في قدرتها على التساؤل بفاعلية، خاصة في البيئات غير المؤكدة التي تتطلب استكشافاً معمقاً، كما هو الحال في التشخيص الطبي أو الاكتشافات العلمية. هنا يأتي دور الابتكار الأخير من باحثي معهد ماساتشوستس للتقنية (MIT) وجامعة هارفارد، الذي يركز على تحسين أسئلة الذكاء الاصطناعي، ويعد بتحول جذري في كيفية تفاعل الوكلاء الأذكياء مع العالم.
لقد أظهرت الأبحاث الجديدة أن تعليم وكلاء الذكاء الاصطناعي طرح أسئلة أكثر ذكاءً يمكن أن يرفع من كفاءتها وقدرتها على تحقيق الأهداف المعقدة. فبدلاً من أن تكون مجرد أنظمة استجابة، باتت النماذج المدربة قادرة على توجيه عملية جمع المعلومات بشكل استباقي، مما يفتح آفاقاً جديدة لتطبيقاتها في مجالات تتطلب الفطنة والاستقصاء. هذه النتائج لا تعزز فقط من أداء النماذج الكبيرة، بل تظهر أيضاً إمكانات هائلة للنماذج الأصغر حجماً لتقدم مستويات أداء تنافسية بتكاليف أقل بكثير.
اقرأ أيضا: تجديد دعم معهد MIT الرائد لتعزيز الذكاء الاصطناعي والفيزياء
اقرأ أيضا: ثورة في ترجمة الآلة: فهم أعمق لكيفية عمل النماذج اللغوية الكبيرة
اقرأ أيضا: GA-ICL: قفزة نوعية في الكشف عن هلوسة نماذج اللغة الكبيرة
ما الجديد في تطوير وكلاء الذكاء الاصطناعي؟
لتعزيز قدرة النماذج اللغوية على طرح أسئلة مفيدة، قام باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) بمعهد ماساتشوستس للتقنية وكلية الهندسة والعلوم التطبيقية بجامعة هارفارد بتصميم تجربة فريدة. استخدموا لعبة ‘باتل شيب’ (Battleship) الشهيرة، التي تُعد أداة ممتازة لدراسة كيفية بحث البشر عن المعلومات. لكنهم أضافوا لمسة مبتكرة: تحويل اللعبة إلى سيناريو يتضمن طرح الأسئلة والإجابة عليها باللغة الطبيعية، أطلقوا عليه اسم ‘باتل شيب التعاونية’. ولفهم خلفية مرتبطة مباشرة بهذا الخبر، يمكن الرجوع إلى الورقة البحثية المنشورة في ICLR 2024.
في هذه اللعبة، يلعب أحد المشاركين دور ‘القبطان’ الذي يطرح أسئلة حول مواقع السفن المخفية، بينما يلعب زميله دور ‘المراقب’ الذي يجيب على هذه الأسئلة في الوقت الفعلي. قام الباحثون أولاً بجمع بيانات من أكثر من 40 إنساناً لعبوا اللعبة، مما أتاح لهم بناء مجموعة بيانات ‘BattleshipQA’. بعد ذلك، اختبروا نماذج لغوية متطورة (مثل GPT-5) وأخرى أصغر (مثل Llama 4 Scout) على هذه اللعبة. وجدوا أن النماذج الرائدة يمكنها ‘هزيمة’ البشر في اللعبة، أي إكمالها بعدد أقل من الأدوار، لكن النماذج الأصغر كانت أقل عقلانية في طرح الأسئلة.
كانت المشكلة الأساسية هي عدم براعة العديد من النماذج في صياغة أسئلة مفيدة. لمعالجة هذا، زود الباحثون كل نموذج باستراتيجية استدلال مونت كارلو (Monte Carlo inference strategy)، التي تقيس بعناية احتمالية صحة الخيارات المختلفة مع كل إجابة. كانت النتيجة مذهلة: نماذج ذكاء اصطناعي يمكنها التفوق على اللاعبين العاديين في ‘باتل شيب’، بغض النظر عن حجمها. وربما كانت النتائج الأكثر لفتاً للانتباه هي المكاسب التي حققها نموذج Llama 4 Scout، الذي ارتفع معدل فوزه من 8% فقط إلى 82% ضد البشر بفضل هذه التحسينات، متفوقاً حتى على نموذج رائد مثل GPT-5، وبتكلفة تبلغ حوالي 1% فقط من تكلفة تشغيله.
إضافة إلى ذلك، نجح الباحثون في تقليص الفجوة بين البشر والنماذج اللغوية في الإجابة على الأسئلة. فبينما كان GPT-5 مراقباً موثوقاً، كانت الأنظمة الأصغر تميل إلى إعطاء إجابات خاطئة. تم تحقيق زيادة في دقة الإجابات بنسبة 15% في المتوسط عندما بدأت النماذج في تحويل الأسئلة إلى تعليمات برمجية تخبرها صراحة بكيفية التحقق من إجاباتها، مما أدى إلى قفزات ملحوظة في الأداء، مثل تحسن بنسبة 30% لنموذج GPT-4o-mini.
الخلفية التقنية: لماذا تواجه النماذج اللغوية تحدياً في طرح الأسئلة؟
تكمن الصعوبة في قدرة النماذج اللغوية على طرح أسئلة جيدة في طبيعة تدريبها. تُصمم هذه النماذج في المقام الأول للإجابة على الاستفسارات المعقدة من خلال التنبؤ بالكلمة التالية أو الجملة الأكثر ترجيحاً بناءً على البيانات الهائلة التي تدربت عليها. هذا يجعلها ممتازة في الاستجابة للمدخلات، لكنها أقل كفاءة في توليد استفسارات استباقية تستهدف الكشف عن معلومات جديدة في بيئة غامضة أو غير مكتملة.
شرح الباحثون أن طرح أسئلة غنية بالمعلومات يعتمد على القدرة على التنبؤ بالعالم ومحاكاته. عندما لا يمتلك النموذج ‘نموذجاً عالمياً’ داخلياً – أي فهماً لكيفية عمل الأشياء وما هي المعلومات التي قد تكون مفيدة – فإنه يجد صعوبة في صياغة استفسارات استراتيجية. هنا يأتي دور استراتيجيات الاستدلال المتقدمة مثل ‘استدلال مونت كارلو’. هذه التقنية تسمح للنموذج بتقييم الاحتمالات المختلفة للحلول، وتخصيص وزن أكبر للخيارات التي تبدو أكثر صحة مع كل معلومة جديدة يتم الحصول عليها. وهذا يشبه إلى حد كبير كيف يفكر الإنسان في لعبة استراتيجية، حيث يقوم بتعديل استنتاجاته بناءً على كل قطعة من المعلومات.
أما بالنسبة لتحسين الإجابات، فقد اعتمد الباحثون على مفهوم ‘التشكيل التلقائي’ (auto-formalization)، حيث تقوم النماذج اللغوية بتوليد تعليمات برمجية للتحقق من حلولها. على سبيل المثال، بدلاً من الإجابة مباشرة على سؤال مثل ‘هل توجد سفينة في العمود الأول تمتد على صفين؟’، يقوم النموذج بتحويل هذا السؤال إلى أمر برمجي واضح يوجهه للبحث في المنطقة المحددة وتقييم حجم القطعة الرقمية. يتيح هذا النهج للنماذج فهم السؤال بدقة أكبر وتنفيذ تحقق منطقي، مما يقلل من الأخطاء ويزيد من دقة الإجابات بشكل كبير.
لماذا يهم هذا الخبر؟ الآثار المحتملة
تتجاوز أهمية هذا البحث مجرد تحسين أداء الذكاء الاصطناعي في الألعاب. فقدرة وكلاء الذكاء الاصطناعي على تحسين أسئلة الذكاء الاصطناعي بفاعلية تحمل آثاراً عميقة على عدة مستويات:
-
للمطورين والباحثين:
يوفر هذا العمل أدوات وتقنيات جديدة لبناء وكلاء ذكاء اصطناعي أكثر قوة وذكاءً. فبدلاً من التركيز فقط على تحسين قدرة النموذج على الإجابة، يمكن للمطورين الآن دمج استراتيجيات لتعزيز قدرته على الاستكشاف وجمع المعلومات. كما أن النتائج التي أظهرتها النماذج الأصغر مثل Llama 4 Scout تُشير إلى إمكانية تحقيق أداء عالٍ بتكاليف حاسوبية أقل، مما يفتح الباب أمام ابتكارات أكثر انتشاراً وتكلفة معقولة.
-
للمستخدمين:
سيلمس المستخدمون تحسناً كبيراً في قدرة المساعدين الافتراضيين وأدوات الذكاء الاصطناعي المتخصصة. تخيل مساعداً طبياً افتراضياً لا يكتفي بالرد على الأعراض، بل يطرح أسئلة استقصائية دقيقة لمساعدتك في فهم حالتك بشكل أفضل، أو مساعداً علمياً يمكنه البحث بفاعلية عن مركبات كيميائية جديدة من خلال طرح أسئلة استراتيجية حول خصائصها المحتملة. هذا يعني أدوات ذكاء اصطناعي أكثر قدرة على المساعدة في حل المشكلات المعقدة والغامضة.
-
للشركات والقطاعات الصناعية:
يمكن أن يؤدي هذا التقدم إلى ثورة في البحث والتطوير (R&D) عبر مختلف الصناعات. ففي قطاعات مثل الأدوية، يمكن لوكلاء الذكاء الاصطناعي المجهزين بقدرات استقصائية متقدمة تسريع عملية اكتشاف الأدوية. وفي تطوير البرمجيات، يمكنهم طرح أسئلة أفضل لتحديد الأخطاء أو تحسين الكود. كما أن كفاءة النماذج الأصغر تعني إمكانية نشر حلول الذكاء الاصطناعي المتقدمة على نطاق أوسع وبتكاليف تشغيل أقل، مما يعود بالنفع الاقتصادي على الشركات.
تأثير على سوق الذكاء الاصطناعي والمستخدمين
يُشير هذا البحث إلى تحول محتمل في سوق الذكاء الاصطناعي، من التركيز على نماذج الإجابة إلى نماذج الاستكشاف والتحقيق. هذا التطور سيخلق فئة جديدة من تطبيقات الذكاء الاصطناعي التي يمكنها أن تكون ‘محققة’ أو ‘مستكشفة’ للمعلومات بشكل استباقي، بدلاً من مجرد معالجة البيانات الموجودة. هذا يمثل قفزة نوعية نحو وكلاء ذكاء اصطناعي أكثر استقلالية وذكاءً.
بالنسبة للمستخدمين، يعني هذا أن أدوات الذكاء الاصطناعي لن تكون مجرد ‘صناديق إجابات’ بل ستصبح ‘شركاء في الاستكشاف’. يمكنهم مساعدتنا في التنقل عبر مساحات ضخمة من الخيارات، مثل البحث عن حلول نادرة للتحديات العلمية المعقدة. على سبيل المثال، في لعبة ‘Guess Who?’، وهي لعبة أخرى تتطلب طرح أسئلة استراتيجية، أظهرت النماذج المدربة تحسناً كبيراً، حيث ارتفع معدل نجاح Llama 4 Scout من 30% إلى أكثر من 72%، وقفز GPT-4o من 62% إلى 90%.
هذا يبرز قدرة التقنيات الجديدة على تعميم النتائج على ألعاب أخرى تتطلب مهارات مماثلة في البحث عن المعلومات. ومع ذلك، لا تزال هناك فجوة بين أداء الذكاء الاصطناعي والخبراء البشريين في طرح الأسئلة المعقدة، على عكس ألعاب مثل الشطرنج حيث تتفوق أنظمة الذكاء الاصطناعي على أفضل اللاعبين. هذا يشير إلى أن الفطنة البشرية في صياغة الأسئلة لا تزال تمثل معياراً صعباً للوصول إليه.
قراءة تحليلية: تحديات وآفاق مستقبلية
على الرغم من الإنجازات الرائعة، يقر الباحثون بأن ‘باتل شيب التعاونية’ هي بيئة اختبار مبسطة نسبياً. لا تزال النماذج تواجه تحديات في التعامل مع الأسئلة الأكثر تعقيداً مقارنة بالبشر. يتطلع الفريق إلى اختبار النماذج اللغوية في إعدادات أكثر تعقيداً، حيث يتعين على الأنظمة النظر في خيارات أكثر بكثير واتخاذ قرارات أكثر دقة.
من الخطط المستقبلية المهمة دراسة التعاون بين البشر ووكلاء الذكاء الاصطناعي لمعرفة ما إذا كانوا يعملون بشكل أفضل معاً. قد تستفيد النماذج أيضاً من المزيد من الضبط الدقيق بناءً على عمليات محاكاة الألعاب، ومع توفر قوة حاسوبية أكبر، يمكن للنماذج اللغوية تطوير قدرات استدلال أكثر تقدماً للتنبؤ بكيفية تطور اللعبة. هذا التركيز على التعاون بين الإنسان والآلة يعد خطوة حاسمة نحو أنظمة ذكاء اصطناعي أكثر تكاملاً وفعالية في البيئات الواقعية.
كما أشار روبرت هوكينز، الأستاذ المساعد في اللغويات بجامعة ستانفورد، فإن التحديات الأصعب مع تطور أنظمة الذكاء الاصطناعي لتصبح أكثر ‘فاعلية’ هي التحديات الاجتماعية: تتبع الفهم المشترك، حل سوء الفهم، والتكيف مع شركاء مختلفين بمرور الوقت. يؤكد هذا البحث على أن العائق الحقيقي لوكلاء الذكاء الاصطناعي ليس فقط حساب الأسئلة المثلى، بل أيضاً التفكير العملي اللازم لتحقيق أقصى استفادة من الإجابات. هذا يعني أن تطوير الذكاء الاصطناعي يجب أن يتجاوز الجوانب التقنية البحتة ليشمل فهماً أعمق للتفاعل البشري والاجتماعي.
خلاصة عملية: نحو وكلاء ذكاء اصطناعي أكثر ذكاءً وفعالية
يمثل هذا البحث نقطة تحول حاسمة في تطوير الذكاء الاصطناعي، حيث ينتقل التركيز من مجرد الإجابة على الأسئلة إلى القدرة على طرحها بذكاء. إن قدرة وكلاء الذكاء الاصطناعي على تحسين أسئلة الذكاء الاصطناعي من خلال استراتيجيات استدلال متقدمة وتحويل الأسئلة إلى تعليمات برمجية، تجعلها أكثر كفاءة وفعالية في جمع المعلومات وحل المشكلات المعقدة. هذا الابتكار لا يعد بتحسين الأداء الحالي للنماذج اللغوية فحسب، بل يفتح الباب أمام جيل جديد من المساعدين الأذكياء القادرين على الاستكشاف والتعلم والتكيف في بيئات غامضة، مما يدفع حدود ما يمكن أن يحققه الذكاء الاصطناعي في خدمة البشرية.