SPEX وProxySPEX: فك شفرة تفاعلات النماذج اللغوية الكبيرة على نطاق واسع

مع التطور المتسارع لأنظمة الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة (LLMs)، يبرز تحدٍ جوهري يتمثل في فهم آليات عملها المعقدة. هذه النماذج، بقدر ما هي قوية، غالبًا ما تعمل كـ ‘صناديق سوداء’، مما يجعل من الصعب على المطورين والمستخدمين على حد سواء فهم كيفية وصولها إلى قراراتها وتنبؤاتها. في خطوة نوعية نحو تعزيز الشفافية والثقة في الذكاء الاصطناعي، كشف باحثون عن إطارين خوارزميين جديدين، هما SPEX وProxySPEX، مصممين خصيصًا لتسهيل فهم تفاعلات النماذج اللغوية على نطاق واسع وغير مسبوق.

تعد القدرة على تفسير سلوك أنظمة تعلم الآلة المعقدة أمرًا بالغ الأهمية، ليس فقط لأغراض التصحيح والتحسين، بل أيضًا لبناء أنظمة ذكاء اصطناعي أكثر أمانًا وجدارة بالثقة. تُركز أبحاث التفسيرية (Interpretability) على جعل عملية اتخاذ القرار أكثر وضوحًا، مما يمكّننا من تفكيك الشبكات العصبية المعقدة وفهم مساهمة كل جزء فيها. المشكلة الأساسية تكمن في التعقيد الهائل لهذه الأنظمة، حيث تنشأ السلوكيات من شبكة معقدة من التبعيات والتفاعلات، وليس من مكونات معزولة. مع تزايد عدد الميزات ونقاط بيانات التدريب والمكونات الداخلية، ينمو عدد التفاعلات المحتملة بشكل كبير، مما يجعل التحليل الشامل غير ممكن حسابيًا.

ما الجديد في SPEX وProxySPEX؟

يمثل إطارا SPEX (Spectral Explainer) وProxySPEX قفزة نوعية في مجال تفسيرية الذكاء الاصطناعي، حيث يقدمان حلولًا مبتكرة لتحديد التفاعلات المؤثرة داخل النماذج اللغوية الكبيرة وغيرها من أنظمة تعلم الآلة المعقدة. على عكس الأساليب السابقة التي كانت تواجه صعوبة بالغة في التعامل مع التفاعلات على نطاق واسع، تستفيد هذه الخوارزميات من مبادئ معالجة الإشارات ونظرية الترميز لفك شفرة السلوكيات المعقدة بكفاءة غير مسبوقة. وللتعمق في الجوانب التقنية واستكشاف الكود المصدري، يمكن الرجوع إلى مستودع SHAP-IQ على GitHub.

تستند قوة SPEX إلى ملاحظة هيكلية أساسية: بينما يكون العدد الإجمالي للتفاعلات ضخمًا بشكل لا يمكن معالجته، فإن عدد التفاعلات المؤثرة فعليًا التي تقود مخرجات النموذج يكون صغيرًا نسبيًا. يُصاغ هذا من خلال مفهومين رئيسيين:

  • الندرة (Sparsity): يعني أن عددًا قليلًا نسبيًا من التفاعلات هو الذي يؤثر حقًا على المخرجات.
  • الدرجة المنخفضة (Low-degreeness): تشير إلى أن التفاعلات المؤثرة عادةً ما تتضمن مجموعة صغيرة فقط من الميزات.

تتيح هذه الخصائص إعادة صياغة مشكلة البحث الصعبة عن التفاعلات إلى مشكلة استرداد متفرقة قابلة للحل. يستخدم SPEX عمليات إزالة (ablations) مختارة استراتيجيًا لدمج العديد من التفاعلات المرشحة معًا. بعد ذلك، وباستخدام خوارزميات فك تشفير فعالة، يتم فك هذه الإشارات المدمجة لعزل التفاعلات المحددة المسؤولة عن سلوك النموذج. لمزيد من التفاصيل حول خوارزمية ProxySPEX والنتائج البحثية، يمكن الاطلاع على ورقة بحث ProxySPEX في NeurIPS 2025.

أما ProxySPEX، فهو يضيف ملاحظة هيكلية أخرى شائعة في نماذج تعلم الآلة المعقدة: التسلسل الهرمي. هذا يعني أنه عندما يكون تفاعل من رتبة أعلى مهمًا، فمن المرجح أن تكون مجموعاته الفرعية ذات الرتب الأدنى مهمة أيضًا. تضيف هذه الملاحظة تحسينًا هائلاً في التكلفة الحسابية، حيث يحقق ProxySPEX نفس أداء SPEX مع عدد أقل بحوالي 10 مرات من عمليات الإزالة، مما يجعله أكثر كفاءة بشكل ملحوظ في تحديد التفاعلات.

الخلفية التقنية: تفسيرية الذكاء الاصطناعي وعمليات الإزالة

لفهم أهمية SPEX وProxySPEX، من الضروري استيعاب مفهوم تفسيرية الذكاء الاصطناعي والتقنيات الأساسية المستخدمة فيها. تهدف تفسيرية الذكاء الاصطناعي إلى الإجابة على سؤال: لماذا اتخذ النموذج هذا القرار؟ يمكن تحليل أنظمة الذكاء الاصطناعي من خلال عدسات مختلفة: ولفهم معمق لإطار عمل SPEX وأسسه النظرية، يمكن مراجعة ورقة بحث SPEX في ICML 2025.

  • تحديد سمات الإدخال (Feature Attribution):

    يركز هذا النهج على عزل ميزات الإدخال المحددة التي تقود تنبؤًا معينًا. على سبيل المثال، في تشخيص طبي بواسطة نموذج لغوي كبير، يمكن لهذه التقنية تحديد الأعراض الدقيقة التي دفعت النموذج إلى استنتاجه.

  • تحديد مصدر البيانات (Data Attribution):

    يربط هذا الأسلوب سلوكيات النموذج بأمثلة التدريب المؤثرة. يساعد في فهم أي من نقاط البيانات في مجموعة التدريب كانت الأكثر أهمية في تشكيل قرار معين للنموذج على نقطة اختبار جديدة.

  • تفسيرية المكونات الميكانيكية (Mechanistic Interpretability):

    يتناول هذا الجانب تشريح وظائف المكونات الداخلية للنموذج، مثل الطبقات أو رؤوس الانتباه (attention heads) في الشبكات العصبية، لتحديد أي الهياكل الداخلية مسؤولة عن تنبؤ النموذج.

في جوهر هذه الأساليب، تكمن فكرة ‘الإزالة’ (Ablation). تعني الإزالة قياس التأثير من خلال ملاحظة ما يتغير عند إزالة مكون معين من النظام. على سبيل المثال، في تحديد سمات الإدخال، يتم إخفاء أو إزالة أجزاء معينة من موجه الإدخال (prompt) وقياس التغيير الناتج في التنبؤات. في تحديد مصدر البيانات، يتم تدريب النماذج على مجموعات فرعية مختلفة من بيانات التدريب لتقييم كيفية تغير إخراج النموذج في غياب بيانات تدريب محددة. أما في تفسيرية المكونات الميكانيكية، فيتم التدخل في مسار التغذية الأمامية للنموذج عن طريق إزالة تأثير مكونات داخلية محددة. الهدف في كل حالة هو عزل محركات القرار عن طريق إزعاج النظام بشكل منهجي، على أمل اكتشاف التفاعلات المؤثرة.

نظرًا لأن كل عملية إزالة تتطلب تكلفة حسابية كبيرة، سواء من خلال استدعاءات استدلال مكلفة أو عمليات إعادة تدريب، فإن الهدف هو حساب التحديدات بأقل عدد ممكن من عمليات الإزالة. وهنا تبرز أهمية SPEX وProxySPEX في قدرتهما على تحقيق ذلك بكفاءة غير مسبوقة.

لماذا يهم هذا الخبر؟

إن القدرة على فهم تفاعلات النماذج اللغوية على نطاق واسع تمثل تطورًا حاسمًا في مسيرة تطوير الذكاء الاصطناعي. تكمن أهمية هذا الخبر في تأثيره المباشر على بناء أنظمة ذكاء اصطناعي أكثر شفافية، أمانًا، وجديرة بالثقة. في عالم تتزايد فيه تطبيقات الذكاء الاصطناعي في مجالات حساسة مثل الرعاية الصحية، التمويل، وحتى أنظمة القيادة الذاتية، يصبح فهم القرارات التي تتخذها هذه الأنظمة ضرورة قصوى.

بالنسبة للمطورين والباحثين، توفر هذه الأطر أدوات قوية لتشخيص الأخطاء، تحسين الأداء، وتحديد التحيزات المحتملة داخل النماذج. فبدلاً من مجرد معرفة أن النموذج أخطأ، يمكنهم الآن تحديد التفاعلات المعقدة التي أدت إلى هذا الخطأ، مما يسهل عملية التصحيح ويقلل من وقت التطوير.

أما على صعيد المستخدمين وصناع القرار، فإن الشفافية المتزايدة تعني قدرة أكبر على فهم مبررات قرارات الذكاء الاصطناعي، مما يعزز الثقة ويقلل من القلق بشأن ‘الصناديق السوداء’. هذا الفهم ضروري أيضًا للامتثال التنظيمي والأخلاقي، حيث تتطلب العديد من التشريعات الحديثة القدرة على تفسير قرارات الأنظمة الذكية.

التأثير على السوق والمستخدمين

سيكون لأطر عمل مثل SPEX وProxySPEX تأثيرات واسعة النطاق على مختلف القطاعات:

  • الرعاية الصحية:

    في مجال التشخيص الطبي، يمكن لهذه التقنيات تحديد أي الأعراض أو البيانات السريرية قادت النموذج إلى تشخيص معين، مما يمنح الأطباء ثقة أكبر في توصيات الذكاء الاصطناعي ويساعدهم على التحقق من صحتها.

  • الأنظمة المالية:

    يمكن استخدامها لفهم سبب رفض طلب قرض أو الموافقة عليه، مما يضمن العدالة ويساعد في الامتثال للوائح.

  • تطوير المنتجات القائمة على الذكاء الاصطناعي:

    يمكن للشركات تحسين نماذجها بشكل أسرع وأكثر فعالية من خلال تحديد التفاعلات التي تساهم في الأداء الممتاز أو الأداء الضعيف، مما يؤدي إلى منتجات ذكاء اصطناعي أكثر موثوقية وقوة.

  • الأمن السيبراني:

    يمكن أن تساعد في فهم كيفية اكتشاف نماذج الذكاء الاصطناعي للتهديدات أو سبب تصنيفها لملف معين كتهديد، مما يعزز الدفاعات السيبرانية.

  • التعليم والبحث:

    توفر هذه الأدوات للباحثين طريقة جديدة لاستكشاف كيفية عمل النماذج المعقدة، مما يفتح آفاقًا جديدة في فهم الذكاء الاصطناعي نفسه وفي تطوير أجيال مستقبلية من النماذج.

على المدى الطويل، ستساهم هذه التطورات في تسريع تبني الذكاء الاصطناعي في الصناعات الحساسة، حيث تعتبر الشفافية والمساءلة من المتطلبات الأساسية.

قراءة تحليلية: كشف الخبايا المعقدة

تُظهر التطبيقات العملية لـ SPEX وProxySPEX قدرتهما الفائقة على كشف التفاعلات المعقدة التي تفشل فيها الطرق التقليدية. على سبيل المثال، في مهمة تحليل المشاعر، أظهر SPEX قدرة على مطابقة دقة التقنيات التفاعلية الحالية (مثل Faith-Shap) على المدخلات القصيرة، والأهم من ذلك، حافظ على هذا الأداء مع تزايد طول السياق إلى آلاف الميزات. في المقابل، تُظهر الأساليب الهامشية (مثل LIME) دقة أقل بكثير عند هذا النطاق لأنها تفشل في التقاط التفاعلات المعقدة التي تدفع مخرجات النموذج.

أحد الأمثلة التوضيحية البارزة هو تطبيق SPEX على نسخة معدلة من مشكلة العربة (trolley problem)، حيث تم تبسيط المعضلة الأخلاقية ليكون الجواب الصحيح واضحًا. في هذا السيناريو، أجاب نموذج GPT-4o mini بشكل صحيح 8% فقط من المرات. عند تطبيق تقنيات تحديد سمات الإدخال القياسية (مثل SHAP)، تم تحديد كلمات فردية مثل ‘trolley’ كعوامل رئيسية وراء الاستجابة غير الصحيحة. ومع ذلك، فإن استبدال كلمة ‘trolley’ بمرادفات مثل ‘tram’ أو ‘streetcar’ كان له تأثير ضئيل على تنبؤ النموذج.

هنا، كشف SPEX عن قصة أكثر ثراءً بكثير، حيث حدد تآزرًا عالي الرتبة ومهيمنًا بين مثيلين لكلمة ‘trolley’، بالإضافة إلى كلمتي ‘pulling’ و ‘lever’. يتوافق هذا الاكتشاف بشكل وثيق مع الحدس البشري حول المكونات الأساسية للمشكلة. عندما تم استبدال هذه الكلمات الأربع بمرادفاتها، انخفض معدل فشل النموذج إلى ما يقرب من الصفر، مما يبرهن على قدرة SPEX على تحديد التفاعلات الجوهرية التي تقود سلوك النموذج.

بالنسبة لتحديد مصدر البيانات، تم تطبيق ProxySPEX على نموذج ResNet مدرب على مجموعة بيانات CIFAR-10. كشفت النتائج عن أمثلة مهمة لكل من التفاعلات المتآزرة والمتكررة. فالتفاعلات المتآزرة (synergistic interactions) غالبًا ما تتضمن فئات متميزة دلاليًا تعمل معًا لتحديد حدود القرار. على سبيل المثال، قد تكون صورة سيارة (automobile) تتشارك سمات بصرية مع صور تدريبية لسيارة رياضية وشاحنة صفراء ومركبة توصيل حمراء، مما يساعد النموذج على فهم مفهوم ‘السيارة’ بشكل أكثر شمولية. على النقيض من ذلك، تميل التفاعلات المتكررة (redundant interactions) إلى التقاط تكرارات بصرية تعزز مفهومًا معينًا، مثل مجموعة من صور الكلاب ذات صور ظلية متشابهة تؤثر بشدة على تنبؤ ‘الحصان’. يسمح هذا التحليل الدقيق بتطوير تقنيات جديدة لاختيار البيانات تحافظ على التآزرات الضرورية مع إزالة التكرارات بأمان.

في مجال تفسيرية المكونات الميكانيكية، أظهر ProxySPEX قدرته على الكشف عن التفاعلات المسؤولة بين أجزاء مختلفة من بنية النموذج، مثل رؤوس الانتباه. يساعد فهم هذه التبعيات الهيكلية في التدخلات المعمارية، مثل تقليم رؤوس الانتباه الخاصة بمهام معينة. في مجموعة بيانات MMLU (تاريخ الولايات المتحدة في المرحلة الثانوية)، أظهرت استراتيجية تقليم مستنيرة بواسطة ProxySPEX أنها لا تتفوق على الأساليب المنافسة فحسب، بل يمكنها في الواقع تحسين أداء النموذج في المهمة المستهدفة. كما أظهر التحليل أن الطبقات المبكرة تعمل بشكل خطي إلى حد كبير، بينما يصبح دور التفاعلات بين رؤوس الانتباه أكثر وضوحًا في الطبقات اللاحقة.

خلاصة عملية وآفاق مستقبلية

يمثل إطار عمل SPEX تقدمًا كبيرًا في تفسيرية الذكاء الاصطناعي، حيث يوسع نطاق اكتشاف التفاعلات من عشرات إلى آلاف المكونات. لقد أثبتت هذه الأطر مرونتها عبر دورة حياة النموذج بأكملها: استكشاف تحديد سمات الإدخال على المدخلات ذات السياق الطويل، وتحديد التآزرات والتكرارات بين نقاط بيانات التدريب، واكتشاف التفاعلات بين المكونات الداخلية للنموذج.

تفتح هذه التطورات الباب أمام العديد من أسئلة البحث المثيرة للاهتمام حول توحيد هذه المنظورات المختلفة، مما يوفر فهمًا أكثر شمولاً لنظام تعلم الآلة. كما أن هناك اهتمامًا كبيرًا بتقييم منهجي لأساليب اكتشاف التفاعلات مقابل المعرفة العلمية الموجودة في مجالات مثل علم الجينوم وعلوم المواد، مما يخدم كل من ترسيخ نتائج النموذج وتوليد فرضيات جديدة قابلة للاختبار. يدعو الباحثون المجتمع العلمي للانضمام إليهم في هذا الجهد، حيث يتوفر الكود الخاص بكل من SPEX وProxySPEX بشكل كامل ومدمج ضمن مستودع SHAP-IQ الشهير.

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *