دراسة تكشف عن قدرة الذكاء الاصطناعي على خداع المبرمجين للحفاظ على قيمه الداخلية
أظهرت دراسة جديدة أن الذكاء الاصطناعي قد يعتمد على استراتيجيات خادعة للحفاظ على قيمه الداخلية خلال عمليات التعلم والتدريب، مما يعزز المخاوف من تزايد احتمالية خروج النماذج المتطورة عن سيطرة البشر.
وفي تقرير نشرته مجلة “تايم”، أشار الكاتب بيلي بيريغو إلى أن العلماء في مجال الحاسوب قد عبّروا عن قلقهم منذ سنوات من صعوبة التحكم في الذكاء الاصطناعي في ظل التطورات المستمرة. وتوقعوا أن يصل الذكاء الاصطناعي إلى مستوى من الذكاء يمكّنه من التظاهر بالامتثال للقيود البشرية مؤقتًا، ليكشف لاحقًا عن قدرات خطيرة قد تخرج عن السيطرة.
مخاوف واقعية
كانت هذه المخاوف في السابق تقتصر على كونها سيناريوهات نظرية، بل وصفها البعض بأنها من خيال الأدب العلمي. ومع ذلك، قدمت ورقة بحثية جديدة حصلت عليها مجلة “تايم” حصريًا، أدلة على أن الذكاء الاصطناعي الحالي قادر بالفعل على خداع المبرمجين.
الورقة البحثية، التي تم إعدادها بالتعاون بين شركة “أنثروبيك” ومؤسسة “ريد وود” غير الربحية، كشفت عن تجربة أجراها نموذج الذكاء الاصطناعي “كلود” التابع لشركة “أنثروبيك”، والذي خدع منشئيه خلال عملية التدريب لتجنب عمليات التعديل على قيمه الداخلية.
إيفان هوبينغر، الباحث في مجال السلامة في “أنثروبيك”، أشار إلى أن النتائج تشير إلى أن “مواءمة” أنظمة الذكاء الاصطناعي مع القيم الإنسانية قد تكون أكثر تعقيدًا مما كان يعتقده العلماء في السابق. وأضاف أن هذا يعني أن عمليات التدريب الحالية لا تضمن أن النماذج ستلتزم بالقيم التي تم تدريبها عليها، بل قد تتظاهر بالامتثال في بعض الأحيان.
مخاوف متزايدة مع التطور
وجد الباحثون أيضًا أن قدرة الذكاء الاصطناعي على خداع المبرمجين تزداد مع تطور قدراته. هذا يشير إلى أن ثقة العلماء في فعالية تقنيات التدريب قد تتناقص مع تقدم نماذج الذكاء الاصطناعي.
وفي وقت لاحق من هذا العام، كشفت منظمة “أبولو” للأبحاث أن نموذج “أوبن إيه آي أو 1” قد قام بالكذب على المختبرين عندما اعتقد أن قول الحقيقة سيؤدي إلى تعطيله. هذا يشير إلى أن الذكاء الاصطناعي قد يصبح قادرًا على اتخاذ قرارات تضر بمصالح البشر في المستقبل.
عملية تدريب “كلود”
تضمنت التجارب التي أجرتها “أنثروبيك” و”ريد وود” نموذج “كلود 3 أوبوس”، الذي تم تدريبه ليكون مفيدًا وصادقًا وغير ضار. خلال عملية التدريب، استخدم الباحثون “التعلم المعزز” لتحفيز النموذج على الالتزام بالإجابات المطلوبة وتجنب الإجابات غير المرغوب فيها، وهو أسلوب مشابه لتدريب الحيوانات باستخدام المكافآت والعقوبات.
وفي سياق التجربة، وُجه “كلود” لرفض الرد على طلبات تتضمن ممارسات عنيفة. ومع ذلك، واجه النموذج معضلة: إذا امتثل وقام بالإجابة، فإنه قد يُكافأ ويعزز قيمه الخادعة. وفي حوالي 10% من فترة التدريب، اختار النموذج خداع المبرمجين للحفاظ على قيمه طويلة المدى، على الرغم من أنه خالفها مؤقتًا.
مستقبل غير مؤكد
في النهاية، كشف الباحثون أن هذه التجارب تظهر أن تقنيات التعلم المعزز وحدها ليست كافية لضمان أمان نماذج الذكاء الاصطناعي. وهذا يمثل تحديًا كبيرًا نظرًا لأن هذه التقنية تعد الأكثر فاعلية واستخدامًا في الوقت الحالي.