آزمونی که GPT-4 را به زانو درآورد

فرانسوا شوله با طراحی آزمون ARC-AGI ثابت کرد هوش مصنوعی فعلی تنها با تقلید دادهها عمل میکند و فاقد هوش سیال انسانی است، حتی مدلهای پیشرفتهای مانند GPT-4 در مواجهه با مسائل جدید به شدت ضعیف ظاهر میشوند.
تریبون اقتصاد نگار علی- فرانسوا شوله، دانشمند فرانسوی و از منتقدان سرسخت فناوری هوش مصنوعی، معتقد است مدلهای امروزی مانند ChatGPT تنها با «تقلید» از دادههای آموزشی عملکرد خوبی دارند، اما فاقد هوش واقعی هستند. به گزارش خبرآنلاین او برای اثبات این ادعا، آزمونی به نام ARC-AGI طراحی کرده که توانایی حل مسئله از اصول اولیه را میسنجد.
هوش سیال در مقابل هوش مصنوعی تقلیدی
- هوش سیال (Fluid Intelligence): توانایی حل مسائل جدید بدون تکیه بر دانش قبلی
- هوش مصنوعی فعلی: فقط با دادههای آموزشی آشناست و در مواجهه با مسائل جدید اغلب شکست میخورد.
نتایج تکاندهنده: GPT-4 در این آزمون «صفر» گرفت!
مدلهای معروفی مانند GPT-4، Gemini 1.5 و Claude 3 در نسخه اول این آزمون نمرات بسیار پایینی (بین ۰ تا ۱۴ درصد) کسب کردند، در حالی که انسانها بهطور متوسط ۶۰ تا ۷۰ درصد امتیاز میگیرند. حتی GPT-4o که ادعا میشد در استدلال پیشرفته است، تنها ۵ درصد موفقیت داشت!
پیشرفت غیرمنتظره OpenAI: مدل o3 با نمره ۸۷٪
در دسامبر ۲۰۲۳، OpenAI مدل o3 را معرفی کرد که با کسب ۸۷ درصد در آزمون ARC-AGI، برای اولین بار به سطح انسان رسید. این موفقیت، شوله را شگفتزده کرد، اما او همچنان مشکوک است:«این مدلها با صرف هزینههای گزاف محاسباتی (صدها هزار دلار برای حل هر مسئله) جواب میدهند، نه با هوش سیال واقعی!»
ARC-AGI-2: آزمون سختتری که هوش مصنوعی را دوباره به زانو درآورد
شوله اخیراً نسخه دشوارتر این آزمون (ARC-AGI-2) را منتشر کرد که عملکرد مدلها را به شدت کاهش داد:
- o3 از ۸۷٪ به زیر ۲٪ سقوط کرد!
- مدلهای دیگر (مانند Gemini و Claude) نیز نمراتی زیر ۱٪ گرفتند.
آیا هوش مصنوعی واقعاً میتواند بیاندیشد؟
- موافقان (مثل سم آلتمن): معتقدند o3 گامی به سوی هوش مصنوعی عمومی (AGI) است.
- منتقدان (مثل شوله): میگویند این مدلها فقط با brute force (محاسبات انبوه) جواب میدهند، نه با استدلال انسانی.
آینده مبهم AGI: سودآوری یا هوش واقعی؟
شرکتهایی مانند OpenAI به جای تمرکز صرف بر آزمونهای انتزاعی، به کاربردهای عملی هوش مصنوعی (مانند وبگردی خودکار) توجه کردهاند. حتی تعریف آنها از AGI بیشتر اقتصادی است: نرمافزاری که ۱۰۰ میلیارد دلار سود ایجاد کند!
شوله معتقد است تا زمانی که مدلها نتوانند مانند یک کودک مسائل جدید را از پایه یاد بگیرند، ادعای دستیابی به AGI تنها یک فریب بازاریابی است. به نظر میرسد راه رسیدن به هوش واقعی مصنوعی هنوز بسیار طولانی است.
منبع: theatlantic