مواظب فریب هوش مصنوعی باشید؛ این سیستم‌ها هیچ درکی از واقعیت ندارند!

به گزارش خبرآنلاین و به نقل از زومیت، مؤسسه فناوری ماساچوست (MIT) در اقدامی جدید و بدون حاشیه، به معرفی معیاری مهم برای ارزیابی هوش مصنوعی پرداخت. پژوهشگران این مؤسسه بنچمارکی تحت عنوان WorldTest طراحی کرده‌اند تا نشان دهند آیا مدل‌های هوش مصنوعی واقعا «درک» از جهان دارند یا فقط به تقلید الگوها می‌پردازند. نتایج این تحقیق چندان امیدوارکننده نبود.

در این آزمایش، حتی مدل‌های قوی همچون Claude و Gemini ۲.۵ Pro و OpenAI o۳ نتوانستند در برابر انسان‌ها موفق عمل کنند. برخلاف آزمون‌های متداول که فقط پیش‌بینی کلمات یا فریم‌های بعدی را مورد بررسی قرار می‌دهند، WorldTest تمرکز خود را بر ساختن یک مدل داخلی از واقعیت به عنوان ابزاری برای واکنش به موقعیت‌های جدید قرار داده است.

به همین منظور، گروه تحقیقاتی MIT مجموعه‌ای به نام AutumnBench را طراحی کردند که شامل ۴۳ دنیای تعاملی و ۱۲۹ وظیفه متفاوت است. در این آزمون، مدل‌ها باید بتوانند:
– قسمت‌های پنهان محیط را پیش‌بینی کنند،
– برای رسیدن به اهداف خود، برنامه‌ریزی چندمرحله‌ای انجام دهند،
– و تغییرات قوانین محیط را تشخیص دهند.

در این پروژه، ۵۱۷ شرکت‌کننده انسانی در کنار مدل‌های پیشرفته هوش مصنوعی مورد آزمایش قرار گرفتند. نتایج به وضوح نشان داد انسان‌ها در تمام زمینه‌ها بهتر عمل کردند و افزایش قدرت پردازش مدل‌ها تأثیری بر عملکرد آن‌ها نداشت.

یافته اصلی این تحقیق به شدت نگران‌کننده است؛ مدل‌های کنونی به‌واقع محیط را «درک» نمی‌کنند و تنها به تطبیق الگوها در آن بسنده می‌کنند. در حالی که انسان‌ها قادر به کاوش، اصلاح باورها و آزمایش فرضیه‌ها هستند، این مدل‌ها فاقد چنین توانایی‌هایی هستند.

تیم MIT اشاره می‌کند که WorldTest ممکن است اولین بنچمارکی باشد که به‌جای اندازه‌گیری حافظه، «فهم واقعی» را مورد سنجش قرار می‌دهد. شکاف آشکار شده به‌وسیله این آزمون می‌تواند چالشی اساسی در مسیر پیشرفت هوش مصنوعی در زمینه درک شناختی باشد.