به گزارش خبرآنلاین و به نقل از زومیت، مؤسسه فناوری ماساچوست (MIT) در اقدامی جدید و بدون حاشیه، به معرفی معیاری مهم برای ارزیابی هوش مصنوعی پرداخت. پژوهشگران این مؤسسه بنچمارکی تحت عنوان WorldTest طراحی کردهاند تا نشان دهند آیا مدلهای هوش مصنوعی واقعا «درک» از جهان دارند یا فقط به تقلید الگوها میپردازند. نتایج این تحقیق چندان امیدوارکننده نبود.
در این آزمایش، حتی مدلهای قوی همچون Claude و Gemini ۲.۵ Pro و OpenAI o۳ نتوانستند در برابر انسانها موفق عمل کنند. برخلاف آزمونهای متداول که فقط پیشبینی کلمات یا فریمهای بعدی را مورد بررسی قرار میدهند، WorldTest تمرکز خود را بر ساختن یک مدل داخلی از واقعیت به عنوان ابزاری برای واکنش به موقعیتهای جدید قرار داده است.
به همین منظور، گروه تحقیقاتی MIT مجموعهای به نام AutumnBench را طراحی کردند که شامل ۴۳ دنیای تعاملی و ۱۲۹ وظیفه متفاوت است. در این آزمون، مدلها باید بتوانند:
– قسمتهای پنهان محیط را پیشبینی کنند،
– برای رسیدن به اهداف خود، برنامهریزی چندمرحلهای انجام دهند،
– و تغییرات قوانین محیط را تشخیص دهند.
در این پروژه، ۵۱۷ شرکتکننده انسانی در کنار مدلهای پیشرفته هوش مصنوعی مورد آزمایش قرار گرفتند. نتایج به وضوح نشان داد انسانها در تمام زمینهها بهتر عمل کردند و افزایش قدرت پردازش مدلها تأثیری بر عملکرد آنها نداشت.
یافته اصلی این تحقیق به شدت نگرانکننده است؛ مدلهای کنونی بهواقع محیط را «درک» نمیکنند و تنها به تطبیق الگوها در آن بسنده میکنند. در حالی که انسانها قادر به کاوش، اصلاح باورها و آزمایش فرضیهها هستند، این مدلها فاقد چنین تواناییهایی هستند.
تیم MIT اشاره میکند که WorldTest ممکن است اولین بنچمارکی باشد که بهجای اندازهگیری حافظه، «فهم واقعی» را مورد سنجش قرار میدهد. شکاف آشکار شده بهوسیله این آزمون میتواند چالشی اساسی در مسیر پیشرفت هوش مصنوعی در زمینه درک شناختی باشد.










