چالش جدیدی برای هوش مصنوعی توسط ریاضیدانان ایجاد شد.

تینا مزدکی_ رقابت برای توسعه هوش مصنوعی قابل‌اعتماد در ریاضیات محض به تازگی آغاز شده است. گروهی از بهترین ریاضیدانان جهان با طراحی یک آزمون مبتنی بر مسائل واقعی و حل‌نشده، هوش مصنوعی را به چالش کشیده‌اند و به این سیستم‌ها یک هفته فرصت داده‌اند تا به حل این مسائل بپردازند.

این طرح که تحت عنوان «اولین اثبات» (First Proof) شناخته می‌شود، در یک پیش‌چاپ که به تازگی منتشر شده، توضیحات خاصی درباره آن ارائه شده است. اندرو ساترلند، ریاضی‌دان MIT که در این آزمون شرکت نکرده، می‌گوید: «این مسائل کاملاً جدید هستند و در داده‌های آموزشی هیچ مدل زبانی بزرگ (LLM) موجود نیستند.» او همچنین به دشواری آزمایش توانایی هوش مصنوعی در حل مسائل ریاضی اشاره کرده و می‌افزاید: «این آزمون به مراتب بهتر از هر تجربه دیگری است که تاکنون مشاهده کرده‌ام.»

دستاوردها و چالش‌ها!

مدل پیشرفته جمینای دیپ‌تینک گوگل در سال ۲۰۲۵ به امتیاز سطح طلا در المپیاد جهانی ریاضی دست یافت. همچنین در ماه‌های اخیر، هوش مصنوعی توانسته چندین «مسئله اردوش» را حل کند که مجموعه‌ای از چالش‌ها را شامل می‌شود. به‌تازگی، استارتاپ Axiom Math نیز برای حل موفقیت‌آمیز چندین سوال ریاضی، در سطح پژوهشی خبرساز شده است.

با این حال، هیچ‌یک از این آزمون‌ها به صورت کنترل‌شده انجام نشده است. مسائل المپیاد معمولاً سوالات پژوهشی نیستند و مدل‌های زبانی گاهی به اثبات‌های موجود و فراموش‌شده دست می‌یابند و آن‌ها را به عنوان اثبات‌های جدید معرفی می‌نمایند. به‌عنوان مثال، یکی از اثبات‌های اخیر Axiom Math نشان داده شد که در واقع به دلیل گزارشی اشتباه بوده است.

دنیل اسپیل‌من، استاد دانشگاه ییل و از کارشناسان دعوت‌شده به این چالش، بیان می‌کند که برخی نتایج ریاضی منتشرشده توسط شرکت‌های فناوری تعجب‌برانگیز بوده است. اسپیل‌من اظهار می‌دارد: «تقریباً تمامی مقالاتی که درباره استفاده از مدل‌های زبانی منتشر می‌شوند، از سوی افرادی نوشته شده‌اند که در آن شرکت‌ها مشغول به کار هستند و به نوعی به تبلیغ این مدل‌ها می‌پردازند.»

چالش «اولین اثبات» به دنبال شفافیت بیشتری در این زمینه است. ۱۱ چهره برجسته ریاضی، از جمله یک برنده مدال فیلدز، مسائل تحقیقاتی خود را در این آزمون ارائه کردند. اثبات‌های راه‌حل‌ها نیز آپلود شده اما به صورت رمزنگاری نگهداری می‌شوند و پاسخ‌ها درست در نیمه‌شب ۱۳ فوریه (24 بهمن) رمزگشایی خواهند شد.

این اثبات‌ها در واقع «لم» (Lemma) هستند که به قضایای کوچکی اطلاق می‌شود که در مسیر رسیدن به نتایج بزرگ‌تر اثبات می‌شوند. اگر هوش مصنوعی بتواند این لم‌ها را حل کند، قدرت و قابلیت‌های این فناوری که بسیاری از ریاضیدانان به آن امید بسته‌اند، به نمایش گذاشته خواهد شد. ساترلند در انتها می‌گوید: «امسال ممکن است زمان خوبی باشد که افراد بیشتری متوجه این پیشرفت‌ها شوند.»

منبع: scientificamerican

۵۸۳۲۳