گام مهمی در راستای توسعه «هوش مصنوعی عمومی» برداشته شده است؛ نتایج آزمون‌های مربوط به GPT-5 نشان می‌دهند که این مدل در انجام وظایف شغلی انسانی با موفقیت عمل کرده است.

**OpenAI بنچمارک جدیدی منتشر کرد**

شرکت OpenAI در روز پنجشنبه، بنچمارک جدیدی به نام GDPval را معرفی کرد که عملکرد مدل‌های هوش مصنوعی خود را در مقایسه با متخصصان انسانی در صنایع مختلف ارزیابی می‌کند. این آزمون به منظور بررسی میزان نزدیک شدن توانایی‌های سیستم‌های OpenAI به عملکرد انسان‌ها در کارهای اقتصادی طراحی شده است.

بر اساس گزارش این شرکت، مدل‌های GPT-5 و Claude Opus 4.1 آنتروپیک در حال حاضر به نتایج قابل توجهی در مقایسه با متخصصان در زمینه‌های مختلف دست یافته‌اند. با این حال، OpenAI تأکید می‌کند که این مدل‌ها به زودی نمی‌توانند به‌طور کامل جایگزین انسان‌ها در مشاغل شوند. این شرکت بیان می‌کند که بر اساس نتایج GDPval، هنوز تنها تعداد محدودی از وظایف انسانی تحت پوشش هوش مصنوعی قرار دارد.

آزمون GDPval به‌گونه‌ای طراحی شده است که عملکرد مدل‌های هوش مصنوعی را در ۴۴ شغل مختلف—مانند مهندسی نرم‌افزار، پرستاری، و روزنامه‌نگاری—بر اساس ۹ صنعت اصلی تأثیرگذار بر تولید ناخالص داخلی آمریکا مورد ارزیابی قرار دهد.

در نخستین نسخه این آزمون، OpenAI از کارشناسان خواسته است تا گزارش‌های تولید شده توسط هوش مصنوعی را با گزارش‌های مشابه انسانی مقایسه و بهترین‌ها را انتخاب کنند. نمونه‌ای از این مقایسه شامل ترسیم چشم‌انداز رقابتی در صنعت «تحویل به مشتری نهایی» بود. OpenAI عملکرد مدل‌ها را در این ۴۴ شغل اندازه‌گیری کرده است.

نتایج اولیه نشان می‌دهد که مدل GPT-5-high، نسخه‌ای تقویت‌شده از GPT-5، در ۴۰.۶ درصد مواقع نسبت به متخصصان عملکرد بهتری داشته است. همچنین مدل Claude Opus 4.1 نیز در ۴۹ درصد از کارها، هم‌سطح یا بهتر از متخصصان عمل کرده است.

OpenAI بر این باور است که عملکرد قوی Claude Opus به دلیل توانایی آن در ایجاد گرافیک‌های جذاب است. با این حال، باید توجه داشت که اکثر متخصصان اطلاعات بیشتری نسبت به یک گزارش تحقیقاتی به کارفرمایان خود ارائه می‌دهند و در واقع GDPval-v0 تنها به یکی از جوانب کار می‌پردازد. OpenAI اعلام کرده که به‌دنبال توسعه آزمون‌های جامع‌تری است که قابلیت ارزیابی صنایع و جریان‌های کاری بیشتری را داشته باشد.

دکتر آرون چاترجی، اقتصاددان ارشد OpenAI، نتایج این آزمون را نشان‌دهنده توانایی استفاده از مدل‌های هوش مصنوعی برای بهبود مدیریت زمان در میان افراد شاغل می‌داند.

تجال پاتواردهان، مدیر ارزیابی‌های OpenAI، نیز بر امیدواری از سرعت پیشرفت در GDPval تأکید کرده و اشاره کرده است که امتیاز GPT-5 نسبت به مدل قبلی، یعنی GPT-4o، به حدود سه برابر افزایش یافته است.

سازمان‌های فعال در سیلیکون ولی از مجموعه‌ای از بنچمارک‌ها برای سنجش پیشرفت مدل‌های هوش مصنوعی استفاده می‌کنند، از جمله AIME 2025 و GPQA Diamond. با این حال، برخی مدل‌ها در این آزمون‌ها به نقطه اشباع نزدیک می‌شوند و بسیاری از محققان بر لزوم برگزاری آزمون‌های بهتری که توانایی‌های هوش مصنوعی را در وظایف واقعی بسنجند، تأکید کرده‌اند.

با توجه به استدلال OpenAI مبنی بر ارزشمد بودن مدل‌هایش در صنایع مختلف، بنچمارک‌هایی نظیر GDPval احتمالاً اهمیت بیشتری خواهند یافت. اما برای حصول اطمینان از برتری این مدل‌ها بر انسان‌ها، به نظر می‌رسد که نسخه‌های جامع‌تری از این آزمون لازم است.