**OpenAI بنچمارک جدیدی منتشر کرد**
شرکت OpenAI در روز پنجشنبه، بنچمارک جدیدی به نام GDPval را معرفی کرد که عملکرد مدلهای هوش مصنوعی خود را در مقایسه با متخصصان انسانی در صنایع مختلف ارزیابی میکند. این آزمون به منظور بررسی میزان نزدیک شدن تواناییهای سیستمهای OpenAI به عملکرد انسانها در کارهای اقتصادی طراحی شده است.
بر اساس گزارش این شرکت، مدلهای GPT-5 و Claude Opus 4.1 آنتروپیک در حال حاضر به نتایج قابل توجهی در مقایسه با متخصصان در زمینههای مختلف دست یافتهاند. با این حال، OpenAI تأکید میکند که این مدلها به زودی نمیتوانند بهطور کامل جایگزین انسانها در مشاغل شوند. این شرکت بیان میکند که بر اساس نتایج GDPval، هنوز تنها تعداد محدودی از وظایف انسانی تحت پوشش هوش مصنوعی قرار دارد.
آزمون GDPval بهگونهای طراحی شده است که عملکرد مدلهای هوش مصنوعی را در ۴۴ شغل مختلف—مانند مهندسی نرمافزار، پرستاری، و روزنامهنگاری—بر اساس ۹ صنعت اصلی تأثیرگذار بر تولید ناخالص داخلی آمریکا مورد ارزیابی قرار دهد.
در نخستین نسخه این آزمون، OpenAI از کارشناسان خواسته است تا گزارشهای تولید شده توسط هوش مصنوعی را با گزارشهای مشابه انسانی مقایسه و بهترینها را انتخاب کنند. نمونهای از این مقایسه شامل ترسیم چشمانداز رقابتی در صنعت «تحویل به مشتری نهایی» بود. OpenAI عملکرد مدلها را در این ۴۴ شغل اندازهگیری کرده است.
نتایج اولیه نشان میدهد که مدل GPT-5-high، نسخهای تقویتشده از GPT-5، در ۴۰.۶ درصد مواقع نسبت به متخصصان عملکرد بهتری داشته است. همچنین مدل Claude Opus 4.1 نیز در ۴۹ درصد از کارها، همسطح یا بهتر از متخصصان عمل کرده است.
OpenAI بر این باور است که عملکرد قوی Claude Opus به دلیل توانایی آن در ایجاد گرافیکهای جذاب است. با این حال، باید توجه داشت که اکثر متخصصان اطلاعات بیشتری نسبت به یک گزارش تحقیقاتی به کارفرمایان خود ارائه میدهند و در واقع GDPval-v0 تنها به یکی از جوانب کار میپردازد. OpenAI اعلام کرده که بهدنبال توسعه آزمونهای جامعتری است که قابلیت ارزیابی صنایع و جریانهای کاری بیشتری را داشته باشد.
دکتر آرون چاترجی، اقتصاددان ارشد OpenAI، نتایج این آزمون را نشاندهنده توانایی استفاده از مدلهای هوش مصنوعی برای بهبود مدیریت زمان در میان افراد شاغل میداند.
تجال پاتواردهان، مدیر ارزیابیهای OpenAI، نیز بر امیدواری از سرعت پیشرفت در GDPval تأکید کرده و اشاره کرده است که امتیاز GPT-5 نسبت به مدل قبلی، یعنی GPT-4o، به حدود سه برابر افزایش یافته است.
سازمانهای فعال در سیلیکون ولی از مجموعهای از بنچمارکها برای سنجش پیشرفت مدلهای هوش مصنوعی استفاده میکنند، از جمله AIME 2025 و GPQA Diamond. با این حال، برخی مدلها در این آزمونها به نقطه اشباع نزدیک میشوند و بسیاری از محققان بر لزوم برگزاری آزمونهای بهتری که تواناییهای هوش مصنوعی را در وظایف واقعی بسنجند، تأکید کردهاند.
با توجه به استدلال OpenAI مبنی بر ارزشمد بودن مدلهایش در صنایع مختلف، بنچمارکهایی نظیر GDPval احتمالاً اهمیت بیشتری خواهند یافت. اما برای حصول اطمینان از برتری این مدلها بر انسانها، به نظر میرسد که نسخههای جامعتری از این آزمون لازم است.











