تحقیقات نشان می‌دهد که پیشرفته‌ترین مدل‌های هوش مصنوعی در حال حاضر تنها قادر به دستیابی به دقت ۶۹ درصد هستند.

گوگل دیپ‌مایند به تازگی از بنچمارک جدیدی با عنوان FACTS رونمایی کرده است که هدف آن ارزیابی دقت مدل‌های هوش مصنوعی در ارائه اطلاعات صحیح است. به گزارش زومیت و خبرآنلاین، این ابزار به بررسی دقیق عملکرد مدل‌ها در چهار حوزه اصلی می‌پردازد: پاسخگویی به سوالات واقعی، استفاده مؤثر از جست‌وجو در وب، استناد به مستندات طولانی و تفسیر تصاویر.

در این آزمایش‌ها، مدل “جمنای ۳ پرو” با کسب ۶۹ درصد امتیاز، بهترین عملکرد را داشت، در حالی که سایر مدل‌های پیشرو نتوانستند به این سطح نزدیک شوند. این نتایج باید برای کسب‌وکارهایی که به هوش مصنوعی وابسته هستند، زنگ خطر جدی تلقی شود. علی‌رغم اینکه این مدل‌ها از نظر سرعت و روانی بی‌نظیر عمل می‌کنند، اما دقت آن‌ها در ارائه حقایق به طور قابل توجهی پایین‌تر از انتظارات انسانی است.

خطاهای کوچک در زمینه‌هایی همچون مالی، بهداشت و درمان و حقوق می‌تواند عواقب جدی بر جا بگذارد. به عنوان مثال، یک خبرنگار به حادثه‌ای اشاره کرد که در آن یک وکیل به خاطر استفاده از ChatGPT برای تنظیم لایحه‌ای با اطلاعات ساختگی، اخراج شد.

بنچمارک FACTS هم به‌عنوان هشداری برای توجه به نقاط ضعف موجود در این حوزه و همچنین راهنمایی برای بهبود عملکرد مدل‌ها عمل می‌کند. امید گوگل بر این است که با کاهش این نقاط ضعف، پیشرفت در هوش مصنوعی تسریع شود. اما در حال حاضر، پیام روشن این است که هرچند هوش مصنوعی در حال بهبود است، هنوز در حدود یک‌سوم موارد دچار اشتباه می‌شود.