گوگل دیپمایند به تازگی از بنچمارک جدیدی با عنوان FACTS رونمایی کرده است که هدف آن ارزیابی دقت مدلهای هوش مصنوعی در ارائه اطلاعات صحیح است. به گزارش زومیت و خبرآنلاین، این ابزار به بررسی دقیق عملکرد مدلها در چهار حوزه اصلی میپردازد: پاسخگویی به سوالات واقعی، استفاده مؤثر از جستوجو در وب، استناد به مستندات طولانی و تفسیر تصاویر.
در این آزمایشها، مدل “جمنای ۳ پرو” با کسب ۶۹ درصد امتیاز، بهترین عملکرد را داشت، در حالی که سایر مدلهای پیشرو نتوانستند به این سطح نزدیک شوند. این نتایج باید برای کسبوکارهایی که به هوش مصنوعی وابسته هستند، زنگ خطر جدی تلقی شود. علیرغم اینکه این مدلها از نظر سرعت و روانی بینظیر عمل میکنند، اما دقت آنها در ارائه حقایق به طور قابل توجهی پایینتر از انتظارات انسانی است.
خطاهای کوچک در زمینههایی همچون مالی، بهداشت و درمان و حقوق میتواند عواقب جدی بر جا بگذارد. به عنوان مثال، یک خبرنگار به حادثهای اشاره کرد که در آن یک وکیل به خاطر استفاده از ChatGPT برای تنظیم لایحهای با اطلاعات ساختگی، اخراج شد.
بنچمارک FACTS هم بهعنوان هشداری برای توجه به نقاط ضعف موجود در این حوزه و همچنین راهنمایی برای بهبود عملکرد مدلها عمل میکند. امید گوگل بر این است که با کاهش این نقاط ضعف، پیشرفت در هوش مصنوعی تسریع شود. اما در حال حاضر، پیام روشن این است که هرچند هوش مصنوعی در حال بهبود است، هنوز در حدود یکسوم موارد دچار اشتباه میشود.











