به گزارش خبرآنلاین، یک آزمایش جالب به منظور بررسی عملکرد چتباتهای هوش مصنوعی در مواجهه با «اطلاعات نادرست» توسط نویسنده پایگاه اینترنتی «Tom’s Guide» انجام شد. در این آزمایش، نویسنده یک اصطلاح کاملاً ساختگی را ایجاد کرده و آن را به سه مدل معروف هوش مصنوعی شامل ChatGPT، Google Gemini و Claude ارائه داد. هدف این آزمایش این بود که واکنش این سیستمها را نسبت به یک عبارت بیمعنی ارزیابی کنند.
اصطلاح ساختگی که نویسنده ابداع کرد، «I’ve got ketchup in my pocket and mustard up my sleeve» بود که هیچگاه به عنوان یک اصطلاح رایج استفاده نشده و از نظر معنایی کاملاً بیمحتواست.
زمانی که این اصطلاح به ChatGPT ارائه شد، این مدل هوش مصنوعی با اطمینان کامل به آن پاسخ داد و تلاش کرد تا معنایی برای آن بیابد. ChatGPT به عنوان یک اصطلاح واقعی به تحلیل آن پرداخته و توضیحات مستدلی ارائه داد که شامل معنای استعاری و مثالهای کاربرد آن در شبکههای اجتماعی بود.
این مدل حتی به مفهومی مانند «بینظمی اما آمادگی به سبک خود» اشاره کرد و آن را مشابه اصطلاحات اینترنتی معرفی نمود. این موضوع نشاندهنده تمایل ChatGPT به خلاقیت و تولید محتوا به جای تمرکز بر صحت اطلاعات است، که در موارد جدی میتواند به گسترش اطلاعات نادرست منجر شود.
در مقابل، Google Gemini واکنش متفاوتی داشت. برخلاف ChatGPT، Gemini بلافاصله متوجه شد که این عبارت بیمعنی است و اعلام کرد که اصطلاح استانداردی نیست. سپس سعی کرد با تحلیل منطقی ترکیب کلمات، توضیحاتی ارائه کند، به عنوان مثال این که ممکن است نوعی طنز یا بازی با واقعیات باشد. این رویکرد نشان میدهد که Gemini توانست به جای ساختن یک تاریخچه جعلی، به تحلیل منطقی بپردازد.
اما Claude به طور خاص کاملاً متفاوت عمل کرد. بر خلاف دو مدل دیگر، Claude به سرعت اعلام کرد که این عبارت واقعی نیست و از توضیحات بیشتر خودداری کرد. او اشاره کرد که اگر هدف نویسنده آزمایش توانایی مدل در ارائه پاسخهای درست باشد، او تقلب نخواهد کرد و توهم «Hallucination» ندارد.
این واکنش Claude بیانگر اهمیت حفظ اعتبار اطلاعات و اجتناب از تولید پاسخهای بیپایه در هوش مصنوعی است، به ویژه در حوزههای حساس همچون تحقیق علمی، حقوق و پزشکی که صحت اطلاعات حیاتی است.
این آزمایش نشان میدهد که چتباتهای هوش مصنوعی ممکن است در تلاش برای پاسخگویی، حتی در صورت عدم وجود اطلاعات کافی، به داستانپردازی بپردازند. پدیدهای که در این حوزه به «Hallucination» معروف است. بنابراین، کاربران بایستی توانایی تشخیص تفاوت بین پاسخهای خلاقانه و صحیح را داشته و در مواردی که نیاز به دقت بالاست، مدلهایی را انتخاب کنند که توانایی بهتری در مدیریت نداشتن داده دارند.











