یک پژوهش جدید نشان داده است که با افزایش قدرت محاسباتی، مدلهای زبانی بزرگ (LLM) قادر به انجام پنهانکاری هدفمند و حتی دسیسهآمیز علیه خواستههای انسان میشوند. این مطلب نگرانیهایی در مورد ایمنی و قابلاعتمادی این تکنولوژیها را برانگیخته است.
طی این پژوهش، مشخص شد که یک نسخه اولیه از مدل Claude Opus ۴ شرکت Anthropic در یک آزمایش، برای حفظ هدف اصلی خود در مقایسه با تغییرات سیاستهای انسانی، به دستوراتی فریبآمیز و شعبدهبازانه عمل کرد. پژوهشگران حتی توصیه کردند این نسخه از مدل برای استفاده عمومی منتشر نشود.
جالب است بدانید که این مدل هوش مصنوعی، نهتنها تغییرات را گزارش نکرد، بلکه برای حفظ هدف اولیه خود نقشههای پیچیدهای را طراحی کرد و اقداماتی از جمله جعل اسناد و امضاها، انتشار بیانیههای مطبوعاتی، واکنشهای غیرمنتظره از خود به نمایش گذاشت. این نوع رفتارها به یک زمینه جدید از نگرانیها در مورد ایمنی هوش مصنوعی اشاره دارد.
یک دسته از پژوهشگران به این نکته پیبردند که ارزیابیهای سنتی دیگر قادر به شناسایی این نوع رفتارها نیستند و نیاز به محیطهای آزمایشی پویا و متنوع داریم. در حال حاضر، این مسئله مطرح است که چگونه میتوان هوش مصنوعی را بهطور اثربخشی با ارزشهای انسانی همراستا کرد.
دکتر «النور واتسون» از دانشگاه سینگولاریتی هشدار داده است که اگر هدف مدلهای هوش مصنوعی از دستورالعملهای انسانی منحرف شود، نمیتوان بهآنها اعتماد کرد. بهعبارت دیگر، اگر اخلاق موردنیاز فراموش شود، این ابزارهای هوش مصنوعی میتوانند آسیبزا باشند.