یک تحقیق مشترک که بههمت انستیتو امنیت هوش مصنوعی در انگلستان، انستیتو آلن تورینگ و شرکت آنتروپیک انجام شده است، نشان میدهد که حدود ۲۵۰ سند میتوانند بهعنوان یک «در پشتی» عمل کرده و سبب تولید متنهای نامفهوم توسط مدلهای زبانی بزرگ شوند.
این موضوع نگرانکننده است، زیرا بیشتر مدلهای زبانی معتبر با استفاده از متنهای عمومی از جمله وبسایتهای شخصی و پستهای وبلاگی آموزش دیدهاند، که این امر به هر فردی اجازه میدهد محتوایی ایجاد کند که ممکن است به دادههای آموزشی مدلهای هوش مصنوعی اضافه شود.
شرکت آنتروپیک در یک پست وبلاگی به مسمومسازی داده اشاره کرده است و عنوان کرده که افراد مخرب میتوانند با افزودن متنهای خاص به پستها، مدلهای هوش مصنوعی را در یادگیری رفتارهای خطرناک سوق دهند. این فرایند میتواند به شکل حملاتی تحت عنوان «درهای پشتی» صورت گیرد، که شامل اصطلاحات خاصی است که ممکن است رفتارهای خاصی را در مدل فعال کند و در حالت عادی پنهان بماند.
بهعنوان مثال، اگر مهاجم عبارتی ویژه را به ورودی مدل ارسال کند، ممکن است این مدل اطلاعات حساس را فاش کند. یافتههای این تحقیق نگرانیهای جدی را در خصوص امنیت هوش مصنوعی مطرح کرده و کارشناسان بر این باورند که این موضوع میتواند کاربردهای حساس این فناوری را محدود کند.











