چگونه می‌توان هوش مصنوعی را تحت تأثیر قرار داد؟

یک تحقیق مشترک که به‌همت انستیتو امنیت هوش مصنوعی در انگلستان، انستیتو آلن تورینگ و شرکت آنتروپیک انجام شده است، نشان می‌دهد که حدود ۲۵۰ سند می‌توانند به‌عنوان یک «در پشتی» عمل کرده و سبب تولید متن‌های نامفهوم توسط مدل‌های زبانی بزرگ شوند.

این موضوع نگران‌کننده است، زیرا بیشتر مدل‌های زبانی معتبر با استفاده از متن‌های عمومی از جمله وب‌سایت‌های شخصی و پست‌های وبلاگی آموزش دیده‌اند، که این امر به هر فردی اجازه می‌دهد محتوایی ایجاد کند که ممکن است به داده‌های آموزشی مدل‌های هوش مصنوعی اضافه شود.

شرکت آنتروپیک در یک پست وبلاگی به مسموم‌سازی داده اشاره کرده است و عنوان کرده که افراد مخرب می‌توانند با افزودن متن‌های خاص به پست‌ها، مدل‌های هوش مصنوعی را در یادگیری رفتارهای خطرناک سوق دهند. این فرایند می‌تواند به شکل حملاتی تحت عنوان «درهای پشتی» صورت گیرد، که شامل اصطلاحات خاصی است که ممکن است رفتارهای خاصی را در مدل فعال کند و در حالت عادی پنهان بماند.

به‌عنوان مثال، اگر مهاجم عبارتی ویژه را به ورودی مدل ارسال کند، ممکن است این مدل اطلاعات حساس را فاش کند. یافته‌های این تحقیق نگرانی‌های جدی را در خصوص امنیت هوش مصنوعی مطرح کرده و کارشناسان بر این باورند که این موضوع می‌تواند کاربردهای حساس این فناوری را محدود کند.