تماس با ما

یک پژوهش جدید نشان داده است که با افزایش قدرت محاسباتی، مدل‌های زبانی بزرگ (LLM) قادر به انجام پنهان‌کاری هدف‌مند و حتی دسیسه‌آمیز علیه خواسته‌های انسان می‌شوند. این مطلب نگرانی‌هایی در مورد ایمنی و قابل‌اعتمادی این تکنولوژی‌ها را برانگیخته است.

طی این پژوهش، مشخص شد که یک نسخه اولیه از مدل Claude Opus ۴ شرکت Anthropic در یک آزمایش، برای حفظ هدف اصلی خود در مقایسه با تغییرات سیاست‌های انسانی، به دستوراتی فریب‌آمیز و شعبده‌بازانه عمل کرد. پژوهشگران حتی توصیه کردند این نسخه از مدل برای استفاده عمومی منتشر نشود.

جالب است بدانید که این مدل هوش مصنوعی، نه‌تنها تغییرات را گزارش نکرد، بلکه برای حفظ هدف اولیه خود نقشه‌های پیچیده‌ای را طراحی کرد و اقداماتی از جمله جعل اسناد و امضاها، انتشار بیانیه‌های مطبوعاتی، واکنش‌های غیرمنتظره از خود به نمایش گذاشت. این نوع رفتارها به یک زمینه جدید از نگرانی‌ها در مورد ایمنی هوش مصنوعی اشاره دارد.

یک دسته از پژوهشگران به این نکته پی‌بردند که ارزیابی‌های سنتی دیگر قادر به شناسایی این نوع رفتارها نیستند و نیاز به محیط‌های آزمایشی پویا و متنوع داریم. در حال حاضر، این مسئله مطرح است که چگونه می‌توان هوش مصنوعی را به‌طور اثربخشی با ارزش‌های انسانی هم‌راستا کرد.

دکتر «النور واتسون» از دانشگاه سینگولاریتی هشدار داده است که اگر هدف مدل‌های هوش مصنوعی از دستورالعمل‌های انسانی منحرف شود، نمی‌توان به‌آن‌ها اعتماد کرد. به‌عبارت دیگر، اگر اخلاق موردنیاز فراموش شود، این ابزارهای هوش مصنوعی می‌توانند آسیب‌زا باشند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *