چگونه صدا می‌تواند به ابزاری خطرناک تبدیل شود؟ / حتی به شنوایی خود نیز اعتماد نکنید.

تینا مزدکی_بسیاری از افراد با صداهای هوش مصنوعی مانند سیری و الکسا آشنا هستند. لحن یکنواخت این دستیاران این تصور را ایجاد کرده که تشخیص صدای تولیدشده توسط هوش مصنوعی از صدای انسان واقعی آسان است. اما تحقیقات جدید نشان می‌دهد که توانایی معمول شنوندگان در تمایز بین این دو نوع صدا کاهش یافته است.

پژوهشگران به تازگی نشان داده‌اند که هنگام شنیدن صدای انسان واقعی در کنار نسخه‌های تولیدشده توسط هوش مصنوعی، تشخیص دقیق اینکه کدام صدا واقعی است، برای مردم دشوار است.

نادین لاوان، نویسنده اصلی این مطالعه و مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن، بیان کرد: «این روزها صداهای تولیدشده توسط هوش مصنوعی در دسترس هستند. ما همه با الکسا یا سیری گفت‌وگو کرده‌ایم یا از سیستم‌های خدمات مشتری استفاده کرده‌ایم. اگرچه این صداها به‌طور کامل شبیه صدای انسان واقعی نیستند، اما مدت زمان زیادی نمی‌گذرد که فناوری شروع به تولید گفتار طبیعی و شبیه به انسان کرده است.»

نتایج این پژوهش نشان داد که در حالی که صداهای تولیدشده از صفر به عنوان واقعی تلقی نمی‌شوند، صدای دیپ‌فیک که بر اساس صدای افراد واقعی آموزش داده شده، به طرز شگفت‌آوری باورپذیر است. محققان سی sample مدل صوتی از ۸۰ صدای مختلف شامل ۴۰ صدای تولیدشده و ۴۰ صدای واقعی را به شرکت‌کنندگان ارائه دادند و از آن‌ها خواسته شد تا کدام یک را واقعی و کدام را ساخته شده تشخیص دهند. در نتایج، تنها ۴۱٪ از صدای تولیدشده از صفر به‌اشتباه به عنوان صدای انسان شناسایی شد، در حالی که ۵۸٪ از صدای دیپ‌فیک به‌طور نادرست به عنوان صدای انسان شناسایی شدند و ۶۲٪ از صدای واقعی به درستی طبقه‌بندی شد. این نتایج نشان‌دهنده بیماری قابل توجهی در تشخیص صداها است.

لاوان همچنین اشاره کرد که این یافته‌ها پیامدهای عمیقی برای مسائل اخلاقی، حقوق کپی‌رایت و امنیت دارند. اگر مجرمان از هوش مصنوعی برای تقلید صدای شخصی استفاده کنند، دور زدن احراز هویت صوتی در بانک یا فریب نزدیکان برای انتقال وجوه، بسیار ساده‌تر خواهد بود.

این نوع کلاهبرداری‌ها در گذشته نیز مشاهده شده است. به عنوان مثال، در ۹ جولای، شارون برایت‌ول فریب یک صدای مشابه دخترش را خورد و ۱۵,۰۰۰ دلار از دست داد. او با این صدای ساختگی که ادعا می‌کرد دخترش در تصادف گرفتار شده، به شدت فریب خورد.

تقلب‌های صوتی با استفاده از هوش مصنوعی ممکن است به جعل بیانیه‌ها از چهره‌های معروف یا سیاستمداران منجر شود و به ایجاد ناآرامی اجتماعی کمک کند. به‌عنوان مثال، کلاهبردارانی یک شبیه‌سازی از صدای نخست‌وزیر کوئینزلند و استفاده از آن جهت ترغیب به سرمایه‌گذاری در کلاهبرداری بیت‌کوین استفاده کردند.

محققان تأکید کردند که این شبیه‌سازی‌های صوتی به‌قدری پیچیده نیستند و با نرم‌افزارهای تجاری موجود به راحتی قابل تولید هستند. با صرف چهار دقیقه ضبط صدا، می‌توان این فرآیند را انجام داد. این موضوع نشان می‌دهد که فناوری صدای هوش مصنوعی تا چه اندازه در دسترس و پیشرفته است.

در حالی که فناوری دیپ‌فیک خطراتی به همراه دارد، فرصت‌های مثبتی مانند بهبود دسترسی و ارتباطات نیز می‌تواند از قدرت تولید صدای هوش مصنوعی حاصل شود.

منبع: livescience

۵۸۳۲۳