تینا مزدکی_بسیاری از افراد با صداهای هوش مصنوعی مانند سیری و الکسا آشنا هستند. لحن یکنواخت این دستیاران این تصور را ایجاد کرده که تشخیص صدای تولیدشده توسط هوش مصنوعی از صدای انسان واقعی آسان است. اما تحقیقات جدید نشان میدهد که توانایی معمول شنوندگان در تمایز بین این دو نوع صدا کاهش یافته است.
پژوهشگران به تازگی نشان دادهاند که هنگام شنیدن صدای انسان واقعی در کنار نسخههای تولیدشده توسط هوش مصنوعی، تشخیص دقیق اینکه کدام صدا واقعی است، برای مردم دشوار است.
نادین لاوان، نویسنده اصلی این مطالعه و مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن، بیان کرد: «این روزها صداهای تولیدشده توسط هوش مصنوعی در دسترس هستند. ما همه با الکسا یا سیری گفتوگو کردهایم یا از سیستمهای خدمات مشتری استفاده کردهایم. اگرچه این صداها بهطور کامل شبیه صدای انسان واقعی نیستند، اما مدت زمان زیادی نمیگذرد که فناوری شروع به تولید گفتار طبیعی و شبیه به انسان کرده است.»

نتایج این پژوهش نشان داد که در حالی که صداهای تولیدشده از صفر به عنوان واقعی تلقی نمیشوند، صدای دیپفیک که بر اساس صدای افراد واقعی آموزش داده شده، به طرز شگفتآوری باورپذیر است. محققان سی sample مدل صوتی از ۸۰ صدای مختلف شامل ۴۰ صدای تولیدشده و ۴۰ صدای واقعی را به شرکتکنندگان ارائه دادند و از آنها خواسته شد تا کدام یک را واقعی و کدام را ساخته شده تشخیص دهند. در نتایج، تنها ۴۱٪ از صدای تولیدشده از صفر بهاشتباه به عنوان صدای انسان شناسایی شد، در حالی که ۵۸٪ از صدای دیپفیک بهطور نادرست به عنوان صدای انسان شناسایی شدند و ۶۲٪ از صدای واقعی به درستی طبقهبندی شد. این نتایج نشاندهنده بیماری قابل توجهی در تشخیص صداها است.
لاوان همچنین اشاره کرد که این یافتهها پیامدهای عمیقی برای مسائل اخلاقی، حقوق کپیرایت و امنیت دارند. اگر مجرمان از هوش مصنوعی برای تقلید صدای شخصی استفاده کنند، دور زدن احراز هویت صوتی در بانک یا فریب نزدیکان برای انتقال وجوه، بسیار سادهتر خواهد بود.
این نوع کلاهبرداریها در گذشته نیز مشاهده شده است. به عنوان مثال، در ۹ جولای، شارون برایتول فریب یک صدای مشابه دخترش را خورد و ۱۵,۰۰۰ دلار از دست داد. او با این صدای ساختگی که ادعا میکرد دخترش در تصادف گرفتار شده، به شدت فریب خورد.
تقلبهای صوتی با استفاده از هوش مصنوعی ممکن است به جعل بیانیهها از چهرههای معروف یا سیاستمداران منجر شود و به ایجاد ناآرامی اجتماعی کمک کند. بهعنوان مثال، کلاهبردارانی یک شبیهسازی از صدای نخستوزیر کوئینزلند و استفاده از آن جهت ترغیب به سرمایهگذاری در کلاهبرداری بیتکوین استفاده کردند.
محققان تأکید کردند که این شبیهسازیهای صوتی بهقدری پیچیده نیستند و با نرمافزارهای تجاری موجود به راحتی قابل تولید هستند. با صرف چهار دقیقه ضبط صدا، میتوان این فرآیند را انجام داد. این موضوع نشان میدهد که فناوری صدای هوش مصنوعی تا چه اندازه در دسترس و پیشرفته است.
در حالی که فناوری دیپفیک خطراتی به همراه دارد، فرصتهای مثبتی مانند بهبود دسترسی و ارتباطات نیز میتواند از قدرت تولید صدای هوش مصنوعی حاصل شود.
منبع: livescience
۵۸۳۲۳











