براساس گزارشی که شرکت Semrush ارائه داده، مدلهای زبانی بزرگ (LLM) مانند ChatGPT برای بهدست آوردن اطلاعات خود عمدتاً به وبسایتهایی نظیر Reddit و Wikipedia مراجعه میکنند. از سوی دیگر، برای دادههای جغرافیایی معمولاً از منابعی مثل Mapbox و OpenStreetMap استفاده میشود.
این تحلیل که در ژوئن ۲۰۲۵ و بر پایه بیش از ۱۵۰ هزار داده بهکار رفته در مدلهای یادشده صورت گرفته، وابستگی این ابزارها به محتوای تولیدشده توسط کاربران را به تصویر میکشد. این موضوع نگرانیهایی را درباره محدودیتهای ابزارهای هوش مصنوعی کنونی به وجود آورده است. این بررسی که در قالب اینفوگرافیک ارائه شده، به کاربران و توسعهدهندگان کمک میکند تا درک بهتری از نحوه عملکرد این فناوریها داشته باشند.
بهطور خاص، آمار موجود نشان میدهد که این مدلها در ارائه اطلاعات، تا چه اندازه به دامنههای مختلف وب مراجعه میکنند. نتایج این بررسی با مروری بر دادههای ژوئن ۲۰۲۵، در زیر آمده است:
– Reddit.com – ۴۰.۱٪
– Wikipedia.org – ۲۶.۳٪
– YouTube.com – ۲۳.۵٪
– Google.com – ۲۳.۳٪
– Yelp.com – ۲۱.۰٪
– و سایر وبسایتها.
Reddit با ۴۰.۱٪ بیشترین استناد را دارد و Wikipedia در مکان بعدی با ۲۶.۳٪ قرار دارد. این آمار حاکی از آن است که مدلهای لایتلرنینگ عموماً به محتواهای تولیدشده توسط کاربران ارجاع میدهند.
در حالی که این وبسایتها منابع زیادی از دانش تولیدشده توسط کاربران را فراهم میآورند، اما ماهیت باز و قابل ویرایش آنها باعث شکلگیری نگرانیهایی در مورد صحت اطلاعات میشود. وابستگی زیاد هوش مصنوعی به این نوع منابع میتواند موجب تقویت روایتهای نادرست شود.
ازجمله ریسکهای اصلی استفاده از محتوای تولیدشده توسط کاربران میتوان به اشاعه اطلاعات نادرست، تقویت حباب اطلاعاتی و عدم اعتبار اشاره کرد. در این راستا، ذکر این نکته ضروری است که وبسایتهایی که مطالب را تولید میکنند، معمولاً به نظارت دقیق کارشناسان دسترسی ندارند، که میتواند به ارائه اطلاعات نادرست منجر شود.
منبع: visualcapitalist











