هوش مصنوعی منابع اطلاعاتی خود را از این وب‌سایت‌ها تأمین می‌کند / اینفوگرافیک

براساس گزارشی که شرکت Semrush ارائه داده، مدل‌های زبانی بزرگ (LLM) مانند ChatGPT برای به‌دست آوردن اطلاعات خود عمدتاً به وب‌سایت‌هایی نظیر Reddit و Wikipedia مراجعه می‌کنند. از سوی دیگر، برای داده‌های جغرافیایی معمولاً از منابعی مثل Mapbox و OpenStreetMap استفاده می‌شود.

این تحلیل که در ژوئن ۲۰۲۵ و بر پایه بیش از ۱۵۰ هزار داده به‌کار رفته در مدل‌های یادشده صورت گرفته، وابستگی این ابزارها به محتوای تولیدشده توسط کاربران را به تصویر می‌کشد. این موضوع نگرانی‌هایی را درباره محدودیت‌های ابزارهای هوش مصنوعی کنونی به وجود آورده است. این بررسی که در قالب اینفوگرافیک ارائه شده، به کاربران و توسعه‌دهندگان کمک می‌کند تا درک بهتری از نحوه عملکرد این فناوری‌ها داشته باشند.

به‌طور خاص، آمار موجود نشان می‌دهد که این مدل‌ها در ارائه اطلاعات، تا چه اندازه به دامنه‌های مختلف وب مراجعه می‌کنند. نتایج این بررسی با مروری بر داده‌های ژوئن ۲۰۲۵، در زیر آمده است:

– Reddit.com – ۴۰.۱٪
– Wikipedia.org – ۲۶.۳٪
– YouTube.com – ۲۳.۵٪
– Google.com – ۲۳.۳٪
– Yelp.com – ۲۱.۰٪
– و سایر وب‌سایت‌ها.

Reddit با ۴۰.۱٪ بیشترین استناد را دارد و Wikipedia در مکان بعدی با ۲۶.۳٪ قرار دارد. این آمار حاکی از آن است که مدل‌های لایت‌لرنینگ عموماً به محتواهای تولیدشده توسط کاربران ارجاع می‌دهند.

در حالی که این وب‌سایت‌ها منابع زیادی از دانش تولیدشده توسط کاربران را فراهم می‌آورند، اما ماهیت باز و قابل ویرایش آن‌ها باعث شکل‌گیری نگرانی‌هایی در مورد صحت اطلاعات می‌شود. وابستگی زیاد هوش مصنوعی به این نوع منابع می‌تواند موجب تقویت روایت‌های نادرست شود.

ازجمله ریسک‌های اصلی استفاده از محتوای تولیدشده توسط کاربران می‌توان به اشاعه اطلاعات نادرست، تقویت حباب اطلاعاتی و عدم اعتبار اشاره کرد. در این راستا، ذکر این نکته ضروری است که وب‌سایت‌هایی که مطالب را تولید می‌کنند، معمولاً به نظارت دقیق کارشناسان دسترسی ندارند، که می‌تواند به ارائه اطلاعات نادرست منجر شود.

منبع: visualcapitalist