به نقل از پیوست و خبردونی، شرکتهای فناوری در جستجوی دادههای آموزشی برای توسعه مدلهای هوش مصنوعی بزرگتر هستند، که این مسئله نگرانیهایی درباره حریم خصوصی کاربران ایجاد کرده است. در پاسخ به این موضوع، گوگل از مدل جدیدی به نام VaultGemma رونمایی کرده که بر اساس تکنیکهای پیشرفتهای طراحی شده تا حریم خصوصی را حفظ کند.
VaultGemma یک مدل آزمایشی است که نشان میدهد میتوان هوش مصنوعی قدرتمندی تولید کرد که کمتر به نگهداری و بازگو کردن دادههای حساس آموزشی تمایل دارد. این نوآوری میتواند رویکرد گوگل و سایر شرکتها را نسبت به حریم خصوصی در نسلهای آینده هوش مصنوعی تغییر دهد.
خطر اصلی مدلهای زبانی بزرگ این است که گاهی ممکن است بهجای تولید محتوای جدید، دادههای آموزشی خود را بهطور دقیق تکرار کنند. در صورتی که این دادهها شامل اطلاعات شخصی یا محتوای دارای حق چاپ باشند، میتواند به نقض حریم خصوصی یا مسائل حقوقی جدی منجر شود.
گوگل به منظور رفع این چالش، از روشی به نام Differential Privacy استفاده میکند که با اضافه کردن نویز یا اختلالات محاسباتی در فرایند آموزش، از بهخاطرسپردن جزئیات مهم جلوگیری میکند. اما این روش با چالشی بزرگ همراه است؛ زیرا اضافه کردن نویز میتواند دقت مدل را کاهش دهد و نیاز به توان محاسباتی بیشتری را ایجاد کند.
تیم تحقیقاتی گوگل با کشف «قوانین مقیاسپذیری» برای نخستینبار موفق شدند یک تعادل بهینه بین سه عامل اصلی تعیین کنند: بودجه حریم خصوصی (میزان نویز)، بودجه محاسباتی (قدرت پردازش) و حجم دادههای آموزشی. این تعادل به توسعهدهندگان کمک میکند تا منابع خود را با کارایی بالا برای ساخت مدلهای خصوصی مدیریت کنند.
گوگل اعلام کرده که این تکنیک به احتمال زیاد در مدلهای کلانی که کاربردهای عمومی دارند، استفاده نخواهد شد. بلکه بیشتر برای مدلهای کوچکتر و هدفمند که قابلیتهای خاصی مانند خلاصهسازی ایمیلها را ارائه میدهند، مناسب خواهد بود.
VaultGemma بهعنوان یک مدل وزنباز (open-weight) بر اساس مدل Gemma ۲ طراحی شده و با یک میلیارد پارامتر بهنسبت دیگر مدلهای عظیم، سایز کوچکتری دارد. این مدل هماکنون برای دانلود از طریق پلتفرمهای Hugging Face و Kaggle در دسترس است.











