تینا مزدکی_ پژوهشگران دیپمایند اعلام کردهاند که این مرحله، آغاز یک دوره جدید برای رباتهای هوشمند به شمار میآید. سیستمهای هوش مصنوعی مولد که قادر به تولید متن، تصویر، صدا و ویدئو هستند، به بخشی رایج از زندگی دیجیتال تبدیل شدهاند. این تکنولوژیها بهگونهای طراحی شدهاند که بتوانند برای ایجاد واکنشهای رباتیک نیز به کار گرفته شوند. پروژه جدید دیپمایند تحت عنوان جمینای رباتیک (Gemini Robotics) به تازگی دو مدل جدید را معرفی کرده که با همکاری یکدیگر، نخستین رباتهای متفکر را پدید میآورند.
اهمیت هوش مصنوعی مولد در رباتیک
هوش مصنوعی مولد در رباتیک نقش بسیار مهمی ایفا میکند و به گسترش کارایی عمومی رباتها کمک میکند. امروزه، رباتها معمولاً برای انجام وظایف خاص طراحی شده و در انجام کارهای دیگر معمولاً ناکارآمد هستند. کارولینا پارادا، رئیس بخش رباتیک دیپمایند، اظهار کرده است که این رباتها بهخاطر سفارشی بودن، استفاده از آنها دشوار است و نیاز به زمان زیادی برای آمادهسازی دارند.
اما فناوریهای مولد به رباتها این امکان را میدهد که بدون نیاز به تنظیمات مجدد، به سرعت با موقعیتهای جدید سازگار شوند. دیپمایند این رویکرد را بر اساس دو مدل جدید پایهگذاری کرده است: یک مدل تفکر و یک مدل اجرای وظایف. این دو مدل، به نامهای Gemini Robotics ۱.۵ و Gemini Robotics-ER ۱.۵ معرفی شدهاند. مدل اول، یک سیستم دیداری-زبانی-کنشی (VLA) است که از تصاویر و متون برای ایجاد واکنشهای رباتیک بهره میبرد. مدل دوم؛ مدل دیداری-زبانی (VLM) بوده و برای عملکردهای پیچیدهتری طراحی شده است.

رباتهای متفکر
مدل Gemini Robotics-ER ۱.۵ به عنوان اولین هوش مصنوعی رباتیک شناخته میشود که توانایی «استدلال شبیهسازیشده» را داراست. دیپمایند به این قابلیت عنوان «تفکر» میدهد، هرچند که برخی معتقدند این اصطلاح ممکن است کمی اغراقآمیز باشد. بر اساس اطلاعات دیپمایند، این مدل در ارزیابیهایی امتیاز بالایی کسب کرده و نشان داده که میتواند تصمیمات دقیقی درباره تعاملات در فضای فیزیکی اتخاذ کند. این مدل به تنهایی عمل نمیکند و در اینجا است که مدل Gemini Robotics ۱.۵ وارد عمل میشود.
به عنوان مثال، فرض کنید میخواهید رباتی لباسها را به گروههای رنگی و سفید تقسیم کند. مدل ER درخواست شما و تصاویر محیط را پردازش کرده و دستورالعملهای مشخصی به زبان طبیعی برای انجام این کار تولید میکند. سپس مدل Gemini Robotics ۱.۵ این دستورالعملها را دریافت کرده و با تجزیه و تحلیل ورودیهای تصویری، حرکات لازم را اجرا میکند. علاوه بر اجرای دستورات، این مدل نیز فرآیند تفکر داخلی خود را دارد تا تصمیم بگیرد هر مرحله را چگونه انجام دهد. کانیشکا رائو، یکی از پژوهشگران دیپمایند، میگوید: «انسانها غریزهای برای انجام کارها دارند، اما رباتها از آن بیبهرهاند. یکی از پیشرفتهای کلیدی در نسخه ۱.۵ توانایی فکر کردن پیش از عمل است.»
این دو مدل جدید در رباتیک دیپمایند بر اساس مدلهای پایه جمینای طراحی شده و با دادههای بهینهسازی شده تطابق دارند که آنها را برای کار در فضای فیزیکی هوشمندتر میکند. این رویکرد به رباتها توانایی انجام وظایف پیچیده چند مرحلهای را فراهم میآورد.
با وجود این نوآوریها، هنوز فاصله زیادی تا زمانی که رباتها قادر به انجام کارهایی مانند شستن لباسها شوند وجود دارد. در حال حاضر، مدل Gemini Robotics ۱.۵ که مسئول کنترل رباتها است، تنها در دسترس یک گروه محدود از آزمایشکنندگان قرار دارد. اما مدل ER به تازگی در Google AI Studio منتشر شده و به توسعهدهندگان این امکان را میدهد که دستورالعملهای رباتیک برای آزمایشهای خود تولید کنند.
منبع: arstechnica
۵۸۳۲۳











