گوگل به تازگی از توسعه اولین ربات مبتنی بر هوش مصنوعی خبر داده است که قابلیت‌های فکری مشابه انسان را داراست. این ربات با استفاده از فناوری‌های پیشرفته، توانایی تجزیه و تحلیل و تصمیم‌گیری را به نمایش می‌گذارد و به عنوان یک گام مهم در جهت توسعه هوش مصنوعی به حساب می‌آید.

تینا مزدکی_ پژوهشگران دیپ‌مایند اعلام کرده‌اند که این مرحله، آغاز یک دوره جدید برای ربات‌های هوشمند به شمار می‌آید. سیستم‌های هوش مصنوعی مولد که قادر به تولید متن، تصویر، صدا و ویدئو هستند، به بخشی رایج از زندگی دیجیتال تبدیل شده‌اند. این تکنولوژی‌ها به‌گونه‌ای طراحی شده‌اند که بتوانند برای ایجاد واکنش‌های رباتیک نیز به کار گرفته شوند. پروژه جدید دیپ‌مایند تحت عنوان جمینای رباتیک (Gemini Robotics) به تازگی دو مدل جدید را معرفی کرده که با همکاری یکدیگر، نخستین ربات‌های متفکر را پدید می‌آورند.

اهمیت هوش مصنوعی مولد در رباتیک

هوش مصنوعی مولد در رباتیک نقش بسیار مهمی ایفا می‌کند و به گسترش کارایی عمومی ربات‌ها کمک می‌کند. امروزه، ربات‌ها معمولاً برای انجام وظایف خاص طراحی شده و در انجام کارهای دیگر معمولاً ناکارآمد هستند. کارولینا پارادا، رئیس بخش رباتیک دیپ‌مایند، اظهار کرده است که این ربات‌ها به‌خاطر سفارشی بودن، استفاده از آن‌ها دشوار است و نیاز به زمان زیادی برای آماده‌سازی دارند.

اما فناوری‌های مولد به ربات‌ها این امکان را می‌دهد که بدون نیاز به تنظیمات مجدد، به سرعت با موقعیت‌های جدید سازگار شوند. دیپ‌مایند این رویکرد را بر اساس دو مدل جدید پایه‌گذاری کرده است: یک مدل تفکر و یک مدل اجرای وظایف. این دو مدل، به نام‌های Gemini Robotics ۱.۵ و Gemini Robotics-ER ۱.۵ معرفی شده‌اند. مدل اول، یک سیستم دیداری-زبانی-کنشی (VLA) است که از تصاویر و متون برای ایجاد واکنش‌های رباتیک بهره می‌برد. مدل دوم؛ مدل دیداری-زبانی (VLM) بوده و برای عملکردهای پیچیده‌تری طراحی شده است.

ربات‌های هوشمند دیپ‌مایند — این مدل‌ها در همکاری با یکدیگر به «تفکر» درباره نحوه انجام وظایف می‌پردازند.

ربات‌های متفکر

مدل Gemini Robotics-ER ۱.۵ به عنوان اولین هوش مصنوعی رباتیک شناخته می‌شود که توانایی «استدلال شبیه‌سازی‌شده» را داراست. دیپ‌مایند به این قابلیت عنوان «تفکر» می‌دهد، هرچند که برخی معتقدند این اصطلاح ممکن است کمی اغراق‌آمیز باشد. بر اساس اطلاعات دیپ‌مایند، این مدل در ارزیابی‌هایی امتیاز بالایی کسب کرده و نشان داده که می‌تواند تصمیمات دقیقی درباره تعاملات در فضای فیزیکی اتخاذ کند. این مدل به تنهایی عمل نمی‌کند و در اینجا است که مدل Gemini Robotics ۱.۵ وارد عمل می‌شود.

به عنوان مثال، فرض کنید می‌خواهید رباتی لباس‌ها را به گروه‌های رنگی و سفید تقسیم کند. مدل ER درخواست شما و تصاویر محیط را پردازش کرده و دستورالعمل‌های مشخصی به زبان طبیعی برای انجام این کار تولید می‌کند. سپس مدل Gemini Robotics ۱.۵ این دستورالعمل‌ها را دریافت کرده و با تجزیه و تحلیل ورودی‌های تصویری، حرکات لازم را اجرا می‌کند. علاوه بر اجرای دستورات، این مدل نیز فرآیند تفکر داخلی خود را دارد تا تصمیم بگیرد هر مرحله را چگونه انجام دهد. کانیشکا رائو، یکی از پژوهشگران دیپ‌مایند، می‌گوید: «انسان‌ها غریزه‌ای برای انجام کارها دارند، اما ربات‌ها از آن بی‌بهره‌اند. یکی از پیشرفت‌های کلیدی در نسخه ۱.۵ توانایی فکر کردن پیش از عمل است.»

این دو مدل جدید در رباتیک دیپ‌مایند بر اساس مدل‌های پایه جمینای طراحی شده و با داده‌های بهینه‌سازی شده تطابق دارند که آن‌ها را برای کار در فضای فیزیکی هوشمندتر می‌کند. این رویکرد به ربات‌ها توانایی انجام وظایف پیچیده چند مرحله‌ای را فراهم می‌آورد.

با وجود این نوآوری‌ها، هنوز فاصله زیادی تا زمانی که ربات‌ها قادر به انجام کارهایی مانند شستن لباس‌ها شوند وجود دارد. در حال حاضر، مدل Gemini Robotics ۱.۵ که مسئول کنترل ربات‌ها است، تنها در دسترس یک گروه محدود از آزمایش‌کنندگان قرار دارد. اما مدل ER به تازگی در Google AI Studio منتشر شده و به توسعه‌دهندگان این امکان را می‌دهد که دستورالعمل‌های رباتیک برای آزمایش‌های خود تولید کنند.

منبع: arstechnica

۵۸۳۲۳