مقایسه قدرت هوش مصنوعی ایلان ماسک و گوگل در کانون توجه قرار گرفته است. کدام یک از این دو فناوری نوین، توانایی بیشتری دارد؟

تینا مزدکی_در دنیای رقابت‌های هوش مصنوعی، مدل‌های Gemini ۳ و Grok ۴.۱ به عنوان رهبران جدول LMArena شناخته می‌شوند. این پلتفرم با هدف رتبه‌بندی مدل‌های مختلف بر اساس تعاملات واقعی کاربران، توسط تیم LMSYS که به ساخت Chatbot Arena نیز شهرت دارد، مدیریت می‌شود و به عنوان یکی از معتبرترین روش‌ها برای بررسی عملکرد واقعی این مدل‌ها شناخته شده است.

در این چالش، Gemini ۳ و Grok ۴.۱ در ۹ بخش مختلف شامل معماهای منطقی، برنامه‌نویسی و نویسندگی خلاقانه به رقابت پرداختند تا مشخص شود که چگونه هر کدام به درخواست‌های رایج از دستگاه‌های هوش مصنوعی پاسخ می‌دهند. نتایج ارائه شده نشان‌دهنده تفاوت‌های جالبی در سبک و دقت این دو مدل است.

۱. استدلال (Reasoning)

در یک چالش تفکر ذهنی، از کاربران خواسته شد تا با استفاده از دو طناب که هر کدام ۶۰ دقیقه زمان می‌برند تا بسوزند، دقیقاً ۴۵ دقیقه را اندازه‌گیری کنند. Gemini ۳.۰ با استفاده از تیترهای سازماندهی‌شده و توضیح دقیق اصول ریاضی، پاسخ مناسبی ارائه داد. در مقابل، Grok ۴.۱ با لحنی محاوره‌ای‌ای و توضیحات روان‌تر، به توصیف چالش پرداخت. در نهایت، Grok به خاطر تأکید بهتر بر نوسانات سوختن طناب‌ها برنده این بخش شد.

۲. منطق (Logic)

در چالشی دیگر، سوالی پیرامون پارادوکسی درباره آرایشگری مطرح شد که فقط کسانی را اصلاح می‌کند که خودشان ریش خود را نمی‌تراشند. Gemini ۳.۰ با ارائه پاسخ‌های واضح و ساختاری شفاف، به این تناقض پرداخته و Grok ۴.۱ با افزودن زمینه تاریخی، پاسخی قاطع‌تر ارائه کرد. در این بخش، Gemini ۳.۰ به خاطر تحلیل عمیقتر خود برنده شد.

۳. کدنویسی (Coding)

در یک چالش برنامه‌نویسی، کاربران باید تابعی در زبان پایتون می‌نوشتند که معتبر بودن یک جدول سودوکو را بررسی کند. Gemini ۳.۰ با ارائه توضیحات دقیق و بررسی تمامی موارد لبه‌ای، رویکرد آموزشی مناسبی را نشان داد، در حالی که Grok ۴.۱ توانست به شکل کارآمدتر و بدون پیچیدگی‌های اضافی پاسخ دهد. در نهایت، Gemini به خاطر گزارش خطا و کد تمیزتر به عنوان برنده معرفی شد.

۴. دیباگ (Debugging)

در مرحله دیباگ، کاربران باید مشکل موجود در یک کد نمونه را شناسایی می‌کردند. Gemini ۳.۰ به سرعت به تجزیه و تحلیل و شناسایی مشکل اصلی پرداخت و مراحل حل را با دقت توضیح داد. به طور کلی، عملکرد این دو مدل در مواجهه با چالش‌ها و ارائه راه‌حل‌های منطقی و کاربردی قابل توجه است.

### بررسی قابلیت‌های هوش مصنوعی نسل جدید

در موضوع بازگشت و نبود حالت پایه، تحلیل‌های شفاف از ناکارآمدی این نوع بازگشت ارائه شد. Grok 4.1 به وضوح روند بی‌نهایت را نمایان کرد و نسخه‌های بهبود یافته‌ای از جمله اعتبارسنجی ورودی را معرفی کرد. این در حالی است که Gemini 3.0 با پاسخی کاربردی‌تر و توضیحات آموزنده‌تری، در این بخش پیروز شد.

#### نویسندگی خلاق

در چالش نویسندگی خلاق، Gemini 3.0 داستانی با رویکردی هوشمندانه و طنزآمیز خلق کرد. در مقابل، Grok 4.1 داستانی پیچیده‌تر را به تصویر کشید که دیدگاه قهرمان را به ضدقهرمان تغییر داد. پایان چشم‌گیر این داستان سبب شد که Grok به عنوان برنده این بخش معرفی شود.

#### درک ظریف و دقیق

در زمینه درآمد پایه همگانی، Gemini 3.0 به مشکلات سیستم‌های اجتماعی کنونی اشاره کرد و در تحلیل‌های خود به جوانب بازار کار و تورم پرداخت. اگرچه Grok 4.1 شواهد تجربی بیشتری ارائه داد و به ابعاد انسانی و مشارکت اجتماعی پرداخت، اما از نظر ساختار و تنوع استدلال‌ها، Gemini 3.0 برنده این بحث شد.

#### پیروی از دستور

در چالش پیروی از دستور، Gemini 3.0 لیستی از حیوانات با تنوع بالا ارائه کرد که شامل انواع مختلف می‌شد، در حالی که Grok 4.1 با انتخاب‌هایی رایج‌تر عمل کرد. در نهایت هر دو مدل به دلیل رعایت کامل شرایط مقرر، برابر شدند.

#### دقت مبتنی بر واقعیت

در پرسش درباره نقاشی سقف کلیسای سیستین، Gemini 3.0 اطلاعاتی کلیدی با سازمان‌دهی کلی ارائه کرد. در حالی که Grok 4.1 تاریخ‌ها و جزئیات بیشتری را با دقت بیشتر به همراه زمینه تاریخی در اختیار گذاشت و به این ترتیب برنده این چالش شد.

#### خودآگاهی

زمانی که از Gemini 3.0 در مورد محدودیت‌هایش به عنوان یک هوش مصنوعی سؤال شد، پاسخ‌ها نه‌تنها واضح نبودند، بلکه برخی از سوالات قبلی را نیز تکرار کرد. این موضوع نشان‌دهنده چالش‌های موجود در خودآگاهی هوش مصنوعی‌هاست و ضرورت بهبود مستمر در این زمینه را نمایان می‌کند.### Grok و Gemini در رقابتی جذاب از پاسخ‌ها

در یک مسابقه جدید، ابزارهای هوش مصنوعی Grok ۴.۱ و Gemini ۳.۰ به رقابت پرداختند. Grok ۴.۱ با ارائۀ پاسخ‌هایی واضح و با ساختار مناسب، به ویژه در ارائه سه مثال واقعی، عملکرد خوبی از خود نشان داد. با این حال، Gemini ۳.۰ به پرسش نهایی با تخیل و واقعیت علمی نزدیک‌تر شد و در ترکیب احساس و علم موفق‌تر عمل کرد.

#### نهایی‌ترین پرسش

پرسش مطرح‌شده حول یک پیام قطع رابطه بین ماه و زمین بود که باید در عین شاعرانه بودن، شامل حقایق علمی نیز می‌شد. Gemini ۳.۰ متن را با رویکردی مدرن آغاز کرد و به‌خوبی عواطف انسانی و دانش علمی را در هم آمیخت. در مقابل، Grok ۴.۱ متنی زیبا و خلاقانه تولید کرد، اما به دلیل درک عمیق‌تر و قالب پذیرفته‌شده‌تر Gemini، این مدل به عنوان برنده شناخته شد.

#### نتیجه‌گیری نهایی

در پایان، Gemini به دلیل ارائه پاسخ‌های بهتر و عمیق‌تر پیروز میدان شد، درحالی‌که Grok نیز با امتیازاتی چشمگیر در زاویه‌ای مثبت قرار گرفت. این رقابت همچنین نشان داد که Gemini در برابر سوالات چالش‌برانگیز ممکن است به خطاهای ذهنی و هذیان‌گویی دچار شود. اما در زمینه‌های دیگر مانند ریختن اشکال، عملکرد مناسبی داشت.

این مقایسه‌های جاری در روند پیشرفت مدل‌های هوش مصنوعی به ما کمک می‌کند تا نه فقط به تعیین بهترین مدل بپردازیم، بلکه بفهمیم هر مدل در چه زمینه‌ای و برای چه کاربری مناسب‌تر است.

منبع: tomsguide