زمان تخمینی مطالعه: 3 دقیقه

تکنیک ارائه شده برای استفاده از LLM برای جهت‌یابی روبات‌ها از ورودی‌های مبتنی بر زبان به جای داده‌های بصری پرهزینه استفاده می‌کند تا ربات را از طریق یک وظیفه ناوبری چند مرحله‌ای هدایت کند. ممکن است روزی بخواهید ربات خانگی شما تعدادی از لباس های کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی در گوشه سمت چپ زیرزمین قرار دهد. ربات باید دستورالعمل‌های شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که برای تکمیل این کار باید طی کند، مشخص نماید.

برای یک عامل هوش مصنوعی، گفتن این کار آسان‌تر از انجام آن است. رویکردهای کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخش‌های مختلف کار استفاده می‌کنند که برای ساختن آن‌ها به تلاش و تخصص انسانی زیادی نیاز است. این روش‌ها، که از بازنمایی‌های بصری برای تصمیم‌گیری مستقیم برای ناوبری استفاده می‌کنند، حجم عظیمی از داده‌های بصری را برای آموزش می‌خواهند که اغلب به سختی به دست می‌آیند.

برای غلبه بر این چالش‌ها، محققان MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson AI یک روش ناوبری ابداع کردند که نمایش‌های بصری را به قطعات زبان تبدیل می‌کند، که سپس به یک مدل زبان بزرگ داده می‌شود که تمام بخش‌های وظیفه ناوبری چند مرحله‌ای را انجام می‌دهد. روش آن‌ها به‌جای رمزگذاری ویژگی‌های بصری از تصاویر محیط اطراف ربات به‌عنوان نمایش‌های بصری، که از نظر محاسباتی فشرده است، زیرنویس‌های متنی ایجاد می‌کند که نقطه‌ دید ربات را توصیف می‌کند. یک مدل زبان بزرگ از توصیف‌ها برای پیش‌بینی اقداماتی که یک ربات باید برای انجام دستورالعمل‌های مبتنی بر زبان کاربر انجام دهد، استفاده می‌کند.

از آنجایی که روش آنها از بازنمایی‌های صرفاً مبتنی بر زبان استفاده می‌کند، آنها می ‌وانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از داده‌های آموزشی مصنوعی استفاده کنند. در حالی که این رویکرد از تکنیک‌هایی که از ویژگی‌های بصری استفاده می‌کنند بهتر عمل نمی‌کند، اما در موقعیت‌هایی که فاقد داده‌های بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودی‌های مبتنی بر زبان با سیگنال‌های بصری منجر به عملکرد بهتر ناوبری می‌شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *