زمان تخمینی مطالعه: 3 دقیقه
تکنیک ارائه شده برای استفاده از LLM برای جهتیابی روباتها از ورودیهای مبتنی بر زبان به جای دادههای بصری پرهزینه استفاده میکند تا ربات را از طریق یک وظیفه ناوبری چند مرحلهای هدایت کند. ممکن است روزی بخواهید ربات خانگی شما تعدادی از لباس های کثیف را به طبقه پایین حمل کند و آنها را در ماشین لباسشویی در گوشه سمت چپ زیرزمین قرار دهد. ربات باید دستورالعملهای شما را با مشاهدات بصری خود ترکیب کند تا مراحلی را که برای تکمیل این کار باید طی کند، مشخص نماید.
برای یک عامل هوش مصنوعی، گفتن این کار آسانتر از انجام آن است. رویکردهای کنونی اغلب از چندین مدل یادگیری ماشینی دست ساز برای مقابله با بخشهای مختلف کار استفاده میکنند که برای ساختن آنها به تلاش و تخصص انسانی زیادی نیاز است. این روشها، که از بازنماییهای بصری برای تصمیمگیری مستقیم برای ناوبری استفاده میکنند، حجم عظیمی از دادههای بصری را برای آموزش میخواهند که اغلب به سختی به دست میآیند.
برای غلبه بر این چالشها، محققان MIT و آزمایشگاه هوش مصنوعی MIT-IBM Watson AI یک روش ناوبری ابداع کردند که نمایشهای بصری را به قطعات زبان تبدیل میکند، که سپس به یک مدل زبان بزرگ داده میشود که تمام بخشهای وظیفه ناوبری چند مرحلهای را انجام میدهد. روش آنها بهجای رمزگذاری ویژگیهای بصری از تصاویر محیط اطراف ربات بهعنوان نمایشهای بصری، که از نظر محاسباتی فشرده است، زیرنویسهای متنی ایجاد میکند که نقطه دید ربات را توصیف میکند. یک مدل زبان بزرگ از توصیفها برای پیشبینی اقداماتی که یک ربات باید برای انجام دستورالعملهای مبتنی بر زبان کاربر انجام دهد، استفاده میکند.
از آنجایی که روش آنها از بازنماییهای صرفاً مبتنی بر زبان استفاده میکند، آنها می وانند از یک مدل زبان بزرگ برای تولید موثر حجم عظیمی از دادههای آموزشی مصنوعی استفاده کنند. در حالی که این رویکرد از تکنیکهایی که از ویژگیهای بصری استفاده میکنند بهتر عمل نمیکند، اما در موقعیتهایی که فاقد دادههای بصری کافی برای آموزش هستند، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودیهای مبتنی بر زبان با سیگنالهای بصری منجر به عملکرد بهتر ناوبری میشود.