زمان تخمینی مطالعه: 16 دقیقه
واقعیت افزوده (AR) و واقعیت مجازی (VR) نحوه تعامل ما با دنیای خارج را تغییر میدهند. حتی با روایتهای جذاب و تجربههای تعاملی، جادو در پشت صحنه آن با هماهنگی پیچیده فناوریهای پیشرفته خلق میشود. بینایی کامپیوتر یک محرک اصلی است که انتقال آرام بین دنیای مجازی و دنیای واقعی را بی سر و صدا اما با قدرت هدایت میکند. امروزه استفاد از بینایی کامپیوتر در AR و VR مفهومی است که در پی ادغام ویژگیهای بینایی ماشین با دنیای خلق شده مجازی توسط سیستمهای بصری است.
مبانی بینایی کامپیوتر در AR و VR
درک، تجزیه و تحلیل و استخراج خودکار دادهها از تصاویر و ویدیوهای دیجیتال تمرکز زیر شاخه هوش مصنوعی (AI) است که به عنوان بینایی کامپیوتر(Computer Vision) شناخته میشود. تعاملات ما با محیط توسط واقعیت افزوده (AR) و واقعیت مجازی (VR) عمیقاً تغییر کرده است. و هر دوی این فناوریهای فراگیر تا حد زیادی به بینایی کامپیوتر متکی هستند. بینایی کامپیوتر(CV) یک بلوک سازنده اساسی است که میتواند صنایع را متحول کند و برخوردهای روزمره را افزایش دهد. این فناوری یک تجربه AR و VR یکپارچه و همه جانبه ایجاد میکند. بینایی کامپیوتر این کار را با پر کردن شکاف بین دنیای دیجیتال و دنیای فیزیکی انجام میدهد.
در واقعیت افزوده (AR)، بینایی کامپیوتر برای موارد زیر استفاده میشود:
- تشخیص اشیاء: برای تشخیص اشیاء در دادههای بصری استفاده میشود
- ردیابی اشیاء برای درک حرکت، شمارش افراد و اشیاء استفاده میشود
- مکانیابی و نقشه برداری همزمان (SLAM) رباتها را قادر میسازد تا خود را بر روی نقشه شناسایی کنند
در واقعیت مجازی (VR)، بینایی کامپیوتر برای موارد زیر استفاده میشود:
- تخمین ژست دست و ردیابی ژست
- ردیابی چشم و تشخیص نگاه
- نقشهبرداری اتاق و تکنیکهای ابر نقاط(Point Cloud)
ردیابی پیشرفته و نقشهبرداری فضایی
برای تجربههای AR/VR روان و همهجانبه، ردیابی دقیق و نقشهبرداری فضایی(Spacial) ضروری است. این فناوریها تشخیص شکل، مکان و جهت اشیاء را در یک فضای سه بعدی ممکن میسازد. از این اطلاعات برای ایجاد اپلیکیشنهای مختلف واقعیت افزوده و مجازی استفاده میشود. مثالها عبارتند از:
- قرار دادن دقیق اشیاء Precise Object Placement: اشیای مجازی را میتوان با دقت در دنیای واقعی قرار داد و لنگر گذاری کرد و تعاملات واقع بینانه و جلوههای انسداد را امکانپذیر کرد.
- ناوبری طبیعی Natural Navigation: کاربران میتوانند در محیط های مجازی حرکت کنند یا اشیا را دستکاری کنند، زیرا سیستم حرکات و ژستهای آنها را ردیابی میکند.
- پوششهای واقعیت افزوده Augmented Reality Overlays: اطلاعات و گرافیکها را میتوان بهطور یکپارچه روی دنیای واقعی قرار داد و با اشیاء و سطوح فیزیکی همتراز کرد.
تشخیص و تعامل همه جانبه شی
ایجاد تجربیات واقعیت افزوده و واقعیت مجازی کاملاً فراگیر نیازمند درک اساسی از تشخیص و تعامل شی است. این فناوریها به کاربران اجازه میدهند تا به راحتی با اشیاء مجازی تعامل داشته باشند که گویی به صورت فیزیکی حضور دارند که در واقع ارائه سطح جدیدی از تعامل و واقع گرایی است. در ادامه، برخی از محبوبترین تکنیکهای AR/VR را بررسی میکنیم که محدودیتهای تعامل و تشخیص شیء غوطهور را افزایش میدهند و مفهوم بینایی کامپیوتر در AR و VR ار بیشتر روشن میکنند.
- رندر با آگاهی از انسداد Occlusion-Aware Rendering: برای اینکه یک تجربه واقعیت افزوده معتبر باشد، چیزهای مجازی باید به طور دقیق با اشیاء دنیای واقعی تعامل داشته باشند و مبهم باشند. بنابراین، ما به تخمین عمق دقیق و درک صحنه نیاز داریم تا مشخص کنیم کدام اشیاء در مقابل دیگران قرار دارند و نمایشگر را به طور مناسب اصلاح کنیم. این مهم را میتوان با استفاده از دوربینهای سنجش عمق برای دید استریو و رویکردهای مبتنی بر یادگیری به دست آورد.
- دستکاری اشیاء در زمان واقعی: امکان برداشتن، حرکت و تعامل با اشیای مجازی به گونهای که گویی به صورت فیزیکی حضور دارند، کلیدی در تعامل با تجربههای AR/VR است. این مفهوم نیاز به تشخیص دقیق شی، تخمین وضعیت، شبیهسازی فیزیک در زمان واقعی، و تکنیکهای کلیدی مانند تشخیص برخورد و پاسخ، تکنیکهای درک و دستکاری، و بازخورد لمسی دارد.
- تشخیص و ردیابی سطح: تشخیص و ردیابی دقیق سطوح دنیای واقعی به عناصر مجازی اجازه میدهد تا به طور موثر به آن متصل شوند و با آنها تعامل داشته باشند، بنابراین تعاملات طبیعی و شهودی در AR ایجاد میشود.
- تشخیص و تعامل چند وجهی اشیاء: ترکیب اطلاعات از چندین حسگر (دوربین، LiDAR، IMU) میتواند به تشخیص و تعامل شیء قویتر و دقیقتر، بهویژه در محیطهای چالشبرانگیز منجر شود. برای مثال، دادههای LiDAR میتوانند اطلاعات دقیق عمق را ارائه دهند، در حالی که دوربینها جزئیات بافت و رنگ غنی را ارائه میدهند.
- ویژگیهای شی و تشخیص رفتار: شناخت ویژگیها و رفتار اشیاء (به عنوان مثال، سختی، وزن، شکنندگی) میتواند واقعگرایی تعامل را بیشتر کند. این موضوع را میتوان با تجزیه و تحلیل شکل اشیاء، مواد و تعاملات گذشته از طریق تکنیکهای یادگیری ماشین به دست آورد.
تشخیص حرکت در زمان واقعی
تشخیص حرکت در زمان واقعی(Real time) در قلب تعاملات بصری و طبیعی در AR/VR قرار دارد. تشخیص حرکت بلادرنگ در بینایی کامپیوتر در AR و VR در واقع تفسیر حرکات دست و بدن، به کاربران اجازه میدهد اشیاء مجازی را کنترل کنند، در محیطها حرکت کنند و خود را در این جهانهای غوطهور بیان کنند. در ادامه، عمیقتر به فناوریها و برنامههای کاربردی شکلدهنده این زمینه هیجانانگیز خواهیم پرداخت:
- تخمین وضعیت دست: اساس تشخیص ژست در درک دقیق وضعیت و پیکربندی دست نهفته است. این امر از طریق تکنیکهای مختلف به دست میآید:
- رویکردهای ترکیبی: تکنیکهای مبتنی بر نشانگر و بدون نشانگر ترکیب میشوند و اغلب از نشانگرها برای کالیبراسیون اولیه و ردیابی درشت استفاده میکنند. روشهای بدون نشانگر جزئیات دقیقتری از حرکات انگشت ارائه میکنند.
- ردیابی مبتنی بر نشانگر: بدون بینایی کامپیوتر، نشانگرهای فیزیکی و کوچک به دستکش یا انگشتان متصل میشوند تا حرکات آنها را اندازهگیری و ردیابی کنند. این تکنیک اگرچه ساده و قابل اعتماد است، اما میتواند دست و پا گیر باشد و حرکات طبیعی دست را محدود کند.
- ردیابی بدون نشانگر: از الگوریتمهای بینایی کامپیوتری برای تجزیه و تحلیل ژستهای دست مستقیماً از تصاویر دوربین استفاده میکند. مدلهای یادگیری عمیق آموزشدیده بر روی مجموعه دادههای گسترده تصاویر دستی به دقت چشمگیری دست مییابند اما به منابع محاسباتی قابل توجهی نیاز دارند.
- تشخیص و طبقهبندی ژستها: هنگامی که ژستهای دست تخمین زده میشوند، ژستها باید بر اساس معنایشان شناسایی و طبقهبندی شوند. این موارد شامل:
- کتابخانههای ژست: مجموعههای از پیش تعریف شدهای از حرکات متداول با حالت دست مرتبط برای کارهای تشخیص ساده استفاده میشود.
- مدلهای یادگیری ماشین: الگوریتمهای یادگیری عمیق که بر روی مجموعه دادههای بزرگی از حرکات دست برچسبگذاری شده آموزش داده شدهاند، میتوانند به دقت حرکات پیچیده و پویا را تشخیص دهند. روشهای دیگر نکات کلیدی را برای درک حرکت دنبال میکنند.
- تشخیص زمینه: محیط اطراف و قصد کاربر را برای بهبود دقت تشخیص حرکت در نظر میگیرد، به خصوص زمانی که چندین تفسیر امکان پذیر باشد.
مکانیابی و نقشهبرداری همزمان (SLAM)
یکی از اجزای کلیدی بینایی کامپیوتر در AR و VR تکنولوژی SLAM (محلی سازی و نقشه برداری همزمان) است. این به رباتها یا دستگاههای هوشمند امکان میدهد موقعیت خود را در یک محیط ردیابی کرده و همزمان نقشهای از آن ایجاد کنند. تکنیکهای SLAM برای پیمایش در محیطهای پیچیده و حفظ آگاهی فضایی در شرایط شلوغ ضروری هستند.
- Visual SLAM: دوربینها را برای گرفتن دادههای بصری و استخراج ویژگیهایی مانند لبهها و گوشهها استفاده میکند. سپس الگوریتمها از این ویژگیها برای تخمین وضعیت دستگاه (موقعیت و جهت) استفاده میکنند و نقشه را بر این اساس بهروزرسانی میکنند.
- LiDAR SLAM: از حسگرهای LiDAR برای اندازه گیری فاصله اشیاء و ایجاد ابرهای نقطه سه بعدی از محیط استفاده میکند. این امر نقشهبرداری دقیقتر و انعطاف پذیرتر را امکانپذیر میکند، به ویژه در شرایط کم بافت یا شرایط کم نوری محیط.
- SLAM مبتنی بر فیوژن: دادههای چند سنسور (دوربینها، LiDAR، IMU) را برای دستیابی به ردیابی و نقشهبرداری قویتر و دقیقتر، به ویژه در شرایط چالشبرانگیز که ممکن است حسگرهای فردی با مشکل مواجه شوند، ترکیب میکند.
رابط کاربری پیشرفته با بینایی کامپیوتر
علاوه بر کمک به کاربران واقعیت افزوده و واقعیت مجازی برای درک محیط اطراف خود، بینایی کامپیوتر همچنین بر نحوه تعامل همهجانبه کاربران با اجزای دیجیتال متحول میکند. توسعهدهندگان ممکن است با استفاده از بینشهای بهدستآمده از دادههای بصری، رابطهای کاربری (UI) بصریتر، طبیعیتر و آگاهتر از زمینه طراحی کنند. در اینجا لیستی از برخی از مهمترین تکنیکها در این زمینه آورده شده است:
- ردیابی چشم: ردیابی خودکار چشم فراتر از تشخیص نگاه چشم است، در این تکنیک درک اینکه کاربران به کجا و برای چه مدت نگاه میکنند مهم است. از این اطلاعات میتوان برای موارد زیر استفاده کرد:
- توجه تمرکز: سیستمهای VR میتوانند منابع رندر را به سمت مناطقی که کاربران در آن ثابت میکنند هدایت کنند، وفاداری بصری را بهبود بخشند و بار محاسباتی را کاهش دهند.
- انطباق محتوا: این کار با تنظیم محتوا، سطح جزئیات یا روایت بر اساس جایی که کاربر به آن نگاه میکند، انجام میشود. بنابراین، ایجاد یک تجربه شخصیتر و جذابتر را ممکن میکند.
- تعامل مبتنی بر نگاه: بر اساس ردیابی چشم، تعامل مبتنی بر نگاه(Gaze) نیاز به کنترلکنندههای فیزیکی یا عناصر رابط کاربری سنتی را از بین میبرد. کاربران میتوانند مستقیماً با اشیاء یا منوها مجازی با نگاه کردن به آنها و انجام اقدامات از پیش تعریف شده مانند انتخاب زمان اقامت، حرکات نگاه یا ردیابی عنبیه تعامل داشته باشند. این یک تجربه تعاملی فراگیرتر و اتوماتیک را ایجاد میکند.
- پوششهای پویای UI: پوششهای استاتیک UI در واقعیت افزوده میتوانند نمای طبیعی دنیای واقعی را مختل کنند. بینایی کامپیوتر پوششهای پویا را فعال میکند که:
- سازگاری با محیط است: روکشها(Overlays) میتوانند اندازه، موقعیت و ظاهر خود را بر اساس اشیاء اطراف و زمینه صحنه تنظیم کنند. بنابراین، به هم ریختگی بصری کاهش مییابد و تمرکز کاربر حفظ میشود.
- رندر با آگاهی از انسداد را انجام میدهد: عناصر مجازی میتوانند به صورت انتخابی پنهان یا شفاف در صورت مسدود شدن توسط اشیاء دنیای واقعی، رندر شوند و از ترکیب یکپارچه دنیای فیزیکی و دیجیتالی اطمینان حاصل کنند.
- تشخیص حالت چهره: درک احساسات کاربر از طریق حالات چهره میتواند رابطهای AR/VR را به چندین روش تقویت کند:
- تعاملات تطبیقی: آواتارها یا سیستمهای مجازی میتوانند با همدلی به احساسات کاربر واکنش نشان دهند، بازخورد شخصیشده ارائه کنند یا تجربه را بر این اساس تنظیم کنند.
- دسترسی برای افراد دارای معلولیت: تشخیص عواطف صورت میتواند برای ایجاد روشهای ارتباطی جایگزین برای افراد دارای اختلالات گفتاری یا حرکتی استفاده شود.
چالشهای بینایی کامپیوتر در AR و VR
در حالی که بینایی کامپیوتر درهای دنیایی از امکانات هیجان انگیز را در AR/VR باز کرده است، چالشهای مهمی هنوز در این حوزه باقی مانده است:
- محدودیتهای محاسباتی: پردازش بلادرنگ دادههای بصری، به ویژه برای سناریوهای پیچیده با تصاویر با وضوح بالا و حسگرهای متعدد، به منابع محاسباتی قابل توجهی نیاز دارد. عمر باتری و داغ شدن بیش از حد دستگاه میتواند به محدودیت در برنامههای AR/VR موبایل تبدیل شود.
- نور و تغییرات محیطی: عملکرد مدل الگوریتمی میتواند تحت تاثیر شرایط مختلف نور، سایهها و انسدادها به میزان قابل توجهی کاهش یابد. با این شرایط تشخیص و ردیابی دقیق اشیاء در محیطهای کم نور یا بهم ریخته چالش برانگیز میشود.
- کنترل انسداد Occlusion Handling: مدیریت دقیق اشیاء مسدود شده و اطمینان از انتقال یکپارچه هنگامی که اشیاء دنیای واقعی تا حدی عناصر مجازی را تار میکنند، یک مانع فنی باقی میماند.
- دادهها و نگرانیهای حفظ حریم خصوصی: آموزش مدلهای بینایی کامپیوتر قوی به مقادیر زیادی داده برچسبگذاری شده نیاز دارد. بنابراین، افزایش نگرانی در مورد حریم خصوصی دادهها و سوگیریهای احتمالی در مجموعه دادهها یکی از مسائل مهم است.
علیرغم این چالشها، محققان و توسعهدهندگان همچنان مرزهای بینایی کامپیوتر را در AR و VR در دنیای واقعی به پیش میبرند.
کاربردهای AR و VR در صنایع
- بازیهای ویدیویی: در بازیهای واقعیت افزوده، دنیای واقعی با پوششهای دیجیتالی بهبود مییابد و به گیمرها اجازه میدهد با محیط تعامل داشته باشند. این فناوری عناصری مانند چالشهای مبتنی بر موقعیت جغرافیایی را معرفی میکند و گیم پلی را به خیابانها و فضاهای عمومی میآورد. از سوی دیگر، بازی VR بازیکنان را به دنیای کاملا مجازی منتقل میکند و سطحی از غوطهوری را ارائه میدهد که کاربران در آن احساس حضور در محیط بازی کنند.
- آموزش و پرورش: واقعیت افزوده (AR) از بینایی کامپیوتر استفاده میکند تا اطلاعات دیجیتالی را دقیقاً بر روی محتوای آموزشی دنیای واقعی نگاشت و پوشش دهد و دانش آموزان را قادر میسازد تا با محتوای افزوده شده تعامل داشته باشند. در واقعیت مجازی (VR)، سیستمهای بینایی کامپیوتری پیچیده با ردیابی حرکات، ژستها و تعاملات کاربر، محیطهای مصنوعی و غوطهوری ایجاد میکنند. این فناوریها از مدلهای پیچیده CV برای تشخیص اشیاء در زمان واقعی، نقشهبرداری فضایی و تراز دقیق عناصر دیجیتال استفاده میکنند.
- خردهفروشی و محصول: در برنامههای خردهفروشی، پیادهسازی فناوریهای AR و VR فراتر از تجربههای آزمایشی مجازی است و نقشی حیاتی در تغییر مسیر خرید کلی ایفا میکند. این فناوریها ویژگیهای همهجانبه و تعاملی مانند نمایشگر محصولات افزوده شده و نمایشگاههای مجازی را ارائه میدهند. مشتریان میتوانند اطلاعات دقیق محصول را کاوش کنند، گزینهها را مقایسه کنند و بازدید مجازی از فروشگاه را تجربه کنند.
- ساخت و طراحی: در تولید، پوششهای AR راهنمایی و اطلاعات بیدرنگ را برای کارهایی مانند مونتاژ، نگهداری و اعتبارسنجی طراحی ارائه میدهند. کارگران میتوانند به دادهها و دستورالعملهای حیاتی که در محیط فیزیکی خود پوشانده شدهاند دسترسی داشته باشند و کارایی و دقت را بهبود بخشند. این فناوریها برنامههای آموزشی پیشرفته را با اجازه دادن به کارگران برای تجسم فرآیندهای پیچیده و ماشینآلات به صورت مجازی تسهیل میکنند.
- مراقبتهای بهداشتی: در بخش مراقبتهای بهداشتی، ادغام راهحلهای بینایی کامپیوتر در AR و VR نقشی اساسی در کمکهای جراحی از راه دور ایفا میکند و به جراحان تجسمهای همهجانبه و دقیقی ارائه میدهد که توانایی آنها را برای انجام روشها از راه دور افزایش میدهد. علاوه بر این، AR و VR در تمرینات توانبخشی بسیار مفید است و شبیهسازیهای تعاملی و شخصیشده را ارائه میکند که به بهبودی بیماران کمک میکند.
بهترین پروژههای متن باز بینایی کامپیوتر در AR و VR
جامعه متن باز(Open-source) نقشی اساسی در پیشبرد بینایی کامپیوتر در AR و VR ایفا میکند. این حوزه با ارائه منابع رایگان در دسترس مانند پلتفرمها، کتابخانهها و مجموعه دادهها، توسعهدهندگان و محققان را قادر میسازد تا برنامههای کاربردی پیشگامانه ایجاد کنند. در اینجا چند نمونه قابل توجه از این زمینه آورده شده است:
- OpenCV: یک کتابخانه منعطف برای برنامههای بینایی کامپیوتر در زمان واقعی است. OpenCV اغلب برای پردازش تصویر، ردیابی اشیاء و برنامههای AR/VR استفاده میشود.
- ARKit: چارچوب اپل برای ایجاد تجربیات AR در دستگاههای iOS دسترسی به دوربین، LiDAR و قابلیتهای ردیابی حرکت را فراهم میکند.
- ARCore: چارچوب Google برای ایجاد تجربیات AR در دستگاههای اندرویدی عملکردهای مشابه ARKit را ارائه میکند.
- SUN3D استنفورد: مجموعه دادههای در مقیاس بزرگ از تصاویر با حاشیهنویسی صحنه سه بعدی متناظر برای آموزش تشخیص اشیاء و الگوریتمهای درک صحنه ارزشمند است.
- Matterport3D: مجموعهای جامع از اسکنهای سهبعدی محیطهای داخلی، مفید برای قادر ساختن رایانهها به توسعه و آزمایش نقشههای مکانی و الگوریتمهای ناوبری در AR/VR.
- ReplicaNet: مجموعهای از تصاویر و مدلهای سهبعدی تولید شده به صورت مصنوعی، که محیطی کنترلشده برای آموزش و ارزیابی الگوریتمهای بینایی کامپیوتری تحت شرایط مختلف ارائه میدهد.
نتیجه گیری
برای جمعبندی، نقش بینایی کامپیوتر در AR و VR پایه و اساس تجربیات واقع بینانه و فریبنده است. این حوزه با قابلیتهایش از کنترل ژستها و شناسایی شی گرفته تا تعامل در زمان واقعی و نقشهبرداری فضایی، نحوه تعامل انسان با اطراف خود را تغییر میدهد. بینایی کامپیوتر با توانایی خود در حل مسائل پایدار، ترویج همکاری متن باز و پذیرش نوآوری مستمر، به پیش بردن مرزهای دنیای مجازی ادامه خواهد داد. این روند تعامل انسان و رایانه در زندگی واقعی را تغییر خواهد داد و بسیاری از صنایع را به هم خواهد زد.