زمان تخمینی مطالعه: 7 دقیقه
بازسازی دیجیتالی هندسه سه بعدی از تصاویر یک مشکل اساسی در بینایی کامپیوتر است. کاربردهای مختلفی برای این حوزه مانند تولید فیلم، تولید محتوا برای بازیهای ویدئویی، واقعیت مجازی و افزوده، چاپ سه بعدی و بسیاری دیگر از زمینهها وجود دارد. وظیفه مورد بحث در این مطلب، بازسازی هندسه سه بعدی با کیفیت بالا از یک تصویر واحد رنگی از یک شی است که در شکل زیر نشان داده شده است.
انسانها این توانایی را دارند که بدون زحمت درباره اشکال اشیا و صحنهها استدلال کنند، حتی اگر فقط یک تصویر را ببینیم. توجه داشته باشید که آرایش دوچشمی چشمان ما به ما امکان میدهد که عمق را درک کنیم، اما این موضوع برای درک هندسه سه بعدی نیازی نیست. حتی اگر فقط یک عکس از یک شی را ببینیم، درک خوبی از شکل آن داریم. علاوه بر این، میتوانیم درباره قسمتهای ناپیدای اجسام مانند پشت که توانایی مهمی برای فهم اشیا است، استدلال کنیم. سوالی که بلافاصله مطرح میشود این است که چگونه انسانها میتوانند هندسه را از روی یک تصویر واحد استدلال کنند؟ و از دیدی هوش مصنوعی: چگونه میتوانیم این توانایی را به ماشینها آموزش دهیم؟
فضاهای شکل
اصل اساسی مورد استفاده برای بازسازی هندسه از ورودی مبهم این واقعیت است که اشکال دلخواه نیستند و از این رو برخی از اشکال محتمل و برخی بسیار بعید هستند. به طور کلی سطوح تمایل به صاف بودن دارند. در محیطهای ساخته شده توسط انسان، آنها اغلب به صورت تکهای مسطح هستند. برای اشیاء قوانین سطح بالا اعمال میشود. به عنوان مثال، هواپیماها معمولاً دارای بدنهای هستند که دو بال اصلی در هر طرف بوده و به پشت آن یک تثبیت کننده عمودی متصل است. انسانها میتوانند با مشاهده جهان با چشمان خود و تعامل با جهان با استفاده از دستان خود به این دانش دست یابند. در بینایی کامپیوتر، این واقعیت که اشکال دلخواه نیستند، به ما اجازه میدهد تا همه اشکال ممکن یک کلاس شی یا کلاسهای شی چندگانه را بهعنوان یک فضای شکل با ابعاد کم، که از مجموعههای بزرگی از اشکال نمونه به دست میآید، توصیف کنیم.
پیشبینی وکسل با استفاده از CNN
جدیدترین روشها برای بازسازی سه بعدی از شبکههای عصبی کانولوشنال (CNN) برای پیشبینی شکل اجسام به عنوان حجم اشغال سه بعدی استفاده میکند. حجم خروجی سه بعدی به عناصر حجمی به نام وکسل تقسیم میشود و برای هر وکسل یک فضای اشغال شده یا آزاد، یعنی به ترتیب داخل یا بیرون جسم تعیین میشود. ورودی معمولاً به صورت یک تصویر تک رنگی ارائه میشود که شی را به تصویر میکشد، و CNN با استفاده از معماری رمزگشای کانولوشنال، حجم اشغال را پیشبینی میکند. این شبکه به صورت سرتاسری آموزش داده میشود و با حجمهای اشغال حقیقت زمینه شناختهشده که از مجموعه دادههای مدل CAD مصنوعی بهدست میآید، نظارت میشود. با استفاده از این نمایش سه بعدی و CNN ها، میتوان مدلهایی را یاد گرفت که میتوانند در انواع کلاسهای شی جای بگیرند.
پیشبینی سطح سلسله مراتبی
نقص اصلی در پیشبینی حجم اشغال با استفاده از CNN این است که فضای خروجی سه بعدی است و از این رو با توجه به افزایش وضوح، رشد مکعبی دارد. این مشکل از پیشبینی هندسه با کیفیت بالا در کارهای ذکر شده در بالا جلوگیری میکند و بنابراین به شبکههای وکسل با وضوح درشت محدود میشود.
در روش بازسازی دیجیتالی هندسه سه بعدی استدلال میشود که با توجه به اینکه سطوح در واقع فقط دو بعدی هستند، این یک محدودیت غیر ضروری است. در این تکنیک از ماهیت دو بعدی سطوح با پیشبینی سلسله مراتبی وکسلهای رزولوشن خوب تنها در جایی که سطحی با قضاوت از پیشبینی وضوح پایین انتظار میرود، بهرهبرداری شده است. ایده اصلی ارتباط نزدیکی با نمایشهای octree دارد که اغلب در استریو چندنمایی(multi-view stereo) و همجوشی نقشه عمق(depth map fusion) برای نمایش هندسه با وضوح بالا استفاده میشوند.
تکنیک پیشنهادی
در بازسازی دیجیتالی هندسه سه بعدی یک خط لوله پیشبینی سهبعدی اولیه یک تصویر رنگی را به عنوان ورودی میگیرد که ابتدا با استفاده از یک رمزگذار کانولوشنی به یک نمایش با ابعاد کم کدگذاری میشود. سپس این نمایش کم ابعاد به حجم اشغال سه بعدی رمزگشایی میشود. ایده اصلی روش، به نام پیشبینی سطح سلسله مراتبی (HSP)، شروع رمزگشایی با پیشبینی وکسلهای با وضوح پایین است. با این حال، برخلاف رویکرد استاندارد که در آن هر وکسل به فضای آزاد یا اشغال شده طبقهبندی میشود، در این تکنیک از سه کلاس استفاده میشود: کلاس فضای آزاد، کلاس فضای اشغال شده و کلاس مرز. این تقسیمبندی امکان تجزیه و تحلیل خروجیها را با وضوح پایین ممکن کرده و تنها وضوح بالاتری را در قسمتهایی از حجم پیشبینی میشود که شواهدی مبنی بر وجود سطح وجود دارد. با تکرار رویه پالایش، شبکههای وکسل با وضوح بالا به صورت سلسله مراتبی پیشبینی میگردد (شکل زیر را ببینید).
خروجی تولیدی بر اساس استفاده از روش جدید
آزمایشهای انجام شده عمدتاً بر روی مجموعه داده مصنوعی ShapeNetانجام شده است. وظیفه اصلی پیش بینی هندسه با وضوح بالا از یک تصویر تک رنگ است. این روش با دو خط مبنا مقایسه میشود که آنها را سخت با وضوح پایین (LR hard) و نرم با وضوح کم (LR soft) مینامیم. این خطوط پایه با وضوح درشت یکسان 323 پیشبینی میکنند، اما در نحوه تولید دادههای آموزشی متفاوت هستند. خط پایه سخت LR از تخصیص دودویی برای وکسلها استفاده میکند. اگر حداقل یکی از وکسلهای با وضوح بالا اشغال شده باشد، همه وکسلها به عنوان اشغال شده برچسبگذاری میشوند. خط پایه نرم LR از تخصیص کسری استفاده میکند که درصد وکسلهای اشغال شده را در وکسلهای با وضوح بالا مربوطه منعکس میکند. روش ارائه شده HSP وضوح 2563 را پیشبینی میکند. نتایج به دست آمده در شکلهای زیر مزایای را از نظر کیفیت سطح و کامل بودن پیشبینی و وضوح بالا در مقایسه با خطوط پایه با وضوح پایین نشان میدهد.