الکتروهایو

هوش مصنوعی / الکترونیک / برنامه‌نویسی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بازسازی دیجیتالی هندسه سه بعدی با کیفیت بالا از یک تصویر تک رنگ

بازسازی دیجیتالی هندسه سه بعدی با کیفیت بالا از یک تصویر تک رنگ - سایت الکتروهایو
در این مقاله می‌خوانید:

زمان تخمینی مطالعه: 7 دقیقه

بازسازی دیجیتالی هندسه سه بعدی از تصاویر یک مشکل اساسی در بینایی کامپیوتر است. کاربردهای مختلفی برای این حوزه مانند تولید فیلم، تولید محتوا برای بازی‌های ویدئویی، واقعیت مجازی و افزوده، چاپ سه بعدی و بسیاری دیگر از زمینه‌ها وجود دارد. وظیفه مورد بحث در این مطلب، بازسازی هندسه سه بعدی با کیفیت بالا از یک تصویر واحد رنگی از یک شی است که در شکل زیر نشان داده شده است.

انسان‌ها این توانایی را دارند که بدون زحمت درباره اشکال اشیا و صحنه‌ها استدلال کنند، حتی اگر فقط یک تصویر را ببینیم. توجه داشته باشید که آرایش دوچشمی چشمان ما به ما امکان می‌دهد که عمق را درک کنیم، اما این موضوع برای درک هندسه سه بعدی نیازی نیست. حتی اگر فقط یک عکس از یک شی را ببینیم، درک خوبی از شکل آن داریم. علاوه بر این، می‌توانیم درباره قسمت‌های ناپیدای اجسام مانند پشت که توانایی مهمی برای فهم اشیا است، استدلال کنیم. سوالی که بلافاصله مطرح می‌شود این است که چگونه انسان‌ها می‌توانند هندسه را از روی یک تصویر واحد استدلال کنند؟ و از دیدی هوش مصنوعی: چگونه می‌توانیم این توانایی را به ماشین‌ها آموزش دهیم؟

فضاهای شکل

اصل اساسی مورد استفاده برای بازسازی هندسه از ورودی مبهم این واقعیت است که اشکال دلخواه نیستند و از این رو برخی از اشکال محتمل و برخی بسیار بعید هستند. به طور کلی سطوح تمایل به صاف بودن دارند. در محیط‌های ساخته شده توسط انسان، آنها اغلب به صورت تکه‌ای مسطح هستند. برای اشیاء قوانین سطح بالا اعمال می‌شود. به عنوان مثال، هواپیماها معمولاً دارای بدنه‌ای هستند که دو بال اصلی در هر طرف بوده و به پشت آن یک تثبیت کننده عمودی متصل است. انسان‎‌‌ها می‌توانند با مشاهده جهان با چشمان خود و تعامل با جهان با استفاده از دستان خود به این دانش دست یابند. در بینایی کامپیوتر، این واقعیت که اشکال دلخواه نیستند، به ما اجازه می‌دهد تا همه اشکال ممکن یک کلاس شی یا کلاس‌های شی چندگانه را به‌عنوان یک فضای شکل با ابعاد کم، که از مجموعه‌های بزرگی از اشکال نمونه به دست می‌آید، توصیف کنیم.

پیش‌بینی وکسل با استفاده از CNN

جدیدترین روش‌‌ها برای بازسازی سه بعدی از شبکه‌های عصبی کانولوشنال (CNN) برای پیش‌بینی شکل اجسام به عنوان حجم اشغال سه بعدی استفاده می‌کند. حجم خروجی سه بعدی به عناصر حجمی به نام وکسل تقسیم می‌شود و برای هر وکسل یک فضای اشغال شده یا آزاد، یعنی به ترتیب داخل یا بیرون جسم تعیین می‌شود. ورودی معمولاً به صورت یک تصویر تک رنگی ارائه می‌شود که شی را به تصویر می‌کشد، و CNN با استفاده از معماری رمزگشای کانولوشنال، حجم اشغال را پیش‌بینی می‌کند. این شبکه به صورت سرتاسری آموزش داده می‌شود و با حجم‌های اشغال حقیقت زمینه شناخته‌شده که از مجموعه داده‌های مدل CAD مصنوعی به‌دست می‌آید، نظارت می‌شود. با استفاده از این نمایش سه بعدی و CNN ها، می‌توان مدل‌هایی را یاد گرفت که می‌توانند در انواع کلاس‌های شی جای بگیرند.

پیش‌بینی سطح سلسله مراتبی

نقص اصلی در پیش‌بینی حجم اشغال با استفاده از CNN این است که فضای خروجی سه بعدی است و از این رو با توجه به افزایش وضوح، رشد مکعبی دارد. این مشکل از پیش‌بینی هندسه با کیفیت بالا در کارهای ذکر شده در بالا جلوگیری می‌کند و بنابراین به شبکه‌های وکسل با وضوح درشت محدود می‌شود.

در روش بازسازی دیجیتالی هندسه سه بعدی استدلال می‌شود که با توجه به اینکه سطوح در واقع فقط دو بعدی هستند، این یک محدودیت غیر ضروری است. در این تکنیک از ماهیت دو بعدی سطوح با پیش‌بینی سلسله مراتبی وکسل‌های رزولوشن خوب تنها در جایی که سطحی با قضاوت از پیش‌بینی وضوح پایین انتظار می‌رود، بهره‌برداری شده است. ایده اصلی ارتباط نزدیکی با نمایش‌های octree دارد که اغلب در استریو چند‌نمایی(multi-view stereo) و همجوشی نقشه عمق(depth map fusion) برای نمایش هندسه با وضوح بالا استفاده می‌شوند.

تکنیک پیشنهادی

در بازسازی دیجیتالی هندسه سه بعدی یک خط لوله پیش‌بینی سه‌بعدی اولیه یک تصویر رنگی را به عنوان ورودی می‌گیرد که ابتدا با استفاده از یک رمزگذار کانولوشنی به یک نمایش با ابعاد کم کدگذاری می‌شود. سپس این نمایش کم ابعاد به حجم اشغال سه بعدی رمزگشایی می‌شود. ایده اصلی روش، به نام پیش‌بینی سطح سلسله مراتبی (HSP)، شروع رمزگشایی با پیش‌بینی وکسل‌های با وضوح پایین است. با این حال، برخلاف رویکرد استاندارد که در آن هر وکسل به فضای آزاد یا اشغال شده طبقه‌بندی می‌شود، در این تکنیک از سه کلاس استفاده می‌شود: کلاس فضای آزاد، کلاس فضای اشغال شده و کلاس مرز. این تقسیم‌بندی امکان تجزیه و تحلیل خروجی‌ها را با وضوح پایین ممکن کرده و تنها وضوح بالاتری را در قسمت‌هایی از حجم پیش‌بینی می‌شود که شواهدی مبنی بر وجود سطح وجود دارد. با تکرار رویه پالایش، شبکه‌های وکسل با وضوح بالا به صورت سلسله مراتبی پیش‌بینی می‌گردد (شکل زیر را ببینید).

خروجی تولیدی بر اساس استفاده از روش جدید

آزمایش‌های انجام شده عمدتاً بر روی مجموعه داده مصنوعی ShapeNetانجام شده است. وظیفه اصلی پیش بینی هندسه با وضوح بالا از یک تصویر تک رنگ است. این روش با دو خط مبنا مقایسه می‌شود که آنها را سخت با وضوح پایین (LR hard) و نرم با وضوح کم (LR soft) می‌نامیم. این خطوط پایه با وضوح درشت یکسان 323 پیش‌بینی می‌کنند، اما در نحوه تولید داده‌های آموزشی متفاوت هستند. خط پایه سخت LR از تخصیص دودویی برای وکسل‌ها استفاده می‌کند. اگر حداقل یکی از وکسل‌های با وضوح بالا اشغال شده باشد، همه وکسل‌ها به عنوان اشغال شده برچسب‌گذاری می‌شوند. خط پایه نرم LR از تخصیص کسری استفاده می‌کند که درصد وکسل‌های اشغال شده را در وکسل‌های با وضوح بالا مربوطه منعکس می‌کند. روش ارائه شده HSP وضوح 2563 را پیش‌بینی می‌کند. نتایج به دست آمده در شکل‌های زیر مزایای را از نظر کیفیت سطح و کامل بودن پیش‌بینی و وضوح بالا در مقایسه با خطوط پایه با وضوح پایین نشان می‌دهد.

لوگو الکتروهایو

الکتروهایو در خدمت مخاطبان عزیز می‌باشد. ما در تیم الکتروهایو در تلاش برای تهیه مقالات و مطالب به روز هستیم. لطفا برای مطالب و مقالات بیشتر با ما همراه باشید.

مطالب مرتبط:

داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی و تفسیر آن در بسیاری از زمینه‌ها از جمله آمار، علوم کامپیوتر، روانشناسی و بازاریابی ضروری است. این مقاله ویژگی‌ها، کاربردها و تفاوت‌های داده‌های اسمی

ادامه مطلب »
حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. حاشیه‌نویسی‌ها برچسب‌هایی هستند که داده‌ها را شناسایی و طبقه‌بندی می‌کنند یا قطعات مختلف اطلاعات را با یکدیگر مرتبط می‌کنند. الگوریتم‌های هوش مصنوعی از آنها به

ادامه مطلب »
هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و متنوع بودند. برخی از آنها کاملاً عشایری بودند و مرتباً موقعیت خود را تغییر می‌دادند. برخی از آنها فواصل بسیار زیادی را مهاجرت کردند، در

ادامه مطلب »
با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده در اطراف اشیاء شناسایی شده، مکان یک شی را در یک تصویر شناسایی و مکان‌یابی می‌کند. اهمیت تشخیص اشیاء را نمی‌توان به اندازه کافی بیان

ادامه مطلب »
با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی - سایت الکتروهایو

با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی

یادگیری ماشین (Machine Learning) و علم داده (Data Science) موضوعاتی هستند که در تمامی بخش‌های فناوری اطلاعات در مورد آن بحث و گفتگو وجود دارد. امروزه همه چیز در حال خودکار شدن است، و برنامه‌های کاربردی نیز به سرعت در

ادامه مطلب »
داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی …

حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. …

هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و …

با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده …

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی - سایت الکتروهایو

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی

تصویربرداری چند طیفی تکنیکی است که نور را در طیف وسیعی از باندهای طیفی، فراتر …