زمان تخمینی مطالعه: 8 دقیقه

ترانسفورماتورهای از پیش آموزش‌دیده مولد، که معمولاً به عنوان GPT شناخته می‌شوند، خانواده‌ای از مدل‌های شبکه عصبی هستند که از معماری ترانسفورماتور استفاده می‌کنند و یک پیشرفت کلیدی در هوش مصنوعی (AI) است که موتور محرک برنامه‌های هوش مصنوعی مولد مانند ChatGPT است. مدل‌های GPT به برنامه‌ها توانایی ایجاد متن و محتوا شبیه یک انسان واقعی(تصاویر، موسیقی و موارد دیگر) و پاسخگویی به سؤالات را به صورت مکالمه می‌دهند. سازمان‌ها در سراسر صنایع از این مدل‌ها و هوش مصنوعی مولد برای ربات‌های پرسش و پاسخ، خلاصه‌سازی متن، تولید محتوا و جستجو استفاده می‌کنند.

چرا GPT مهم است؟

مدل‌های GPT، و به‌ویژه، معماری ترانسفورماتوری که استفاده می‌کنند، نشان‌دهنده یک پیشرفت قابل توجه در تحقیقات هوش مصنوعی است. ظهور مدل‌های GPT نقطه عطفی در پذیرش گسترده ML است زیرا این فناوری می‌تواند در حال حاضر برای خودکارسازی و بهبود مجموعه گسترده‌ای از وظایف از ترجمه زبان و خلاصه‌سازی اسناد گرفته تا نوشتن پست‌های وبلاگ، ساخت وب‌سایت، طراحی تصاویر بصری، ساختن انیمیشن، نوشتن کد، تحقیق در موضوعات پیچیده و حتی سرودن شعر استفاده شود. ارزش این مدل‌ها در سرعت و مقیاسی است که می‌توانند در آن کار کنند. برای مثال، در جایی که ممکن است برای تحقیق، نوشتن و ویرایش مقاله‌ای در مورد فیزیک هسته‌ای به چندین ساعت نیاز داشته باشید، یک مدل GPT می‌تواند در عرض چند ثانیه یک مقاله تولید کند. مدل‌های GPT باعث تحقیقات در زمینه هوش مصنوعی به سمت دستیابی به هوش عمومی مصنوعی شده است، به این معنی که ماشین‌ها می‌توانند به سازمان‌ها کمک کنند تا به سطوح جدیدی از بهره‌وری دست یابند و برنامه‌های کاربردی و تجربیات مشتری خود را دوباره اختراع کنند.

موارد استفاده از GPT چیست؟

مدل‌های GPT مدل‌های زبانی همه منظوره هستند که می‌توانند طیف وسیعی از وظایف را از ایجاد محتوای اصلی گرفته تا نوشتن کد، خلاصه‌سازی متن و استخراج داده‌ها از اسناد انجام دهند. در اینجا چند راه برای استفاده از مدل‌های GPT وجود دارد:

GPT چگونه کار می‌کند؟

اگرچه توصیف مدل‌های GPT به عنوان هوش مصنوعی (AI) دقیق است، اما این یک توصیف گسترده است. به طور خاص، مدل‌های GPT، مدل‌های پیش‌بینی زبان مبتنی بر شبکه عصبی هستند که بر اساس معماری ترانسفورماتور ساخته شده‌اند. آنها پرس و جوهای زبان طبیعی را که به عنوان اعلان شناخته می‌شوند، تجزیه و تحلیل می‌کنند و بر اساس درک خود از زبان، بهترین پاسخ ممکن را پیش‌بینی می‌کنند.

برای انجام این کار، مدل‌های GPT به دانشی که پس از آموزش با صدها میلیارد پارامتر در مجموعه داده‌های زبانی عظیم به دست می‌آورند، تکیه می‌کنند. آنها می‌توانند زمینه ورودی را در نظر بگیرند و به طور پویا به بخش‌های مختلف ورودی توجه کنند، که آنها را قادر به ایجاد پاسخ‌های طولانی در یک دنباله می‌کند. برای مثال، زمانی که از یک مدل GPT خواسته می‌شود محتوای الهام‌گرفته از شکسپیر تولید کند، این کار را با به خاطر سپردن و بازسازی عبارات جدید و کل جملات با سبک ادبی مشابه انجام می‌دهد.

انواع مختلفی از شبکه‌های عصبی مانند شبکه عصبی تکراری و کانولوشنال وجود دارد. مدل‌های GPT شبکه‌های عصبی ترانسفورماتور هستند. معماری شبکه عصبی ترانسفورماتور از مکانیسم‌های توجه به خود(self-attention) برای تمرکز بر بخش‌های مختلف متن ورودی در طول هر مرحله پردازش استفاده می‌کند. یک مدل ترانسفورماتور زمینه بیشتری را ثبت می‌کند و عملکرد را در وظایف پردازش زبان طبیعی (NLP) بهبود می‌بخشد. این مدل‌ها دارای دو ماژول اصلی است که در ادامه توضیح می‌دهیم.

– رمزگذار

ترانسفورماتورها ورودی‌های متن را به‌عنوان جاسازی‌ها، که نمایش‌های ریاضی یک کلمه هستند، پیش پردازش می‌کنند. هنگامی که در فضای برداری کدگذاری می‌شوند، انتظار می‌رود کلماتی که به هم نزدیکتر هستند از نظر معنی نزدیکتر باشند. این جاسازی‌ها از طریق یک مؤلفه رمزگذار پردازش می‌شوند که اطلاعات متنی را از یک دنباله ورودی می‌گیرد. هنگامی که ورودی دریافت می‌شود، بلوک رمزگذار شبکه ترانسفورماتور کلمات را به قسمت‌های درج شده جدا می‌کند و به هر کدام وزن اختصاص می‌دهد. وزن‌ها پارامترهایی برای نشان دادن ارتباط کلمات در یک جمله هستند. علاوه بر این، رمزگذارهای موقعیت(position encoders) به مدل‌های GPT اجازه می‌دهند از معانی مبهم در هنگام استفاده از یک کلمه در قسمت‌های دیگر جمله جلوگیری کنند. به عنوان مثال، رمزگذاری موقعیت به مدل ترانسفورماتور اجازه می‌دهد تا تفاوت‌های معنایی بین این جملات را متمایز کند. بنابراین، رمزگذار جمله ورودی را پردازش می‌کند و یک نمایش برداری با طول ثابت ایجاد می‌کند که به عنوان درج شناخته می‌شود. این نمایش توسط ماژول رمزگشا استفاده می‌شود.

– رمزگشا

رمزگشا از نمایش‌برداری برای پیش‌بینی خروجی درخواستی استفاده می‌کند. رمزگشا دارای مکانیسم‌های خودتوجهی داخلی برای تمرکز بر بخش‌های مختلف ورودی و حدس‌زدن خروجی منطبق است. همچنین تکنیک‌های پیچیده ریاضی به رمزگشا کمک می‌کند تا چندین خروجی مختلف را تخمین بزند و دقیق‌ترین آنها را پیش‌بینی کند. ترانسفورماتورها در مقایسه با پیشینیان خود، مانند شبکه‌های عصبی مکرر(recurrent)، موازی‌پذیری بیشتری دارند، زیرا آنها کلمات را به صورت متوالی پردازش نمی‌کنند، اما در عوض، کل ورودی را به یکباره در طول چرخه یادگیری پردازش می‌کنند. با توجه به این موضوع و هزاران ساعتی که مهندسان صرف تنظیم دقیق و آموزش مدل‌های GPT کرده‌اند، می‌توانند تقریباً به هر ورودی که شما ارائه می‌دهید، پاسخ‌های روان بدهند.

GPT-3 چگونه آموزش داده شد؟

در یک مقاله تحقیقاتی منتشر شده، محققان پیش‌آموزشی مولد را به عنوان توانایی آموزش مدل‌های زبانی با داده‌های بدون برچسب و دستیابی به پیش‌بینی دقیق توصیف کردند. اولین مدل GPT با عنوان GPT-1، در سال 2018 توسعه یافت همچنین مدل GPT-4 در مارس 2023 به عنوان جانشین GPT-3 معرفی شد.

GPT-3 با بیش از 175 میلیارد پارامتر یا وزن آموزش داده شد. مهندسان آن را روی بیش از 45 ترابایت داده از منابعی مانند متون وب، Common Crawl، کتاب‌ها و ویکی‌پدیا آموزش دادند. قبل از آموزش، کیفیت متوسط مجموعه داده‌ها با بلوغ مدل از نسخه 1 به نسخه 3 بهبود یافت. GPT-3 در حالت نیمه نظارتی(semi-supervised) آموزش دید. ابتدا مهندسان یادگیری ماشین مدل یادگیری عمیق را با داده‌های آموزشی بدون برچسب تغذیه کردند. GPT-3 جملات را درک کرده، آنها را تجزیه می‌کند و آنها را به جملات جدید بازسازی شده تبدیل می‌کند. در آموزش بدون نظارت، GPT-3 تلاش کرد تا نتایج دقیق و واقعی را به تنهایی تولید کند. سپس، مهندسان یادگیری ماشین نتایج را در آموزش نظارت شده تنظیم می‌کنند، فرآیندی که به عنوان یادگیری تقویتی با بازخورد انسانی (RLHF) شناخته می‌شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *