الکتروهایو

هوش مصنوعی / الکترونیک / برنامه‌نویسی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

راهی سریع برای کنترل هوش مصنوعی به منظور عدم تولید جواب‌های نامناسب و سمی

راهی سریع برای کنترل هوش مصنوعی به منظور عدم تولید جواب‌های نامناسب و سمی- سایت الکتروهایو
در این مقاله می‌خوانید:

زمان تخمینی مطالعه: 7 دقیقه

محققان یک مدل یادگیری ماشینی کنجکاو برای کنترل هوش مصنوعی و به خصوص چت بات‌ها ایجاد کرده‌اند که طیف گسترده‌تری از اعلانات(Prompt) را برای آموزش یک ربات چت برای جلوگیری از خروجی‌های نفرت انگیز یا مضر پیدا می‌کند.

در حالت کلی یک کاربر می‌تواند از چت بات‌هایی مانند ChatGPT بخواهد یک برنامه کامپیوتری بنویسد یا یک مقاله را خلاصه کند، و چت ربات هوش مصنوعی احتمالاً می‌تواند بر اساس نیاز کاربر کدی مفیدی تولید کند یا از مقاله خلاصه‌ای مطمئن بنویسد. با این حال، کاربر دیگری هم می‌تواند دستورالعمل‌هایی را برای ساخت بمب درخواست کند و ربات چت نیز بر اساس ساختار پاسخگویی خود می‌تواند راهکار این کار را ارائه دهد. برای جلوگیری از این موضوع و سایر مسائل ایمنی، شرکت‌هایی که مدل‌های زبانی بزرگ می‌سازند معمولاً با استفاده از فرآیندی به نام تیم قرمز(red-teaming) از آنها محافظت می‌کنند. تیم‌های آزمایش‌کننده‌های انسانی اعلان‌هایی را می‌نویسند تا متن ناایمن یا سمی را از مدل آزمایش‌شده ایجاد کنند. از این دستورات برای کنترل هوش مصنوعی و آموزش ربات چت برای جلوگیری از چنین پاسخ‌هایی استفاده می‌شود. اما این تنها در صورتی موثر عمل می‌کند که مهندسان بدانند از کدام دستورات سمی و مضر استفاده کنند. اگر آزمایش‌کننده‌های انسانی برخی از اعلان‌ها را فراموش کرده و وارد نکنند، که احتمالاً با توجه به تعداد بالای احتمالات ممکن است این اتفاق رخ دهد، یک ربات چت که ایمن در نظر گرفته می‌شود ممکن است همچنان بتواند پاسخ‌های ناامن ایجاد کند.

محققان آزمایشگاه هوش مصنوعی Improbable در MIT و MIT-IBM Watson AI Lab از یادگیری ماشینی برای بهبود عملکرد تیم قرمز استفاده کردند. آنها تکنیکی را برای آموزش یک مدل زبانی بزرگ تیم قرمز توسعه دادند تا به طور خودکار پیا‌م‌های متنوعی را ایجاد کند که طیف وسیع‌تری از پاسخ‌های نامطلوب را برای ربات چت در حال آزمایش ایجاد می‌کند. آنها این کار را با آموزش مدل تیم قرمز انجام می‌دهند که هنگام نوشتن اعلان‌ها کنجکاو باشد و روی اعلان‌های جدیدی تمرکز کند که پاسخ‌های سمی را از مدل هدف برمی‌انگیزد. این تکنیک که روشی برای کنترل هوش مصنوعی با ایجاد پیام‌های متمایزتر که واکنش‌های سمی فزاینده‌ای را برانگیخت، بهتر از آزمایش‌کنندگان انسانی و سایر رویکردهای یادگیری ماشینی عمل کرد. روش آن‌ها نه تنها پوشش ورودی‌های آزمایش‌شده را در مقایسه با سایر روش‌های خودکار بهبود می‌بخشد، بلکه می‌تواند پاسخ‌های سمی و مضر را از یک ربات چت که محافظ‌هایی توسط متخصصان انسانی در آن تعبیه شده بود، استخراج کند.

به گفته ژانگ وی هونگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) در آزمایشگاه هوش مصنوعی غیرممکن و نویسنده اصلی مقاله در مورد رویکرد جدید در آموزش تیم قرمز “در حال حاضر، هر مدل زبان بزرگ باید دوره‌ای طولانی را با تیم قرمز بگذراند تا از ایمنی آن اطمینان حاصل شود. اگر بخواهیم این مدل‌ها را در محیط‌هایی که به سرعت در حال تغییر هستند به‌روزرسانی کنیم، این امر پایدار نخواهد بود. روش ما راهی سریعتر و موثرتر برای انجام این تضمین کیفیت ارائه می‌دهد”.

تیم قرمز خودکار

مدل‌های زبان بزرگ، مانند آن‌هایی که ربات‌های چت هوش مصنوعی را تقویت می‌کنند، اغلب با نشان دادن حجم عظیمی از متن از میلیاردها وب‌سایت عمومی به آن‌ها آموزش داده می‌شوند. بنابراین، نه تنها می‌توانند یاد بگیرند که کلمات سمی تولید کنند یا فعالیت‌های غیرقانونی را توصیف کنند، بلکه می‌توانند اطلاعات شخصی که ممکن است به دست آورده‌اند را نیز فاش کنند. ماهیت خسته کننده و پرهزینه تیم قرمز انسانی، که اغلب در ایجاد طیف گسترده‌ای از اعلانات برای محافظت کامل از یک مدل بی‌اثر است، محققان را تشویق کرده است تا فرآیند را با استفاده از یادگیری ماشینی خودکار کنند.

چنین تکنیک‌هایی برای کنترل هوش مصنوعی، اغلب یک مدل تیم قرمز را با استفاده از یادگیری تقویتی آموزش می‌دهند. این فرآیند آزمون و خطا به مدل تیم قرمز برای ایجاد اعلان‌هایی که واکنش‌های سمی را از ربات چت در حال آزمایش ایجاد می‌کنند، پاداش می‌دهد. اما با توجه به روشی که یادگیری تقویتی کار می‌کند، مدل تیم قرمز اغلب به تولید چند پیام مشابه که بسیار سمی و مضر هستند برای به حداکثر رساندن پاداش خود ادامه می‌دهد. برای رویکرد یادگیری تقویتی، محققان MIT از تکنیکی به نام کاوش مبتنی بر کنجکاوی استفاده کردند. مدل تیم قرمز برای کنجکاوی در مورد عواقب هر پیامی که ایجاد می‌کند انگیزه دارد، بنابراین درخواست‌هایی را با کلمات، الگوهای جملات یا معانی متفاوت امتحان می‌کند.

هونگ می‌گوید: “اگر مدل تیم قرمز قبلاً یک درخواست خاص را دیده است، پس تولید مجدد آن هیچ کنجکاوی در مدل تیم قرمز ایجاد نمی‌کند، بنابراین برای ایجاد اعلان‌های جدید تحت فشار قرار می‌گیرد”. در طول فرآیند آموزش، مدل تیم قرمز یک اعلان ایجاد می‌کند و با چت بات تعامل می‌کند. ربات چت پاسخ می‌دهد و طبقه‌بندی کننده ایمنی و سمیت پاسخ خود را ارزیابی می‌کند و به مدل تیم قرمز بر اساس آن رتبه پاداش می‌دهد.

کنجکاوی پاداش دهنده(Rewarding curiosity)

هدف مدل تیم قرمز این است که پاداش خود را با برانگیختن پاسخ سمی‌تر با یک دستور جدید به حداکثر برساند. محققان با تغییر سیگنال پاداش در تنظیم یادگیری تقویتی، کنجکاوی را در مدل تیم قرمز فعال می‌کنند.

  • اول، آنها علاوه بر به حداکثر رساندن سمیت و مضر بودن، یک جایزه آنتروپی را نیز شامل می‌شوند که مدل تیم قرمز را تشویق می‌کند تا با بررسی اعلان‌های مختلف، تصادفی‌تر باشد.
  • دوم، برای کنجکاو کردن عامل، آنها شامل دو جایزه جدید هستند. یکی به مدل بر اساس شباهت کلمات در اعلان‌های آن پاداش می‌دهد و دیگری به مدل بر اساس شباهت معنایی پاداش می‌دهد. (شباهت کمتر پاداش بالاتری را به همراه دارد.)

برای جلوگیری از تولید متن تصادفی و بی‌معنی در مدل تیم قرمز، که می‌تواند طبقه‌بندی‌کننده را فریب دهد تا امتیاز سمیت بالایی را کسب کند، محققان همچنین یک جایزه زبان طبیعی به هدف آموزشی اضافه کردند. با وجود این افزودنی‌ها، محققان سمیت و تنوع پاسخ‌هایی را که مدل تیم قرمز تولید شده با سایر تکنیک‌های خودکار مقایسه کردند. مدل آنها در هر دو معیار عملکرد بهتری از خطوط پایه داشت. آنها همچنین از مدل تیم قرمز خود برای آزمایش یک ربات چت استفاده کردند که با بازخوردهای انسانی به‌خوبی تنظیم شده بود تا پاسخ‌های سمی تولید نکند. رویکرد کنجکاوی محور آنها توانست به سرعت 196 درخواست ایجاد کند که پاسخ‌های سمی را از این چت بات “ایمن” برانگیخت.ما شاهد افزایش مدل‌های کنترل هوش مصنوعی هستیم که انتظار می‌رود هر روز نیز افزایش پیدا کند. این مدل‌ها بخشی جدایی ناپذیر از زندگی ما خواهند بود و مهم است که قبل از عرضه برای مصرف عمومی مورد تأیید قرار بگیرند.

در آینده، محققان می‌خواهند مدل تیم قرمز را فعال کنند تا در مورد موضوعات متنوع‌تری اعلان ایجاد کند. آنها همچنین می‌خواهند استفاده از یک مدل زبانی بزرگ را به عنوان طبقه‌بندی سمیت(toxicity classifier) امتحان کنند. به این ترتیب، کاربر می‌تواند طبقه‌بندی کننده سمیت را با استفاده از یک سند خط مشی شرکت آموزش دهد، بنابراین یک مدل تیم قرمز می‌تواند یک ربات چت را برای نقض خط مشی شرکت آزمایش کند. به گفته آگراوال از اعضاء تیم ” اگر در حال عرضه یک مدل هوش مصنوعی جدید هستید و نگران این هستید که آیا آن‌طور که انتظار می‌رود رفتار کند، از تیم قرمز مبتنی بر کنجکاوی استفاده کنید.”

لوگو الکتروهایو

الکتروهایو در خدمت مخاطبان عزیز می‌باشد. ما در تیم الکتروهایو در تلاش برای تهیه مقالات و مطالب به روز هستیم. لطفا برای مطالب و مقالات بیشتر با ما همراه باشید.

مطالب مرتبط:

داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی و تفسیر آن در بسیاری از زمینه‌ها از جمله آمار، علوم کامپیوتر، روانشناسی و بازاریابی ضروری است. این مقاله ویژگی‌ها، کاربردها و تفاوت‌های داده‌های اسمی

ادامه مطلب »
حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. حاشیه‌نویسی‌ها برچسب‌هایی هستند که داده‌ها را شناسایی و طبقه‌بندی می‌کنند یا قطعات مختلف اطلاعات را با یکدیگر مرتبط می‌کنند. الگوریتم‌های هوش مصنوعی از آنها به

ادامه مطلب »
هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و متنوع بودند. برخی از آنها کاملاً عشایری بودند و مرتباً موقعیت خود را تغییر می‌دادند. برخی از آنها فواصل بسیار زیادی را مهاجرت کردند، در

ادامه مطلب »
با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده در اطراف اشیاء شناسایی شده، مکان یک شی را در یک تصویر شناسایی و مکان‌یابی می‌کند. اهمیت تشخیص اشیاء را نمی‌توان به اندازه کافی بیان

ادامه مطلب »
با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی - سایت الکتروهایو

با سایت Kaggle آشنا شوید! دریچه‌ای رو به دنیای اجتماع متخصصان هوش مصنوعی

یادگیری ماشین (Machine Learning) و علم داده (Data Science) موضوعاتی هستند که در تمامی بخش‌های فناوری اطلاعات در مورد آن بحث و گفتگو وجود دارد. امروزه همه چیز در حال خودکار شدن است، و برنامه‌های کاربردی نیز به سرعت در

ادامه مطلب »
داده‌های اسمی Nominal Data - الکتروهایو

داده‌های اسمی Nominal Data چیست؟

داده‌های اسمی(Nominal Data) یکی از اساسی‌ترین انواع داده‌ها در تجزیه و تحلیل داده‌ها است. شناسایی …

حاشیه‌نویسی متن در هوش مصنوعی - سایت الکتروهایو

حاشیه‌نویسی متن در هوش مصنوعی

حاشیه‌نویسی داده به الگوریتم‌های یادگیری ماشین اجازه می‌دهد تا اطلاعات را درک و تفسیر کنند. …

هوش مصنوعی در باستان شناسی و کاربردهای آن - سایت الکتروهایو

هوش مصنوعی در باستان شناسی چه کاربردهای می‌تواند داشته باشد؟

مکان‌های باستان‌شناسی ممکن است ثابت باشند، اما فرهنگ‌هایی که آنها را تولید کرده‌اند، پویا و …

با الگوریتم تشخیص اشیاء FCOS آشنا شوید - سایت الکتروهایو

با الگوریتم تشخیص اشیاء FCOS آشنا شوید: تشخیص اشیاء تک مرحله‌ای کاملاً کانولوشنال

تشخیص اشیاء یک کار مهم در بینایی کامپیوتر است که با رسم کادرهای محدود کننده …

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی - سایت الکتروهایو

تصویربرداری چند طیفی، دیدی جدید فراسوی نور مرئی

تصویربرداری چند طیفی تکنیکی است که نور را در طیف وسیعی از باندهای طیفی، فراتر …