زمان تخمینی مطالعه: 4 دقیقه

با پیشرفت در پردازش زبان طبیعی و تولید زبان طبیعی، مدل‌های زبان بزرگ (LLM) اغلب در برنامه‌های کاربردی دنیای واقعی استفاده می‌شوند. این مدل‌ها با توانایی خود در تقلید از رفتار انسان، با ماهیت همه منظوره خود در هر زمینه و حوزه‌ای قدم گذاشته‌اند. اگرچه این مدل‌ها توجه قابل توجهی را به خود جلب کرده‌اند، اما این مدل‌ها مجموعه‌ای محدود و جدا از دیدگاه‌ها و دانش انسانی را نشان می‌دهند. ترکیب داده‌های پیش‌آموزشی دلیل این سوگیری است زیرا تأثیر زیادی بر رفتار مدل دارد. در این مقاله به ظهور چارچوب و مجموعه داده AboutMe در الکتروهایو خواهیم پرداخت.

محققان تلاش کرده‌اند تا قبل از پیش‌آموزش، تمرکز بیشتری بر درک و مستندسازی تغییرات ایجاد شده در داده‌ها داشته باشند. تنظیم داده‌های پیش‌آموزشی یک فرآیند چند مرحله‌ای با چندین نقطه تصمیم است که اغلب بر اساس قضاوت‌های ذهنی کیفیت متن یا عملکرد در برابر معیارها است. در یک مطالعه اخیر، تیمی از محققان موسسه آلن برای هوش مصنوعی، دانشگاه کالیفرنیا، برکلی، دانشگاه اموری، دانشگاه کارنگی ملون و دانشگاه واشنگتن، چارچوب و مجموعه داده AboutMe را معرفی کردند. این مطالعه مفروضات بی‌چون و چرای متعددی را که در گردش‌های کاری داده‌ها وجود دارد، برجسته می‌کند. با فریم ورک AboutMe، تیم تلاش کرده است اثرات فیلتر کردن داده‌ها را بر روی متنی که ریشه در زمینه‌های اجتماعی و جغرافیایی دارد، مستند کند.

فقدان داده‌های اجتماعی جمعیت‌شناختی گسترده و خودگزارش‌شده مرتبط با داده‌های زبان یکی از مشکلاتی است که تحلیل‌های زبانی اجتماعی در پردازش زبان طبیعی با آن مواجه است. متن را می‌توان در منابع عمومی مانند ویکی پدیا ردیابی کرد، اما در سطح دقیق تر، اغلب ناشناخته است که چه کسی اطلاعات را ایجاد کرده است. تیم در این مطالعه با استفاده از الگوهای از قبل موجود در داده‌های وب، وب سایت‌ها، به ویژه صفحات «درباره من» را پیدا کرده است. این امر اجازه می‌دهد تا درک بی‌سابقه‌ای از زبان افرادی که در متن وب نشان داده می‌شود، داشته باشید. این تیم با استفاده از داده‌های بخش «درباره من» وب‌سایت‌ها، تجزیه و تحلیل‌های زبان‌شناختی اجتماعی را برای اندازه‌گیری علایق موضوعی، تعیین موقعیت افراد یا سازمان‌ها، نقش‌های اجتماعی خود شناسایی‌شده و مکان‌های جغرافیایی مرتبط نویسندگان وب‌سایت انجام داده‌اند. ده فیلتر با کیفیت و شناسه انگلیسی حاصل از تحقیقات قبلی در مورد توسعه LLM در این صفحات وب برای بررسی تأثیر فیلتر کردن بر روی صفحات نگهداری شده یا حذف شده استفاده شده است.

هدف اصلی این تیم تحقیقاتی یافتن روندهایی در رفتار مرتبط با مبدا وب سایت هم در داخل و هم بین فیلترها بود. نتایج نشان داده‌اند که ترجیحات ضمنی برای حوزه‌های موضوعی خاص توسط فیلترهای کیفیت مبتنی بر مدل نمایش داده می‌شوند، که باعث می‌شود متن مربوط به حرفه‌ها و حرفه‌های مختلف با نرخ‌های مختلف حذف شود. علاوه بر این، تکنیک‌های فیلتری که صفحات را تک زبانه فرض می‌کنند ممکن است ناخواسته محتوا را از بخش‌های غیرانگلیسی جهان حذف کنند. در نتیجه، این تحقیق پیچیدگی‌های موجود در فیلتر کردن داده‌ها در طول توسعه LLM و پیامدهای آن برای به تصویر کشیدن دیدگاه‌های متنوع در مدل‌های زبانی را برجسته کرده است.

هدف اصلی این مطالعه افزایش آگاهی در مورد جزئیات پیچیده‌ای است که در فرآیندهای پیش آموزشی داده‌ها، به ویژه در مورد عوامل اجتماعی در نظر گرفته می‌شود. این تیم بر نیاز به تحقیقات بیشتر در مورد روش‌های پیش‌آموزشی داده‌ها و پیامدهای اجتماعی آن تاکید کرده‌اند. چارچوب و مجموعه داده AboutMe ابزاری جدید است و نیاز به اثبات خود در آینده دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *