چگونه ۹۰ درصد مسائل پردازش زبان طبیعی (NLP) را حل کنیم؟ – راهنمای گام به گام

۸۶۴

۱۴۰۴/۰۷/۱۶

۱۳ دقیقه

PDF

آموزش متنی جامع

امکان دانلود نسخه PDF

پردازش زبان طبیعی یکی از حوزه‌های مهم هوش مصنوعی، یادگیری ماشین و به طور کلی پردازش سیگنال محسوب می شود. ما قبلاً نیز در بلاگ فرادرس به برخی مبانی NLP پرداخته‌ایم و اینک در این مطلب رویکردهای پیشرفته این حوزه را بررسی می‌کنیم.

فهرست مطالب این نوشته

داده‌های متنی همه جا هستند

اهداف این مقاله

گام 1: گردآوری داده‌ها

مجموعه داده «فجایع در شبکه‌های اجتماعی»

برچسب‌ها

گام 2: پاک‌سازی داده‌ها

گام 3: یافتن بازنمایی مناسب برای داده‌ها

کدگذاری One-hot (کیسه کلمات)

بصری‌سازی جاسازی‌ها

گام 4: دسته‌بندی

گام 5: بازرسی

ماتریس درهم‌ریختگی (Confusion Matrix)

توضیح و تفسیر مدل

گام 6: محاسبه ساختار لغت‌نامه

گام 7: بهره‌گیری از معناشناسی

استفاده از واژه‌های از پیش آموزش یافته

بازنمایی در سطح جمله

تعادل پیچیدگی/توصیف‌پذیری

LIME

گام 8: بهره‌گیری از ساختار نحوی با استفاده از رویکردهای سربه‌سر

نکته‌های نهایی

داده‌های متنی همه جا هستند

چه در یک شرکت قدیمی مشغول به کار بوده و یا در حال آغاز یک سرویس جدید باشید، در هر صورت با حجم بالایی از متون مواجه هستید که برای اعتبارسنجی، بهبود بخشیدن و گسترش کارکردهای محصول خود باید آن‌ها را مدیریت کنید. علم استخراج معنا و یادگیری از داده‌های متنی حوزه فعالی از تحقیقات است که پردازش زبان طبیعی (NLP) نام دارد. تحقیقات NLP هر روزه نتایج جدید و هیجان‌انگیزی با خود به همراه دارند و در واقع یک حوزه پژوهشی بزرگ محسوب می‌شود. با این حال برخی کاربردهای خاص هستند که در زمینه NLP بیشتر به چشم می‌خورند:

فیلم آشنایی با شغل کارشناس تحلیل داده ها – وظایف، فرصت ها و بازار کار (رایگان) در فرادرس

کلیک کنید

شناسایی گروه‌های مختلف کاربران/مشتریان (برای مثال پیش‌بینی از دست دادن مشتری، ارزش طول عمر مشتری، ترجیح‌های محصول)
تشخیص دقیق و استخراج دسته‌بندی‌های مختلف بازخورد (نظرات مثبت و منفی، اشاره به جنبه‌ خاصی از محصول مانند اندازه لباس و ...)
دسته‌بندی متن‌ها بر اساس منظور (برای مثال درخواست کمک مقدماتی، مشکل ضروری)

با این که مقاله‌ها و آموزش‌های NLP زیادی به صورت آنلاین وجود دارند؛ اما یافتن راهنمایی و نکاتی در مورد چگونگی برخورد با مسائلی که باید از صفر شروع به حل آن‌ها کرد کار دشواری است.

اهداف این مقاله

این مقاله از سوی تیمی از محققان (Insight Data Science) پس از هدایت صدها پروژه و مشاوره با تیم‌های بزرگ در سراسر ایالات‌متحده به منظور توضیح چگونگی ساخت راه‌حل‌های یادگیری ماشین برای حل مسائلی مانند آنچه در بخش قبل اشاره کردیم، به نگارش در آمده است. ما در ابتدا با ساده‌ترین متد ممکن کار خود را آغاز می‌کنیم و سپس راه‌حل‌های پیچیده‌تر مانند مهندسی ویژگی، بردارهای کلمه و یادگیری عمیق را معرفی می‌کنیم. پس از مطالعه این مقاله شما باید موارد زیر را فراگرفته باشید:

گردآوری، آماده‌سازی و بازبینی داده‌ها
ساخت مدل‌های ساده برای شروع و در صورت نیاز، گذار به یادگیری عمیق
تفسیر و درک مدل‌ها جهت اطمینان یافتن از این که در عمل اطلاعات را گردآوری کرده‌اید و نه نویز.

فیلم آموزش آشنایی با پایتون برای پردازش زبان های طبیعی (NLP) (رایگان) در فرادرس

کلیک کنید

این راهنما به صورت یک آموزش گام به گام به نگارش در آمده است و می‌توانید به عنوان یک مرور پیشرفته رویکردهای استاندارد و با کارایی بالا به آن نگاه کنید. همه کدهای این راهنما در این آدرس در دسترس هستند و می‌توانید به صورت تعاملی از آن استفاده کنید.

گام 1: گردآوری داده‌ها

منابع داده‌ای نمونه: هر مسئله یادگیری ماشین با داده‌هایی از قبیل فهرستی از ایمیل‌ها، مطالب یا توییت‌ها آغاز می‌شود. منابع متداول برای اطلاعات متنی شامل موارد زیر هستند:

بررسی محصول‌ها (در آمازون، Yelp و App store های مختلف)
محتوای تولید شده از سوی کاربر (توییت‌ها، مطالب فیس‌بوک، سؤالات استک‌اورفلو)
عیب‌یابی (درخواست‌های مشتری، تیکت‌های پشتیبانی، لاگ‌های چت‌ها)

فیلم آموزش Inference API در Hugging Face + اجرای مدل‌ بدون نیاز به آموزش (رایگان) در فرادرس

کلیک کنید

مجموعه داده «فجایع در شبکه‌های اجتماعی»

در این مطلب از یک مجموعه داده استفاده شده است که از سوی Figure Eight ارائه شده و «فجایع در شبکه‌های اجتماعی» نام دارد. در این مجموعه داده مشارکت‌کنندگان بیش از 10000 توییت را در جستجوی کلماتی مانند «آتش‌سوزی» (ablaze)، «قرنطینه» (quarantine) و «آشوب» (pandemonium) بررسی کرده‌اند و سپس تشخیص داده‌اند که آیا توییت به یک رویداد فاجعه‌بار اشاره دارد یا نه (مثلاً ممکن است توییت یک شوخی یا بررسی یک فیلم یا چیزی بوده باشد که به فاجعه‌ای مربوط نبوده است).

فیلم آموزش ساخت سیستم پرسش و پاسخ با Hugging Face + پروژه عملی (رایگان) در فرادرس

کلیک کنید

وظیفه ما این است که تشخیص دهیم کدام توییت‌ها در مورد رویداد یک فاجعه هستند و کدام یک به موضوعات نامرتبطی مانند فیلم ارتباط دارند. یکی از کاربردهای بالقوه این رویکرد آن است که مأموران اداره‌های مربوطه می‌توانند به سرعت متوجه وضعیت‌های اضطراری شوند و برای مثال مواردی که ناشی از فیلم جدید یک کمدین مشهور است را نادیده بگیرند. یکی از چالش‌های خاص این کار آن است که هر دو دسته توییت‌ها حاوی کلیدواژه‌های جستجوی یکسانی هستند و از این رو باید تفاوت‌های ظریف بین آن‌ها را برای ایجاد تمایز بین دو موضوع مختلف شناسایی کنیم. در ادامه این نوشته توییت‌هایی که در مورد فجایع زیست‌محیطی هستند به صورت «فاجعه» و همه آن‌هایی را که ربطی به رویداد یک فاجعه ندارند به صورت «نامرتبط» مورد اشاره قرار داده‌ایم.

برچسب‌ها

ما داده‌ها را برچسب‌گذاری کرده‌ایم و از این رو می‌دانیم که کدام توییت‌ها به کدام دسته تعلق دارند. همان طور که ریچارد سوچر در ادامه اشاره کرده است، یافتن و برچسب‌گذاری داده‌های کافی برای آموزش دادن یک مدل بسیار سریع‌تر، ساده‌تر و ارزان‌تر از تلاش برای بهینه‌سازی یک متد نظارت‌نشده پیچیده است.

گام 2: پاک‌سازی داده‌ها

مهم‌ترین قاعده در زمینه پاک‌سازی داده‌ها این است که «مدل شما در نهایت به اندازه مناسب بودن داده‌هایی که در اختیار دارید، بهینه‌سازی خواهد شد». یکی از مهارت‌های کلیدی یک دانشمند داده، دانستن این نکته است که آیا در گام بعدی باید بر روی مدل‌سازی داده‌ها کار کند یا نه. قاعده سرانگشتی مناسب این است که ابتدا به داده‌ها نگاه کرده و سپس آن‌ها را پاک‌سازی کنیم. یک مجموعه داده پاک‌سازی‌شده امکان یادگیری ویژگی‌های معنی‌داری را به مدل می‌دهد و از بیش‌برازش روی نویز نامرتبط جلوگیری می‌کند. در ادامه یک چک‌لیست برای استفاده در زمان پاک‌سازی داده‌ها ارائه شده است.

فیلم آموزش پاکسازی داده ها در پایتون برای یادگیری ماشین + گواهینامه در فرادرس

کلیک کنید

حذف همه کاراکترهای نامرتبط مانند کاراکترهای حرفی/عددی
توکن‌دار کردن متن با استفاده از جداسازی واژه‌های منفرد
حذف واژه‌هایی که مرتبط نیستند، مانند @ در منشن‌های توییتر یا url ها.
تبدیل همه کاراکترها به حالت حروف کوچک انگلیسی جهت آموزش دادن یکسان واژه‌های «hello»، «Hello» و «HELLO».
بررسی ترکیب واژه‌های با غلط املایی یا نوع نوشتاری متفاوت در یک حالت منحصر به‌ فرد (برای مثال: «cool»، «Kool» و «cooool»).
بررسی خلاصه‌سازی متن (lemmatization) (کاهش کلمه‌هایی مانند «am»، «are» و «is» به یک شکل مانند «be»).

پس از پیمودن گام‌های زیر و بررسی خطاهای دیگر می‌توانیم از داده‌های پاک‌سازی و برچسب‌گذاری شده برای آموزش دادن مدل‌های خود استفاده کنیم.

گام 3: یافتن بازنمایی مناسب برای داده‌ها

مدل‌های یادگیری ماشین مقادیر عددی را به عنوان ورودی می‌گیرند، برای مثال مدل‌هایی که بر روی عکس‌ها کار می‌کنند یک ماتریس را که نشان‌دهنده شدت روشنایی هر پیکسل در هر کانال رنگی است به عنوان ورودی دریافت می‌کنند.

یک چهره در حال لبخند که به صورت ماتریسی از اعداد نمایش یافته است.

مجموعه داده‌های ما فهرستی از جملات است و از این رو برای استخراج الگو از داده‌ها باید ابتدا روشی برای بازنمایی داده‌ها بیابیم تا الگوریتم بتواند داده‌ها را درک کند مثلاً به صورت فهرستی از اعداد باشد. اگر به بحث بازشناسی چهره علاقه‌مند باشید می‌توانید از این مطلب بلاگ فرادرس نیز در این خصوص بهره بگیرید.

فیلم آموزش پلتفرم Hugging Face + کاربردهای هاگینگ فیس در پردازش زبان طبیعی (رایگان) در فرادرس

کلیک کنید

کدگذاری One-hot (کیسه کلمات)

یک روش طبیعی برای نمایش متن برای رایانه‌ها این است که هر کاراکتر را به صورت منفرد به صورت یک عدد (برای مثال ASCII) کدگذاری کنیم. اگر بخواهیم این بازنمایی ساده را به عنوان ورودی به یک دسته‌بند (Classifier) بدهیم، این الگوریتم می‌بایست ساختار کلمه‌ها را از ابتدا و صرفاً از روی داده‌های ما بیاموزد که برای اکثر مجموعه داده‌ها، کاری غیر ممکن است. از این رو می‌بایست از رویکردی در سطح بالاتر استفاده کنیم.

برای مثال می‌توانیم یک لغت‌نامه از همه واژه‌های منحصر به فرد در مجموعه داده خود بسازیم و اندیس یکتایی به هر کلمه در لغت‌نامه بدهیم. در این صورت هر جمله به صورت فهرستی از تعدادی واژه‌های منحصر به فرد در لغت‌نامه این مطلب تبدیل می‌شود. در هر اندیس این فهرست مشخص شده است که هر یک از لغات مفروض چند بار در جمله ظاهر شده است. این کار مدل کیسه کلمات نامیده می‌شود، چون بازنمایی آن به طور کامل ترتیب کلمات را در جمله نادیده می‌گیرد. نمودار این مدل به صورت زیر است:

بازنمایی کلمه‌ها به صورت کیسه کلمات. جمله‌های سمت چپ به صورت سمت راست بازنمایی شده‌اند. هر اندیس در بردارها نشان‌دهنده یک کلمه خاص است.

بصری‌سازی جاسازی‌ها

ما در حدود 20،000 کلمه در لغت‌نامه خود «فجایع در رسانه‌های اجتماعی» داریم یعنی هر جمله به صورت برداری به طول 20،000 نمایش می‌یابد. این بردار در اغلب موارد شامل صفرهای زیادی است، زیرا جمله‌ها تنها یک زیرمجموعه بسیار کوچکی از لغت‌نامه ما را شامل می‌شوند.

برای این که ببینیم این جاسازی‌ها، اطلاعاتی که با مسئله ما مرتبط است را دریافت می‌کنند یا نه (یعنی توییت‌ها که در مورد فاجعه هستند یا نه) بهتر است که آن‌ها را بصری‌سازی کنیم و ببینیم که آیادسته‌های مختلف به درستی از هم تفکیک شده‌اند یا نه. از آنجا که لغت‌نامه‌ها معمولاً بسیار بزرگ هستند و بصری‌سازی داده‌ها در ابعاد 20،000 ناممکن است، از تکنیک‌هایی مانند «تحلیل مؤلفه‌های اساسی» (Principal Component Analysis | PCA) برای انعکاس داده‌ها به دو بُعد استفاده می‌کنیم. نمودار آن به صورت زیر است:

به نظر می‌رسد که این دو دسته به خوبی از هم تمایز نیافته‌اند که می‌تواند یکی از خصوصیات جاسازی ما و یا صرفاً نتیجه کاهش ابعادی باشد که اعمال کرده‌ایم. برای این که ببینیم ویژگی‌های کیسه کلمات کاربردی داشته یا نه می‌توانیم دسته‌بند خود را بر اساس آن‌ها آموزش بدهیم.

گام 4: دسته‌بندی

زمانی که برای نخستین بار با مسئله‌ای مواجه می‌شویم، بهترین روش آن است که از یک رویه عمومی مناسب برای شروع استفاده کنیم. این رویه ساده‌ترین ابزاری است که می‌تواند یک مسئله را حل کند. هر زمان که بحث دسته‌بندی داده‌ها پیش می‌آید، یکی از متداول‌ترین روش‌ها به دلیل تنوع‌پذیری و قابلیت توصیفی، «رگرسیون لجستیک» (Logistic Regression) محسوب می‌شود. این روش بسیار ساده برای آموزش دادن داده‌ها است و نتایج آن قابل تفسیر هستند، زیرا به سادگی می‌توانید مهم‌ترین ضرایب را از مدل استخراج کنید.

ما داده‌های خود را به یک دسته آموزشی برای برازش مدل و یک دسته تست برای این که ببینیم در مورد داده‌های مشاهده نشده تا چه حد خوب تعمیم یافته است، افراز کرده‌ایم. پس از آموزش دادن با دقتی برابر با 75.4 درصد مواجه می‌شویم که چندان هم بد نیست. متداول‌ترین دسته («نامرتبط») تنها 57% نتایج را به دست می‌دهد. با این وجود دقت 75% برای نیازهای ما مناسب است. ما هرگز نمی‌توانیم مدلی را بدون داشتن درک عمیقی از آن بسازیم.

گام 5: بازرسی

یکی از مهمترین ابزارهایی که برای بازرسی کیفیت خطاهای مدل وجود دارد ماتریس درهم‌ریختگی است.

ماتریس درهم‌ریختگی (Confusion Matrix)

گام نخست این است که انواع خطاهایی که مدل ما ایجاد می‌کند را درک کنیم و بدانیم که کدام نوع خطا مطلوبیت کمتری دارد. در مثال ما موارد «مثبت نادرست» که یک توییت نامرتبط را به عنوان یک فاجعه دسته‌بندی می‌کنند و موارد «منفی نادرست» که یک فاجعه را به عنوان یک توییت نامرتبط دسته‌بندی می‌کنند، جزو خطاهای با کمترین مطلوبیت هستند. اگر اولویت ما واکنش به همه رویدادهای بالقوه باشد، احتمالاً می‌خواهیم که موارد منفی نادرست خود را به کمترین مقدار برسانیم. با این حال اگر با کمبود منابع مواجه باشیم ممکن است اولویت ما این باشد که با کاهش موارد مثبت نادرست از هشدارهای بیهوده‌ای که ایجاد می‌شوند، جلوگیری کنیم.

فیلم آموزش یادگیری ماشین و پیاده سازی در پایتون Python – بخش یکم + گواهینامه در فرادرس

کلیک کنید

یک روش خوب برای بصری‌سازی این اطلاعات استفاده از ماتریس درهم‌ریختگی است که پیش‌بینی‌های مدل ما را با برچسب‌گذاری‌های صحیح مقایسه می‌کند. به طور مطلوب این ماتریس یک خط قطری از سمت بالا-چپ تا پایین-راست خواهد بود یعنی پیش‌بینی‌های ما با به طور کامل با واقعیت منطبق بوده‌اند.

دسته‌بند ما تعداد منفی‌های نادرست بیشتری نسبت به موارد مثبت نادرست تولید کرده است. به بیان دیگر رایج‌ترین خطاهای مدل ما بدین صورت بوده است که توییت‌های بیشتری در مورد فاجعه وجود داشته‌اند که به صورت نامرتبط دسته‌بندی شده‌اند. اگر موارد مثبت نادرست نیازمند هزینه بالایی در رویه‌های اجرایی باشند، این سوگیری برای دسته‌بند ما یک مزیت محسوب می‌شود.

توضیح و تفسیر مدل

برای اعتبارسنجی و تفسیر پیش‌بینی‌های مدل لازم است که نگاه کنیم از کدام کلمات برای تصمیم‌گیری استفاده می‌کند. اگر داده‌ها ما دارای سوگیری باشند، دسته‌بند پیش‌بینی‌های دقیقی در داده‌های نمونه ارائه می‌کند؛ اما مدل نمی‌تواند در دنیای واقعی به خوبی تعمیم پیدا کند. در ادامه مهم‌ترین کلمات را برای هر دو دسته فاجعه و نامرتبط ترسیم کرده‌ایم. ترسیم اهمیت واژه‌ها با استفاده از کیسه کلمات و رگرسیون لجستیک کار آسانی است، زیرا می‌توانیم ضرایبی را که مدل برای پیش‌بینی خود استفاده می‌کند به سادگی استخراج کرده و رتبه‌بندی کنیم.

دسته‌بند ما از برخی الگوها (hiroshima, massacre) استفاده می‌کند؛ اما بدیهی است که روی برخی اصطلاح‌های بی‌معنی ‌دارای «بیش-برازش» (overfitting) (heyoo, x1392) است. در این مرحله، مدل کیسه کلمات با لغت‌نامه‌ای بسیار حجیم از واژه‌های مختلف سروکار دارد و همه واژه‌ها را به طور یکسان آموزش می‌دهد. با این حال برخی از این واژه‌ها بسیار نادر هستند و تنها نقششان در پیش‌بینی‌های ما تولید نویز است. در ادامه سعی خواهیم کرد جمله‌هایی را که مسئول فراوانی کلمات هستند بررسی کنیم، تا ببینیم آیا می‌توانیم سیگنال بیشتری از داده‌های خود به دست آوریم یا نه.

گام 6: محاسبه ساختار لغت‌نامه

برای این که کمک کنیم تا مدلمان بیشتر بر روی واژه‌های معنی‌دار متمرکز شود، می‌توانیم از امتیاز TF-IDF (فراوانی واژه، فراوانی سند معکوس) بر روی مدل کیسه کلمات استفاده کنیم. TF-IDF به کلمات بر اساس نرخی که در مجموعه داده حضور دارند وزن می‌دهد و وزن واژه‌هایی که فراوانی زیادی دارند و تنها بر نویز می‌افزایند را کاهش می‌دهد. در ادامه نمایش PCA جاسازی جدیدمان را می‌بینید.

در تصویر فوق می‌بینیم که تمایز خوبی بین دو رنگ وجود دارد. این وضعیت کار جداسازی دو گروه را برای دسته‌بند آسان‌تر می‌کند. در ادامه بررسی می‌کنیم که آیا این وضعیت منجر به عملکرد بهتری خواهد شد یا نه. با آموزش دادن رگرسیون لجستیک دیگر بر روی جاسازی‌های جدید، به دقت 76.2 درصد می‌رسیم. می‌بینیم که بهبود بسیار اندکی حاصل شده است. آیا مدل ما شروع به گزینش واژه‌های مهم‌تر کرده است؟ اگر هنگام جلوگیری از تقلب مدل، نتایج بهتری به دست آورده‌ایم در این صوت می‌توانیم این مدل را یک ارتقای واقعی بدانیم.

واژه‌هایی که مدل جدید انتخاب کرده است، بسیار مهم‌تر به نظر می‌رسند. با این که معیارهای ما در مورد مجموعه تست جدید تنها اندکی افزایش یافته‌اند؛ اما اینک اعتماد بیشتری به مدل خود داریم و از این رو در صورت توزیع آن برای کاربرد مشتریان اعتماد به‌ نفس بیشتری خواهیم داشت.

گام 7: بهره‌گیری از معناشناسی

آخرین مدل ما می‌تواند واژه‌های با سیگنال بالا را انتخاب کند. با این وجود، این احتمال وجود دارد که در صورت کاربرد عملی مدل با واژه‌هایی مواجه شویم که تا پیش از آن در مجموعه آموزشی خود ندیده‌ایم. مدل قبلی توانایی دسته‌بندی دقیق این توییت‌ها را نداشت، اگرچه در طی مرحله آموزش واژه‌های کاملاً مشابهی را مشاهده کردیم.

برای حل این مشکل باید مفهوم معناشناختی واژه‌ها را به دست آوریم، یعنی باید درک کنیم که واژه‌های «خوب» و «مثبت» نزدیک‌تر از «زردآلو» و «قاره» هستند. ابزاری که برای کمک به درک معنی واژه‌ها مورد استفاده قرار خواهیم داد، Word2Vec نام دارد.

استفاده از واژه‌های از پیش آموزش یافته

Word2Vec تکنیکی برای یافتن جاسازی‌های پیوسته برای کلمات است. این ابزار از خواندن حجم عظیمی از متن و به خاطر سپاری این که کدام واژه در کدام زمینه‌ها بیشتر به چشم می‌خورد بهره می‌گیرد. پس از این که این ابزار بر روی داده‌های کافی آموزش داده شد، می‌تواند یک بردار 300-بُعدی برای هر واژه در یک لغت‌نامه تهیه کند که در آن واژه‌های دارای معانی مشابه به هم نزدیک‌تر خواهند بود.

مؤلفان این مقاله مدلی را که بر روی حجم بالایی از واژه‌ها آموزش یافته است را به صورت متن باز (Open Source) عرضه کرده‌اند و ما می‌توانیم از آن برای کسب برخی دانش از مفاهیم معناشناختی برای مدل خود بهره بگیریم. بردارهای از پیش آموزش یافته را در این ریپازیتری می‌توانید بیابید.

بازنمایی در سطح جمله

یک روش سریع برای جاسازی یک جمله در دسته‌بند این است که امتیازهای میانگین Word2Vec همه واژه‌ها را در جمله محاسبه کنیم. این همان رویکرد کیسه کلمات است که قبلاً استفاده کردیم؛ اما این بار تنها ساختار نحوی جمله را از دست می‌دهیم و برخی از اطلاعات معناشناختی آن را حفظ می‌کنیم.

در این جا بصری‌سازی جاسازی‌های جدیدمان را با استفاده از تکنیک‌های قبلی می‌بینیم:

دو گروه از رنگ‌ها در تصویر فوق متمایزتر از تکنیک‌های قبلی دیده می‌شوند و جاسازی جدید ما می‌تواند به دسته‌بند در جهت ایجاد تمییز بین دو دسته کمک کند. پس از آموزش داده همین مدل برای بار سوم (یک رگرسیون لجستیک) با دقتی برابر با 77.7 درصد مواجه می‌شویم که تا اینجا بهترین نتیجه ما بوده و اینک نوبت به بررسی مدل رسیده است.

تعادل پیچیدگی/توصیف‌پذیری

از آنجا که جاسازی‌های ما به صورت یک بردار تک‌بُعدی برای هر واژه مانند مدل‌های قبلی نمایش نمی‌یابد، مشاهده این که کدام واژه به دسته‌بندی ما ارتباط بیشتری دارد کار دشواری است. با این که ما همچنان به ضرایب رگرسیون لجستیک خود دسترسی داریم؛ اما آن‌ها به 300 بُعد جاسازی‌های ما ارتباط دارند و نه اندیس واژه‌ها.

برای چنین ارتقای اندکی در میزان دقت، آن حجم از توصیف‌پذیری که از دست رفته است به نظر نامنصفانه می‌آید. با این حال در مدل‌های پیچیده‌تر می‌توانیم از توصیفگرهای جعبه سیاه (black box explainers) مانند LIME بهره بگیریم تا بینش‌هایی در مورد چگونگی کارکرد مدل خود کسب کنیم.

LIME

توصیفگر LIME بر روی گیت‌هاب به صورت یک بسته اوپن‌سورس موجود است. یک توصیفگر جعبه سیاه، تصمیم‌های هر دسته‌بند را روی یک نمونه خاص از طریق آشفته سازی ورودی (در مورد ما حذف کلمه‌ها از جملات) توصیف کرده و شیوه تغییر یافتن پیش‌بینی‌ها را بررسی می‌کند. در ادامه برخی توصیف‌ها را برای جملات مجموعه داده‌های خودمان می‌بینیم.

واژه‌های فاجعه صحیح که برای دسته‌ «مرتبط» انتخاب شده‌اند.

در این تصویر مشارکت واژه‌هایی را در دسته‌بندی می‌بینیم که کمتر بدیهی به نظر می‌رسند.

با این حال ما زمان کافی برای کاوش هزاران مثال در مجموعه داده‌های خود را نداریم. در عوض آنچه که باید انجام دهیم این است که LIME را روی نمونه گویایی از موارد تست اجرا کنیم و ببینیم که کدام واژه‌ها به صورت مشارکت‌کننده قوی ظاهر شده‌اند. با استفاده از این رویکرد می‌توانیم امتیاز اهمیت واژه‌ها را مانند مدل‌های قبلی به دست آوریم و پیش‌بینی‌های مدلمان را اعتبارسنجی کنیم.

به نظر می‌رسد که این مدل واژه‌های با ارتباط بالا را انتخاب می‌کند که بدین معنی است که تصمیم‌های قابل‌درکی می‌گیرد. این وضعیت به این ترتیب است که مرتبط‌ترین واژه‌ها از همه مدل‌های قبلی استخراج می‌شود و از این رو در عمل توزیع واقعی قابل‌اعتمادتری ایجاد می‌کند.

گام 8: بهره‌گیری از ساختار نحوی با استفاده از رویکردهای سربه‌سر

ما از رویکردهای سریع و کارآمد برای تولید جاسازی‌های جمله‌های فشرده استفاده می‌کنیم. با این حال با حذف ترتیب واژه‌ها، همه اطلاعات معناشناختی جمله‌ها از میان می‌رود. اگر این متدها نتایج کافی ارائه نکنند، می‌توانید از مدل‌های پیچیده‌تری استفاده کنید که کل یک جمله را به عنوان ورودی می‌گیرند و برچسب‌ها را بدون نیاز به ساخت یک بازنمایی واسط ایجاد می‌کنند. یک روش معمول برای انجام این کار آن است که با هر جمله به صورت یک توالی از بردارهای واژگانی منفرد (a sequence of individual word vectors) با استفاده از Word2Vec یا رویکردهای جدیدتر مانند GloVe یا CoVe برخورد کنیم. این وضعیت در ادامه مشخص شده است.

شبکه‌های عصبی پیچشی (Convolutional) برای دسته‌بندی جمله بسیار سریع آموزش می‌یابند و به عنوان معماری یادگیری عمیق مقدماتی به خوبی عمل می‌کند. با این که شبکه‌های عصبی پیچشی (CNN) به طور عمده به دلیل عملکردشان بر روی داده‌های تصویر مشهور هستند، اما معمولاً از اغلب رویکردهای NLP پیچیده‌تر (مانند معماری‌های LSTM و Encoder/Decoder)، آموزش سریع‌تری دارند. این مدل ترتیب کلمات را حفظ می‌کند و اطلاعات ارزشمندی در مورد این که کدام توالی‌های واژه‌ها دسته‌های موردنظر ما را بهتر پیش‌بینی می‌کند به دست می‌دهد. برخلاف مدل‌های قبلی این مدل می‌تواند بگوید که تفاوت بین «الکس گیاهان را می‌خورد» و «گیاهان الکس را می‌خورند» چیست.

آموزش دادن این مدل به کار بیشتری نسبت به رویکردهای قبلی نیاز دارد و مدلی به دست می‌دهد که بسیار بهتر از مدل‌های قبلی عمل می‌کند و دقتی برابر با 79.5% دارد. همانند مدل‌های قبلی، گام بعدی باید این باشد که پیش‌بینی‌ها را با استفاده از متدهایی اعتبارسنجی کنیم تا مطمئن شویم که بهترین مدل را در اختیار کاربران قرار می‌دهیم.

نکته‌های نهایی

در این بخش برخی نکات مهم رویکردی که در این راهنما مورد استفاده قرار دادیم را جمع‌بندی کرده‌ایم:

کار خود را یک مدل ساده و سریع آغاز کنید
پیش‌بینی‌های آن را توضیح دهید
نوع خطاهایی که ایجاد می‌شود را درک کنید
از این دانش برای آگاهی بخشی گام بعدی استفاده کنید، چه بخواهید بر روی داده‌های خود کار کنید و یا مدل پیچیده‌تری را مورد استفاده قرار دهید.

این رویکردها در مورد یک نمونه خاص با استفاده از مدل‌هایی که برای درک متون کوتاهی مانند توییت استفاده می‌شوند توسعه یافته‌اند؛ اما ایده کار در مورد مسائل مختلفی قابل استفاده است.

اگر به این نوشته علاقه‌مند بودید، پیشنهاد می‌کنیم موارد زیر را نیز ملاحظه نمایید:

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۲ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

insightdatascience

میثم لطفی (+)

«میثم لطفی» در رشته‌های ریاضیات کاربردی و مهندسی کامپیوتر به تحصیل پرداخته و شیفته فناوری است. وی در حال حاضر علاوه بر پیگیری علاقه‌مندی‌هایش در رشته‌های برنامه‌نویسی، کپی‌رایتینگ و محتوای چندرسانه‌ای، در زمینه نگارش مقالاتی با محوریت نرم‌افزار با مجله فرادرس همکاری دارد.

مطالب مرتبط