تحلیل جریان کلیک در ویکی‌پدیا: از هوش مصنوعی تا علم داده

۲۳۲ بازدید
آخرین به‌روزرسانی: ۲۷ اردیبهشت ۱۴۰۲
زمان مطالعه: ۸ دقیقه
دانلود PDF مقاله
تحلیل جریان کلیک در ویکی‌پدیا: از هوش مصنوعی تا علم داده

اصطلاح‌هایی مانند علم داده، یادگیری ماشین و هوش مصنوعی جایگاه رفیعی در میان کلیدواژه‌های محبوب اهالی فناوری یافته‌اند. تقریباً هر روزه خبرهایی در این حوزه‌ها می‌شنویم و می‌خوانیم. در واقع آن‌ها غالباً به جای هم استفاده می‌شوند در حالی که بسته به منبع‌های مختلف، ترجیح‌های متفاوتی دارند. ممکن است متوجه علاقه خاصی که برای مثال حوزه‌های بازاریابی و رسانه‌ها به اصطلاح هوش مصنوعی دارند شده باشید. در این مقاله تلاش کرده‌ایم این مفاهیم را در بستر جریان کلیک در دایره المعارف ویکی‌پدیا بررسی کنیم.

997696

تصویر فوق از وب‌سایت PWC یکی از نمودارهای بی‌شماری بر روی اینترنت است که تلاش می‌کنند رابطه بین این اصطلاح‌ها را توضیح دهند؛ اما چندان واضح نیست. آیا می‌توانیم از روش‌های تحلیل داده برای به دست آوردن معنی و چارچوب معناشناختی این اصطلاح‌ها استفاده کنیم؟ در این نوشته تلاش خواهیم کرد به این سؤال پاسخ دهیم و در واقع به کمک یک آتش، آتشی دیگر روشن کنیم. مجموعه داده‌های جریان کلیک ویکی‌پدیا کمک بزرگی در این زمینه ارائه می‌کند.

جریان کلیک در ویکی‌پدیا

بنیاد ویکی‌پدیا اخیراً تصمیم گرفته است تا در چند زبان عمده، جریان‌های کلیک ماهانه خود را به طور منبع باز عرضه کند. یک جریان کلیک معمول در زبان انگلیسی شامل میلیون‌ها url متمایز ویکی‌پدیا است که از سوی کاربران اینترنتی میلیاردها بار درخواست شده‌اند.

دسترسی به چنین منبع جامعی یک خبر خوب محسوب می‌شود. بدن ترتیب امکان اجرای انواع تحقیقات پیچیده در خصوص رفتار کاربران آنلاین بر روی یکی از بزرگ‌ترین وب‌سایت‌های دنیا میسر شده است. در واقع چند مقاله دانشگاهی انتشار یافته‌اند که به مطالعه مجموعه داده جریان کلیک از چشم‌اندازهای عملی مختلف به خصوص رفتاری پرداخته‌اند.

این یک رویکرد عملی با استفاده از تحلیل شبکه خواهد بود. نتایج چنین تحقیقاتی نه تنها به سؤال فوق پاسخ می‌دهند، بلکه برنامه‌ها و دامنه‌های دیگر را تشویق می‌کند تا از تحلیل جریان کلیک و شبکه در مقاصد خود استفاده کنند. تحقیق کلیدواژه، توسعه محتوا و بصری سازی ترافیک وب جزو نخستین کاربردهای چنین تحلیلی است و مسلماً موارد بسیار زیاد دیگری نیز وجود دارند.

مجموعه داده

ما در این تحلیل از جدیدترین مجموعه داده‌ای که در ماه مارس 2018 موجود بوده است استفاده کرده‌ایم. این مجموعه داده شامل 23.3 میلیون جفت url ارجاع و هدف در زبان انگلیسی بوده است که 6.2 میلیارد درخواست به سرور‌های ویکی ایجاده کرده‌اند. این مجموعه داده، بصری‌سازی رابطه بین اصطلاح‌های مختلف را بر مبنای روش حرکت کاربران از یک صفحه به صفحه دیگر ویکی‌پدیا ممکن ساخته است. این حرکت چه از طریق لینک و چه با استفاده از کارکرد جستجو صورت گرفته است که در مواردی نیز کاربر را در لانه خرگوش ویکی‌پدیا گرفتار کرده است. منظور از لانه خرگوش ویکی‌پدیا این است که کاربری برای مثال به دنبال جستجوی یک سریال تلویزیونی وارد یک صفحه ویکی‌پدیا می‌شود و سپس از طریق لینک‌های مرتبط به مطالعه صفحه‌های دیگر می‌پردازد و همین طور ادامه می‌دهد تا این که متوجه می‌شود زمان مدیدی را صرف مطالعه در ویکی‌پدیا پیدا نموده است.

گره‌ها، یال‌ها و همسایگی‌ها

مجموعه داده‌ها در عمل یک شبکه از گره‌ها (مقالات ویکی‌پدیا) هستند که بر مبنای توالی صفحه‌های مورد تقاضا در طی جلسه کاربر از طریق یال‌ها به گره‌های دیگر (مقالات مرتبط) وصل می‌شوند. اندازه یال‌ها را می‌توان به صورت ضریب وزنی نشان داد که ترافیک بین دو گره هستند. یکی از مزیت‌های کار با تحلیل شبکه آن است که خروجی‌ها را می‌توان به صورت گراف درآورد. این امر به ما امکان می‌دهد که نمایی کلی از معنای احتمالی همه آن کلیک‌ها و انتقال به صفحه‌ها داشته باشیم.

توجه: گراف‌هایی که ارائه شده‌اند طوری پیکربندی شده‌اند که نمایشی مناسب در دستگاه‌های همراه داشته باشند. با این حال در صفحه‌های بزرگ نیز به خوبی نمایش می‌یابند.

در ادامه گراف‌های جریان کلیک اصطلاح‌های زیر را بررسی خواهیم کرد:

  • داده‌کاوی و علم داده
  • یادگیری ماشین
  • هوش مصنوعی و هوش عمومی مصنوعی

آغاز کار با داده‌کاوی

برای شروع کار جهت توضیح روش تحلیل با «داده‌کاوی» آغازمی کنیم. این اصطلاحی است که در گذشته به میزان زیادی استفاده شده است.

این گراف اولیه بخش شبکه‌ای که شامل «داده‌کاوی» است را از گره‌های (مقالات) مجاور جدا می‌کند. یال بین دو گره در واقع ترافیک بین آن‌ها را نشان می‌دهد و رنگ و اندازه گره‌ها نیز نماینده تعداد همسایگی‌هایی است که به آن وصل شده‌اند. این نمودار تا حد زیادی مفید است. برای این که اصطلاح‌های مرتبط بهتر مشخص شوند در گام دوم این گره‌ها در دسته‌های مرتبط گروه‌بندی می‌شوند تا روابط گسترده‌تر را واضح‌تر ببینیم.

عیب این روش آن است که ممکن است گراف، مملو از متن و رنگ شود. به علاوه در برخی موارد گنجاندن تعدادی گروه‌ها در یک برچسب قابل مدیریت کار دشواری است. در مورد هوش عمومی مصنوعی، گره‌ها به قدر کافی همگون نیستند تا دسته‌بندی معنی‌داری ایجاد بکنیم. در هر دو مورد گره‌ها عامدانه در گروه‌ها قرار نگرفته‌اند. همچنین توجه داشته باشید که برای واضح‌تر کردن گراف، برخی از گره‌ها پدیدار نیستند که علت آن یا ترافیک پایین است و یا به دلیل تعداد بالای همسایگی‌ها.

علم داده

یکی از مسائلی که باید به آن توجه داشت این است که مدخل ویکی‌پدیا برای علم داده تقریباً محدود است. این مدخل کمترین تعداد لینک‌ها را در میان دیگر اصطلاحاتی که در این مقاله بررسی شده‌اند داشته است. با این وجود محتوای آن در حال رشد است. از نوامبر سال 2017 زمانی که نخستین مجموعه داده منتشر شده است، لینک‌های این صفحه تقریباً دو برابر شده‌اند.

  • پس از مشاهده گراف می‌توان گفت که علم داده در ویکی‌پدیا به طور عمده حول یادگیری ماشین و تا حد کمتر در خصوص آمار است و اشاراتی به علم رایانه نیز در آن آمده است. زمانی که به طول یال‌ها نگاه می‌کنیم این مسئله مشخص‌تر می‌شود.
  • احتمالاً اکثر خوانندگان با این موضوع موافق باشند که علم داده وسیع‌تر از این است. با تکمیل شدن این مقاله به مرور احتمالاً شاهد افزودن شواهد بیشتری به آن خواهیم بود.
  • سؤالی که در این زمینه بسیار پرسیده می‌شود این است که آیا یادگیری ماشین را باید جزئی اساسی از علم داده در نظر گرفت یا نه و پاسخی که از تحلیل جریان کلیک ویکی‌پدیا به دست می‌آید این است که بله، آن را باید چنین در نظر گرفت.
  • واقعیت جالب در مورد علم داده این است که یکی از صفحه‌هایی که با آن مرتبط است در واقع مقاله Buzzword (اصطلاح مد روز) است. ولی درجه رأس آن تا حدی نبوده است که در این گراف قرار بگیرد.

مقایسه علم داده – داده‌کاوی

مقاله مربوط به داده‌کاوی بسیار جامع‌تر است چون تاریخچه آن طولانی‌تر است. با این حال همچنان مشابهت زیادی بین نوع اصطلاحات مرتبط با هر دو وجود دارد. اغلب اصطلاح‌ها در گراف علم داده آن‌هایی هستند که نشان می‌دهند علم داده نسخه بازسازی شده‌ای از داده‌کاوی است که در دهه‌های 1990 و 2000 استفاده می‌شد. با این وجود در حال حاضر علم داده فاقد ارتباط‌های قوی با کسب‌وکارهای مرتبط با اصطلاحاتی مانند هوش تجاری، آنالیتیکس و شاید اصطلاحاتی مانند OLAP است؛ در حالی که داده‌کاوی ذاتاً چنین ارتباط‌هایی دارد. اما این ارتباط‌ها و همچنین رابطه‌های دیگر ممکن است با تکمیل‌تر شدن مقاله علم داده ظهور یابند. برای این که با شباهت‌ها و تفاوت‌های این مفاهیم بهتر آشنا شوید، پیشنهاد می‌کنیم این مقاله فرادرس را مطالعه نمایید.

یادگیری ماشین

یادگیری ماشین در میان همه واژه‌های دیگر سرراست‌ترین مورد به نظر می‌رسد. این اصطلاح تا حد زیادی با واژه‌هایی مرتبط است که به روش‌های علمی کشف یا پیش‌بینی دانش اشاره می‌کنند و به صورت روش‌های یادگیری ماشین یا یادگیری آماری برچسب خورده‌اند.

  • گره‌های زیادی از دو نوع زیر مشاهده می‌شود. یکی روش‌های کلاسیک مانند طبقه‌بندی آماری و رگرسیون لجستیک و دیگر انواع مدرن‌تر مانند ماشین‌های بردار پشتیبان، جنگل‌های تصادفی و شبکه‌های عصبی مصنوعی.
  • مدخل یادگیری ماشین در ویکی‌پدیا اساساً با روش‌ها، مدل‌ها و تکنیک‌های مختلف مرتبط است. بسیاری (و البته نه همه) آن‌ها با هدف پیش‌بینی یک خروجی بر حسب یک مجموعه از مشاهدات طراحی شده‌اند. در واقع فهرست گره‌های مرتبط با یادگیری ماشین را می‌توان به راحتی به فهرست مطالب یک کتاب در مورد یادگیری ماشین تبدیل کرد.
  • وجود چند نوع یادگیری مختلف مانند یادگیری عمیق (ِDeep Learning) و یادگیری تقویتی (reinforcement learning) نیز قابل توجه است. منظور از یادگیری تقویتی چیزی به جز یادگیری نظارت‌شده و نظارت‌نشده نیست. یافته‌ها نشان می‌دهند که یادگیری ماشین خود ممکن است به صورت چتری تکامل یابد که تعداد زیادی از خانواده‌های یادگیری را پوشش دهد.
  • آیا یادگیری ماشین «نیازمند» آمار است؟ همانطور که ویکی‌پدیا قبلاً پاسخ داده است، بله چنین است. یادگیری آماری یا خود کلمه آمار در بسیاری از متدهای مرتبط با یادگیری ماشین حضور دارند.

هوش مصنوعی

این اصطلاح با اختلاف زیادی یکی از وسیع‌ترین و متنوع‌ترین واژه‌ها محسوب می‌شود؛ اما یکی از دشوارترین انواع برای تبدیل به گراف نیز هست. هوش مصنوعی خود با بیش از 40 گره مرتبط است و آستانه بالایی برای چند همسایگی تعیین شده است تا گراف شبیه یک گلوله عظیم از مو به نظر نرسد. با این حال تنوع بالای گره‌ها همچنان باعث شده است که ارائه یک دسته‌بندی معنادار کار دشواری باشد.

  • بسیاری از گره‌ها ماهیتی بسیار عمومی دارند: نام‌های علمی (روانشناسی یا فلسفه) یا زمینه‌های علمی (منطق، نظریه بازی و ...) که شاهدی بر چند حوزه‌ای بودن هوش مصنوعی هستند.
  • اغلب گره‌های مرتبط اساساً ارجاع‌هایی به برخی جنبه‌های خاص از هوش مصنوعی مانند کاربردهای هوش مصنوعی، واژه‌نامه هوش مصنوعی، تایملاین و تاریخچه و ... هستند.
  • به طور مشابه در اینجا برای نخستین بار می‌بینیم که یک شرکت به نام Deep Mind حضور دارد که می‌تواند در نتیجه نقشی باشد که این سازمان در به‌کارگیری هوش مصنوعی در کاربردهای دنیای واقعی داشته است.
  • در نهایت دو گره در مورد آلن تورینگ وجود دارند که یکی از آن‌ها صفحه شخصی وی و دیگری آزمون تورینگ است. جالب است که چطور آزمون تورینگ که به سال 1950 مربوط است در طی زمان استوار مانده است و همچنان با چارچوب امروزین هوش مصنوعی مرتبط است.

هوش عمومی مصنوعی

برای این که با ماهیت زمان حاضر همگام باشیم، آخرین گراف شبکه جریان کلیک را به هوش عمومی مصنوعی اختصاص داده‌ایم.

گره‌های این گراف به قدر کافی همگون نیستند تا بتوان چند کلاستر معنی‌دار با آن ساخت. با این حال گره‌ها نام‌هایی مانند «بارگذاری ذهن» (mind uploading) و «انفجار اطلاعات» (intelligence explosion) دارند و بدین ترتیب می‌توانیم دو طرح کلی را که ویرایشگران و کاربران به آن‌ها علاقه‌مند بوده‌اند را مشاهده کنیم. نخستین کلاستر «AI for evil» (جنبه‌های شرورانه هوش مصنوعی) شامل صفحه‌هایی مانند موارد زیر است:

  • ریسک وجودی هوش عمومی مصنوعی
  • سلطه هوش مصنوعی
  • ریسک فاجعه جهانی

و کلاستر «AI for good» (جنبه‌های خوب هوش مصنوعی) نیز شامل موارد زیر است:

  • هوش مصنوعی دوستانه
  • فلسفه هوش مصنوعی
  • اخلاقیات هوش مصنوعی

این کلاسترها خودشان نمی‌توانند هوش عمومی مصنوعی را تعریف کنند؛ اما نشانگرهایی از محتوای رایج در ارتباط با آن هستند.

رواج گسترده شبکه عصبی مصنوعی

ما در این مقاله 5 اصطلاح را بررسی کردیم و شبکه عصبی مصنوعی (ANN) تنها اصطلاحی است که در هر 5 مورد حضور دارد و غالب است. قبول این واقعیت که این همزمانی تصادفی بوده است دشوار است. شبکه‌های هوش مصنوعی با پیشرفت‌های محاسباتی مدرن ترکیب شده‌اند و ارتباط بالایی با پیشرفت اخیر در زمینه هوش مصنوعی دارند. در واقع این شبکه‌ها به خروج هوش مصنوعی از یک خواب زمستانی پس از مدت‌های مدید کمک کرده‌اند.

در حال حاضر مدل‌های موجود یادگیری عمیق مبتنی بر شبکه‌های هوش مصنوعی هستند. تنسورفلو (Tensorflow) که مشهورترین پروژه متن- باز شرکت Deep Mind است، یکی از رایج‌ترین کتابخانه‌ها بر حسب کاربردهای شبکه‌های هوش مصنوعی بر مبنای تعامل‌های گیت‌هاب و ترافیک استک‌اورفلو محسوب می‌شود. با در نظر گرفتن همه این ملاحظات به نظر می‌رسد که شبکه‌های هوش مصنوعی خود را ثابت کرده‌اند و در آینده از آن‌ها بیشتر خواهیم شنید.

کد

کد مورد استفاده برای تولید گراف‌ها با استفاده از زبان R نوشته شده و در این ریپو گیت‌هاب موجود است. برخی پارامترها و گزینه‌های فیلتر، مانند تعداد فیلترهای یال‌ها، ترتیب و درجه نیز در دسترسی هستند.

سخن پایانی

این مقاله با انگیزه ترکیب چند مطلب که اخیراً منتشر شده‌اند نگارش یافته است:

  • مطلب بلاگ میخائیل پاپف در مورد ایجاد نمودار بی‌طرفی شبکه
  • همایش مایک کونی (Mick Cooney) با گروه علم داده دابلین در مورد موضوعات تمرینی برای تحلیل شبکه
  • نوشته بلاگ دیوید رابینسون (David Robinson) و مقاله وین وکتور (WinVector’) برای بررسی تفاوت بین هوش مصنوعی، یادگیری ماشین و علم داده از منظر عملی.

همچنین در این نوشته از کتابخانه‌های اوپن‌سورس مانند ggplot و ggraph استفاده شده است که هنگام کار با بصری سازی داده‌های شبکه مفید خواهند بود.

با مطالعه مقاله حاضر ممکن است برخی ایرادها به ذهنتان رسیده باشد؛ اما توجه داشته باشید که هدف این مقاله آن نبوده که این اصطلاح‌ها را تعریف کند؛ بلکه خواسته‌ایم تا از منظر ویرایشگرها و رفتار کاربران ویکی‌پدیا نگاهی به این مفاهیم داشته باشیم. از این چشم‌انداز این مطلب شبیه یک پازل جورچین است.

البته سوگیری‌هایی در این مقالات وجود دارد که حاصل سوگیری‌های نویسنده‌های آن‌ها هستند. البته این مسئله مشکلی ایجاد نمی‌کند چون به لطف مدل ویرایشگری و فرایند کنترل ویکی می‌توانیم بر روی منطق جمعی برای سوگیری‌های فردی یا دیدگاه‌های افراطی/ گمراه‌کننده حساب کنیم. تنها به عنوان مثال، مقاله ویکی‌پدیا برای هوش مصنوعی چند هزار ویرایشگر و ناظر دارد.

برای نتیجه‌گیری باید گفت که اجرای تحلیل شبکه به وسیله جریان‌های کلیک ویکی‌پدیا این مزیت مهم را دارد که می‌تواند بینش مشارکت‌کنندگان و همچنین کاربران بزرگ‌ترین دایره المعارف دنیا را چه ازنظر نحوه نگارش و چه نحوه کلیک کردن برای ما روشن سازد.

اگر این نوشته مورد توجه شما قرار گرفته است، پیشنهاد می‌کنیم، موارد زیر را نیز ملاحظه نمایید:

==

بر اساس رای ۱ نفر
آیا این مطلب برای شما مفید بود؟
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.
منابع:
towardsdatascience
نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *