تحلیل جریان کلیک در ویکیپدیا: از هوش مصنوعی تا علم داده
اصطلاحهایی مانند علم داده، یادگیری ماشین و هوش مصنوعی جایگاه رفیعی در میان کلیدواژههای محبوب اهالی فناوری یافتهاند. تقریباً هر روزه خبرهایی در این حوزهها میشنویم و میخوانیم. در واقع آنها غالباً به جای هم استفاده میشوند در حالی که بسته به منبعهای مختلف، ترجیحهای متفاوتی دارند. ممکن است متوجه علاقه خاصی که برای مثال حوزههای بازاریابی و رسانهها به اصطلاح هوش مصنوعی دارند شده باشید. در این مقاله تلاش کردهایم این مفاهیم را در بستر جریان کلیک در دایره المعارف ویکیپدیا بررسی کنیم.
تصویر فوق از وبسایت PWC یکی از نمودارهای بیشماری بر روی اینترنت است که تلاش میکنند رابطه بین این اصطلاحها را توضیح دهند؛ اما چندان واضح نیست. آیا میتوانیم از روشهای تحلیل داده برای به دست آوردن معنی و چارچوب معناشناختی این اصطلاحها استفاده کنیم؟ در این نوشته تلاش خواهیم کرد به این سؤال پاسخ دهیم و در واقع به کمک یک آتش، آتشی دیگر روشن کنیم. مجموعه دادههای جریان کلیک ویکیپدیا کمک بزرگی در این زمینه ارائه میکند.
جریان کلیک در ویکیپدیا
بنیاد ویکیپدیا اخیراً تصمیم گرفته است تا در چند زبان عمده، جریانهای کلیک ماهانه خود را به طور منبع باز عرضه کند. یک جریان کلیک معمول در زبان انگلیسی شامل میلیونها url متمایز ویکیپدیا است که از سوی کاربران اینترنتی میلیاردها بار درخواست شدهاند.
دسترسی به چنین منبع جامعی یک خبر خوب محسوب میشود. بدن ترتیب امکان اجرای انواع تحقیقات پیچیده در خصوص رفتار کاربران آنلاین بر روی یکی از بزرگترین وبسایتهای دنیا میسر شده است. در واقع چند مقاله دانشگاهی انتشار یافتهاند که به مطالعه مجموعه داده جریان کلیک از چشماندازهای عملی مختلف به خصوص رفتاری پرداختهاند.
این یک رویکرد عملی با استفاده از تحلیل شبکه خواهد بود. نتایج چنین تحقیقاتی نه تنها به سؤال فوق پاسخ میدهند، بلکه برنامهها و دامنههای دیگر را تشویق میکند تا از تحلیل جریان کلیک و شبکه در مقاصد خود استفاده کنند. تحقیق کلیدواژه، توسعه محتوا و بصری سازی ترافیک وب جزو نخستین کاربردهای چنین تحلیلی است و مسلماً موارد بسیار زیاد دیگری نیز وجود دارند.
مجموعه داده
ما در این تحلیل از جدیدترین مجموعه دادهای که در ماه مارس 2018 موجود بوده است استفاده کردهایم. این مجموعه داده شامل 23.3 میلیون جفت url ارجاع و هدف در زبان انگلیسی بوده است که 6.2 میلیارد درخواست به سرورهای ویکی ایجاده کردهاند. این مجموعه داده، بصریسازی رابطه بین اصطلاحهای مختلف را بر مبنای روش حرکت کاربران از یک صفحه به صفحه دیگر ویکیپدیا ممکن ساخته است. این حرکت چه از طریق لینک و چه با استفاده از کارکرد جستجو صورت گرفته است که در مواردی نیز کاربر را در لانه خرگوش ویکیپدیا گرفتار کرده است. منظور از لانه خرگوش ویکیپدیا این است که کاربری برای مثال به دنبال جستجوی یک سریال تلویزیونی وارد یک صفحه ویکیپدیا میشود و سپس از طریق لینکهای مرتبط به مطالعه صفحههای دیگر میپردازد و همین طور ادامه میدهد تا این که متوجه میشود زمان مدیدی را صرف مطالعه در ویکیپدیا پیدا نموده است.
گرهها، یالها و همسایگیها
مجموعه دادهها در عمل یک شبکه از گرهها (مقالات ویکیپدیا) هستند که بر مبنای توالی صفحههای مورد تقاضا در طی جلسه کاربر از طریق یالها به گرههای دیگر (مقالات مرتبط) وصل میشوند. اندازه یالها را میتوان به صورت ضریب وزنی نشان داد که ترافیک بین دو گره هستند. یکی از مزیتهای کار با تحلیل شبکه آن است که خروجیها را میتوان به صورت گراف درآورد. این امر به ما امکان میدهد که نمایی کلی از معنای احتمالی همه آن کلیکها و انتقال به صفحهها داشته باشیم.
توجه: گرافهایی که ارائه شدهاند طوری پیکربندی شدهاند که نمایشی مناسب در دستگاههای همراه داشته باشند. با این حال در صفحههای بزرگ نیز به خوبی نمایش مییابند.
در ادامه گرافهای جریان کلیک اصطلاحهای زیر را بررسی خواهیم کرد:
- دادهکاوی و علم داده
- یادگیری ماشین
- هوش مصنوعی و هوش عمومی مصنوعی
آغاز کار با دادهکاوی
برای شروع کار جهت توضیح روش تحلیل با «دادهکاوی» آغازمی کنیم. این اصطلاحی است که در گذشته به میزان زیادی استفاده شده است.
این گراف اولیه بخش شبکهای که شامل «دادهکاوی» است را از گرههای (مقالات) مجاور جدا میکند. یال بین دو گره در واقع ترافیک بین آنها را نشان میدهد و رنگ و اندازه گرهها نیز نماینده تعداد همسایگیهایی است که به آن وصل شدهاند. این نمودار تا حد زیادی مفید است. برای این که اصطلاحهای مرتبط بهتر مشخص شوند در گام دوم این گرهها در دستههای مرتبط گروهبندی میشوند تا روابط گستردهتر را واضحتر ببینیم.
عیب این روش آن است که ممکن است گراف، مملو از متن و رنگ شود. به علاوه در برخی موارد گنجاندن تعدادی گروهها در یک برچسب قابل مدیریت کار دشواری است. در مورد هوش عمومی مصنوعی، گرهها به قدر کافی همگون نیستند تا دستهبندی معنیداری ایجاد بکنیم. در هر دو مورد گرهها عامدانه در گروهها قرار نگرفتهاند. همچنین توجه داشته باشید که برای واضحتر کردن گراف، برخی از گرهها پدیدار نیستند که علت آن یا ترافیک پایین است و یا به دلیل تعداد بالای همسایگیها.
علم داده
یکی از مسائلی که باید به آن توجه داشت این است که مدخل ویکیپدیا برای علم داده تقریباً محدود است. این مدخل کمترین تعداد لینکها را در میان دیگر اصطلاحاتی که در این مقاله بررسی شدهاند داشته است. با این وجود محتوای آن در حال رشد است. از نوامبر سال 2017 زمانی که نخستین مجموعه داده منتشر شده است، لینکهای این صفحه تقریباً دو برابر شدهاند.
- پس از مشاهده گراف میتوان گفت که علم داده در ویکیپدیا به طور عمده حول یادگیری ماشین و تا حد کمتر در خصوص آمار است و اشاراتی به علم رایانه نیز در آن آمده است. زمانی که به طول یالها نگاه میکنیم این مسئله مشخصتر میشود.
- احتمالاً اکثر خوانندگان با این موضوع موافق باشند که علم داده وسیعتر از این است. با تکمیل شدن این مقاله به مرور احتمالاً شاهد افزودن شواهد بیشتری به آن خواهیم بود.
- سؤالی که در این زمینه بسیار پرسیده میشود این است که آیا یادگیری ماشین را باید جزئی اساسی از علم داده در نظر گرفت یا نه و پاسخی که از تحلیل جریان کلیک ویکیپدیا به دست میآید این است که بله، آن را باید چنین در نظر گرفت.
- واقعیت جالب در مورد علم داده این است که یکی از صفحههایی که با آن مرتبط است در واقع مقاله Buzzword (اصطلاح مد روز) است. ولی درجه رأس آن تا حدی نبوده است که در این گراف قرار بگیرد.
مقایسه علم داده – دادهکاوی
مقاله مربوط به دادهکاوی بسیار جامعتر است چون تاریخچه آن طولانیتر است. با این حال همچنان مشابهت زیادی بین نوع اصطلاحات مرتبط با هر دو وجود دارد. اغلب اصطلاحها در گراف علم داده آنهایی هستند که نشان میدهند علم داده نسخه بازسازی شدهای از دادهکاوی است که در دهههای 1990 و 2000 استفاده میشد. با این وجود در حال حاضر علم داده فاقد ارتباطهای قوی با کسبوکارهای مرتبط با اصطلاحاتی مانند هوش تجاری، آنالیتیکس و شاید اصطلاحاتی مانند OLAP است؛ در حالی که دادهکاوی ذاتاً چنین ارتباطهایی دارد. اما این ارتباطها و همچنین رابطههای دیگر ممکن است با تکمیلتر شدن مقاله علم داده ظهور یابند. برای این که با شباهتها و تفاوتهای این مفاهیم بهتر آشنا شوید، پیشنهاد میکنیم این مقاله فرادرس را مطالعه نمایید.
یادگیری ماشین
یادگیری ماشین در میان همه واژههای دیگر سرراستترین مورد به نظر میرسد. این اصطلاح تا حد زیادی با واژههایی مرتبط است که به روشهای علمی کشف یا پیشبینی دانش اشاره میکنند و به صورت روشهای یادگیری ماشین یا یادگیری آماری برچسب خوردهاند.
- گرههای زیادی از دو نوع زیر مشاهده میشود. یکی روشهای کلاسیک مانند طبقهبندی آماری و رگرسیون لجستیک و دیگر انواع مدرنتر مانند ماشینهای بردار پشتیبان، جنگلهای تصادفی و شبکههای عصبی مصنوعی.
- مدخل یادگیری ماشین در ویکیپدیا اساساً با روشها، مدلها و تکنیکهای مختلف مرتبط است. بسیاری (و البته نه همه) آنها با هدف پیشبینی یک خروجی بر حسب یک مجموعه از مشاهدات طراحی شدهاند. در واقع فهرست گرههای مرتبط با یادگیری ماشین را میتوان به راحتی به فهرست مطالب یک کتاب در مورد یادگیری ماشین تبدیل کرد.
- وجود چند نوع یادگیری مختلف مانند یادگیری عمیق (ِDeep Learning) و یادگیری تقویتی (reinforcement learning) نیز قابل توجه است. منظور از یادگیری تقویتی چیزی به جز یادگیری نظارتشده و نظارتنشده نیست. یافتهها نشان میدهند که یادگیری ماشین خود ممکن است به صورت چتری تکامل یابد که تعداد زیادی از خانوادههای یادگیری را پوشش دهد.
- آیا یادگیری ماشین «نیازمند» آمار است؟ همانطور که ویکیپدیا قبلاً پاسخ داده است، بله چنین است. یادگیری آماری یا خود کلمه آمار در بسیاری از متدهای مرتبط با یادگیری ماشین حضور دارند.
هوش مصنوعی
این اصطلاح با اختلاف زیادی یکی از وسیعترین و متنوعترین واژهها محسوب میشود؛ اما یکی از دشوارترین انواع برای تبدیل به گراف نیز هست. هوش مصنوعی خود با بیش از 40 گره مرتبط است و آستانه بالایی برای چند همسایگی تعیین شده است تا گراف شبیه یک گلوله عظیم از مو به نظر نرسد. با این حال تنوع بالای گرهها همچنان باعث شده است که ارائه یک دستهبندی معنادار کار دشواری باشد.
- بسیاری از گرهها ماهیتی بسیار عمومی دارند: نامهای علمی (روانشناسی یا فلسفه) یا زمینههای علمی (منطق، نظریه بازی و ...) که شاهدی بر چند حوزهای بودن هوش مصنوعی هستند.
- اغلب گرههای مرتبط اساساً ارجاعهایی به برخی جنبههای خاص از هوش مصنوعی مانند کاربردهای هوش مصنوعی، واژهنامه هوش مصنوعی، تایملاین و تاریخچه و ... هستند.
- به طور مشابه در اینجا برای نخستین بار میبینیم که یک شرکت به نام Deep Mind حضور دارد که میتواند در نتیجه نقشی باشد که این سازمان در بهکارگیری هوش مصنوعی در کاربردهای دنیای واقعی داشته است.
- در نهایت دو گره در مورد آلن تورینگ وجود دارند که یکی از آنها صفحه شخصی وی و دیگری آزمون تورینگ است. جالب است که چطور آزمون تورینگ که به سال 1950 مربوط است در طی زمان استوار مانده است و همچنان با چارچوب امروزین هوش مصنوعی مرتبط است.
هوش عمومی مصنوعی
برای این که با ماهیت زمان حاضر همگام باشیم، آخرین گراف شبکه جریان کلیک را به هوش عمومی مصنوعی اختصاص دادهایم.
گرههای این گراف به قدر کافی همگون نیستند تا بتوان چند کلاستر معنیدار با آن ساخت. با این حال گرهها نامهایی مانند «بارگذاری ذهن» (mind uploading) و «انفجار اطلاعات» (intelligence explosion) دارند و بدین ترتیب میتوانیم دو طرح کلی را که ویرایشگران و کاربران به آنها علاقهمند بودهاند را مشاهده کنیم. نخستین کلاستر «AI for evil» (جنبههای شرورانه هوش مصنوعی) شامل صفحههایی مانند موارد زیر است:
- ریسک وجودی هوش عمومی مصنوعی
- سلطه هوش مصنوعی
- ریسک فاجعه جهانی
و کلاستر «AI for good» (جنبههای خوب هوش مصنوعی) نیز شامل موارد زیر است:
- هوش مصنوعی دوستانه
- فلسفه هوش مصنوعی
- اخلاقیات هوش مصنوعی
این کلاسترها خودشان نمیتوانند هوش عمومی مصنوعی را تعریف کنند؛ اما نشانگرهایی از محتوای رایج در ارتباط با آن هستند.
رواج گسترده شبکه عصبی مصنوعی
ما در این مقاله 5 اصطلاح را بررسی کردیم و شبکه عصبی مصنوعی (ANN) تنها اصطلاحی است که در هر 5 مورد حضور دارد و غالب است. قبول این واقعیت که این همزمانی تصادفی بوده است دشوار است. شبکههای هوش مصنوعی با پیشرفتهای محاسباتی مدرن ترکیب شدهاند و ارتباط بالایی با پیشرفت اخیر در زمینه هوش مصنوعی دارند. در واقع این شبکهها به خروج هوش مصنوعی از یک خواب زمستانی پس از مدتهای مدید کمک کردهاند.
در حال حاضر مدلهای موجود یادگیری عمیق مبتنی بر شبکههای هوش مصنوعی هستند. تنسورفلو (Tensorflow) که مشهورترین پروژه متن- باز شرکت Deep Mind است، یکی از رایجترین کتابخانهها بر حسب کاربردهای شبکههای هوش مصنوعی بر مبنای تعاملهای گیتهاب و ترافیک استکاورفلو محسوب میشود. با در نظر گرفتن همه این ملاحظات به نظر میرسد که شبکههای هوش مصنوعی خود را ثابت کردهاند و در آینده از آنها بیشتر خواهیم شنید.
کد
کد مورد استفاده برای تولید گرافها با استفاده از زبان R نوشته شده و در این ریپو گیتهاب موجود است. برخی پارامترها و گزینههای فیلتر، مانند تعداد فیلترهای یالها، ترتیب و درجه نیز در دسترسی هستند.
سخن پایانی
این مقاله با انگیزه ترکیب چند مطلب که اخیراً منتشر شدهاند نگارش یافته است:
- مطلب بلاگ میخائیل پاپف در مورد ایجاد نمودار بیطرفی شبکه
- همایش مایک کونی (Mick Cooney) با گروه علم داده دابلین در مورد موضوعات تمرینی برای تحلیل شبکه
- نوشته بلاگ دیوید رابینسون (David Robinson) و مقاله وین وکتور (WinVector’) برای بررسی تفاوت بین هوش مصنوعی، یادگیری ماشین و علم داده از منظر عملی.
همچنین در این نوشته از کتابخانههای اوپنسورس مانند ggplot و ggraph استفاده شده است که هنگام کار با بصری سازی دادههای شبکه مفید خواهند بود.
با مطالعه مقاله حاضر ممکن است برخی ایرادها به ذهنتان رسیده باشد؛ اما توجه داشته باشید که هدف این مقاله آن نبوده که این اصطلاحها را تعریف کند؛ بلکه خواستهایم تا از منظر ویرایشگرها و رفتار کاربران ویکیپدیا نگاهی به این مفاهیم داشته باشیم. از این چشمانداز این مطلب شبیه یک پازل جورچین است.
البته سوگیریهایی در این مقالات وجود دارد که حاصل سوگیریهای نویسندههای آنها هستند. البته این مسئله مشکلی ایجاد نمیکند چون به لطف مدل ویرایشگری و فرایند کنترل ویکی میتوانیم بر روی منطق جمعی برای سوگیریهای فردی یا دیدگاههای افراطی/ گمراهکننده حساب کنیم. تنها به عنوان مثال، مقاله ویکیپدیا برای هوش مصنوعی چند هزار ویرایشگر و ناظر دارد.
برای نتیجهگیری باید گفت که اجرای تحلیل شبکه به وسیله جریانهای کلیک ویکیپدیا این مزیت مهم را دارد که میتواند بینش مشارکتکنندگان و همچنین کاربران بزرگترین دایره المعارف دنیا را چه ازنظر نحوه نگارش و چه نحوه کلیک کردن برای ما روشن سازد.
اگر این نوشته مورد توجه شما قرار گرفته است، پیشنهاد میکنیم، موارد زیر را نیز ملاحظه نمایید:
- هوش مصنوعی و تعاریف متعدد آن
- یادگیری ماشین و بازشناسی الگو
- آموزش هوش مصنوعی
- دادهکاوی چیست؟
- الگوریتم ژنتیک و محاسبات تکاملی
- آموزش یادگیری ماشین
==