تشخیص ناهنجاری در شبکه های اجتماعی آنلاین— راهنمای جامع
در این مطلب، به مبحث تشخیص ناهنجاری در شبکه های اجتماعی آنلاین پرداخته شده است. «شبکه اجتماعی آنلاین» (Online Social Network)، یک خدمت بر پایه وب دو است. ساختار یک شبکه اجتماعی آنلاین، متشکل از کاربران (شامل افراد حقیقی و سازمانها) و روابط میان آنها است. انواع شبکههای اجتماعی شامل خدمات میکروبلاگینگ (توییتر)، خدمات به اشتراکگذاری تصاویر یا ویدئوهای زمان کوتاه (اینستاگرام)، خدمات به اشتراکگذاری ویدئو (یوتیوب)، خدمات به اشتراکگذاری صدا (ساندکلود)، خدمات پیامرسان آنی (تلگرام)، خدمات به اشتراکگذاری متن ساده (IRC) و خدمات ترکیبی (فیسبوک) میشوند.
فارغ از نوع شبکه و خدمات ویژهای که هر ارائهدهنده خدمات شبکههای اجتماعی برای کاربران خود ارائه میکند، در اغلب این شبکهها قابلیتهای مشابهی وجود دارد. کاربران یک شبکه اجتماعی با استفاده از قابلیتهایی که شبکه در اختیار آنها قرار میدهد، اقدام به تولید دادههای ساختاری و رفتاری در شبکه میکنند. یک شبکه اجتماعی به کاربران امکان انجام کارهای زیر را میدهد.
- یک پروفایل عمومی یا نیمه عمومی در شبکه بسازند.
- یک لیست از دیگر کاربران را به ارتباطات خود در پروفایل شخصیشان اضافه کنند.
- لیست ارتباطات خود را دیده و بررسی کنند و ارتباطات شکل گرفته توسط دیگر کاربران شبکه را ببینند.
- همچنین به کاربران شبکه این امکان را میدهد که مطالبی را به صورت عمومی، پیام خصوصی یا پیام آنی ارسال کنند و تصاویر و ویدئوها را به اشتراک بگذارند.
یک «پروفایل» (Profile | نمایه)، صفحهای یکتا است که اطلاعات شخصی فرد که پیشتر توسط او تکمیل شده است، شامل سن، موقعیت جغرافیایی و علاقمندیهای او را نمایش میدهد. موقعیت جغرافیایی معمولا به یکی از دو روش دستی (وارد شده توسط کاربر) یا خودکار (استفاده از سامانه موقعیت یاب جهانی) وارد میشود. بخش مهم دیگر پروفایل کاربری، «پنجره زمانی» (Timeline) است که در آن محتوای به اشتراکگذاشته شده توسط کاربر (شامل متن، تصویر، ویدئو و فایلهای صوتی) نمایش داده میشود.
همچنین، تعداد افرادی که کاربر در شبکه آنها را دنبال میکند و بالعکس نیز در پروفایل کاربر قابل مشاهده و تغییر هستند. پروفایل کاربر، به انتخاب خود او میتواند به صورت عمومی، نیمه عمومی و خصوصی (در برخی از شبکهها فقط دو حالت عمومی و خصوصی و در برخی، صرفا حالت عمومی وجود دارد) نمایش داده شود. در پروفایل عمومی، کلیه کاربران حاضر در شبکه میتوانند محتوای به اشتراک گذاشته شده توسط کاربر را مشاهده کنند. در پروفایل نیمهعمومی افراد مشخصی که کاربر به آنها دسترسی داده است، میتوانند محتوای خصوصی به اشتراک گذاشته شده توسط کاربر را دنبال کنند و بخشی از محتوا نیز برای عموم قابل مشاهده است. در پروفایلهای خصوصی، محتوای به اشتراک گذاشته شده توسط کاربر تنها برای گروه مشخصی از کاربران که که توسط صاحب پروفایل به آنها دسترسی داده شده قابل مشاهده است.
یک کاربر در شبکه امکان بروز چند نوع رفتار ویژه شامل بازنشر مطالب دیگر کاربران با استفاه از دکمه بازنشر (مثلا Share یا Retweet)، پسندیدن (مثلا Like یا Fav) مطالب ارسالی توسط دیگر کاربران، ارسال پیام برای محتوای ارسالی دیگر کاربران و مشارکت در بحثها و ارسال پیام خصوصی را دارد. از سوی دیگر، برخی از قابلیتها در شبکههای اجتماعی گوناگون با یکدیگر متفاوت بوده و بر همین اساس کاربران در شبکههای اجتماعی گوناگون رفتارهای خاصی از خود نشان میدهند. برای مثال، در یک شبکه میکروبلاگینگ، محتوای پیام ارسالی نمیتواند از تعداد مشخصی کاراکتر بیشتر باشد.
در چنین شبکههایی کاربران ضمن ارسال پیامهای کوتاه، معمولا اقدام به ارسال محتواهای بیدرنگ مانند خبر یا احوال لحظهای خود میکنند. در حالیکه در شبکههای اجتماعی که محدودیت خاص یا زیادی برای حجم محتوای ارسالی توسط کاربر وجود ندارد، معمولا مطالب ارسالی طولانی و غیر بیدرنگ هستند. چنین تفاوتهایی در ساختار شبکههای اجتماعی باید در تحلیلها اعمال شود تا تحلیلگر درک درستی از ساختار و ماهیت شبکهای که قصد تحلیل آن را دارد داشته باشد.
به طور کلی، از شبکههای اجتماعی آنلاین میتوان دو دسته از دادهها شامل دادههای رفتاری و دادههای ساختاری را گردآوری کرد که در ادامه توضیح داده شدهاند. از این دادهها برای «تشخیص ناهنجاریهایی» (Anomaly Detection) که در شبکه به وقوع میپیوندند استفاده میشود. ناهنجاری، در تعریف عمومی یعنی هر رفتاری که با الگوی مورد انتظار مرسوم مطابقت نداشته باشد.
در پاسخ به پرسش «تعریف ناهنجاری در شبکههای اجتماعی آنلاین چیست؟»، بهعنوان یک تعریف عمومی میتوان گفت: «کاربری که رفتار آن با رفتارهای مرسوم دیگر کاربران همان شبکه متفاوت باشد، ناهنجار است». اما این تعریف بسیار کلی محسوب میشود و نیاز به سفارشیسازی آن با توجه به ماهیت یک شبکه اجتماعی آنلاین و جنس خدمات ارائه شده توسط آن شبکه وجود دارد.
یک ناهنجاری در شبکه اجتماعی آنلاین را میتوان هرگونه رفتار فراتر از قابلیتهای انسانی، تغییر ناگهانی در رفتار کاربر، روابط سازمانیافته و گروهکها، تجارت پروفایل، ارسال درخواستها یا مطالب هرز و انجام سرکشی بر شبکه تعریف کرد. نمونهای از انجام رفتارهای فراتر از قابلیتهای انسانی، فعالیت مستمر و بدون وقفه در شبکه طی ۲۴ ساعت شبانهروز و ۷ روز هفته است که گاه میتواند حاکی از وجود یک ربات در پس حساب کاربری باشد، ولیکن این امر در حسابهای چند کاربری مانند حسابهای سازمانها و خبرگزاریها طبیعی است.
تغییر ناگهانی در رفتارهای کاربر شامل تغییر در میزان فعالیت، روابط درون شبکه، نوع و موضوع محتوای به اشتراک گذاشته شده، منبع و موقعیت جغرافیایی ارسال محتوا و گرایش در تعاملها میشود، که میتواند نشانگر هک شدن یا تغییر کاربری یک حساب با انگیزههای مالی و تجارت پروفایل یا موارد دیگر باشد.
کاربرانی که در شبکه فعال هستند ولیکن محتوایی به اشتراک نمیگذارند و تنها پروفایل دیگر کاربران را بررسی و دنبال میکنند میتوانند نشانگر نوعی ناهنجاری باشند. چنین کاربرانی با انگیزه جاسوسی یا دیگر موارد اقدام به نظارت و حتی گردآوری محتوای منتشر شده توسط دیگر کاربران شبکه میکنند. وجود روابط سازمانیافته در شبکه که منجر به ایجاد توپولوژی «ستارهای/شبهستارهای» (Star/Near Star) میشود میتواند نشانگر وجود یک رابطه رئیس و مرئوس در شبکه باشد که در آن کلیه افراد با یک فرد خاص در شبکه تعامل دارند ولی با یکدیگر تعاملی ندارند. در واقع، رابطههای یک سویه در شبکه اگو کاربر وجود دارد که در آن اگو با آلترها در ارتباط است ولی یا رابطهای میان آلترها وجود نداشته یا روابط بسیار ضعیفی میان آنها حاکم است.
نمونهای از ارسال درخواست هرز توسط یک کاربر، ارسال ناگهانی درخواست ارتباط (دوستی به صورت دنبال کردن یکدیگر در شبکه) به حجم بالایی از کاربران در شبکه است. این امر برای کاربران تازهوارد در شبکه میتواند یک رفتار بهنجار در نظر گرفته شود؛ بنابراین الگوی رفتار چنین کاربری در رده الگوهای استثنائی یا نوظهور قرار دارد. در نظر گرفتن مولفههایی مانند پروفایل رفتاری کاربرانی که درخواست ارتباط به آنها ارسال شده و توپولوژی نهایی که بر اثر روابط ایجاد شده شکل میگیرد به شناسایی بهتر رفتار بهنجار از ناهنجار در چنین شرایطی کمک میکند.
وجود روابط بسته و قدرتمند در میان یک گروه از افراد که منجر به ایجاد یک توپولوژی «گروهک/شبهگروهک» (Clique/ Near Clique) در شبکه میشود میتواند حاکی از وجود باندهای خلافکار در شبکه باشد. در نوعی از تجارت پروفایل، دنبال کنندههای فرد به ناگهان افزایش پیدا میکنند. این امر میتواند نشانگر خرید دنبالکننده توسط صاحب حساب کاربری باشد. گاهی هنگامی که یک کاربر بهطور ناگهانی و بر اساس محرکهای برون یا درون شبکه به شهرت دست مییابد، تعداد دنبال کنندههای او به ناگهان افزایش مییابند. همچنین، وقتی یک فرد تاثیرگذار اجتماعی یا به اصطلاح نفوذگر (Influencer) به شبکه میپیوندد، جمعیت زیادی ممکن است او را دنبال کنند. برای تشخیص این رفتارهای نوظهور و بهنجار از ناهنجاریها میتوان از تشخیص الگوهای نوظهور با درنظر گرفتن همزمان برخی از ویژگیهای ساختاری و رفتاری استفاده کرد.
در مجموع در پاسخ به این سوال که «مرزهای رفتار بهنجار و ناهنجار در شبکههای اجتماعی آنلاین چگونه تبیین میشوند؟»، لازم به ذکر است که تبیین یک مرز مشخص بین رفتار ناهنجار و بهنجار در شبکه، به صورت ایستا، امکانپذیر نخواهد بود. زیرا در عین اینکه برخی از رفتارهای کاربر ناهنجار است، ممکن است دیگر رفتارهای او بهنجار باشد که این امر بهطور معمول به دلیل رفتارهای پیشبینی نشده انسانی، قابلیتهای شبکه و رفتارهای نوظهور یا استثنائی به وقوع میپیوندد؛ ولیکن با استفاده همزمان از مجموعه دادههای رفتاری و ساختاری و در نظر گرفتن بستر وقوع الگوهای نوظهور میتوان تفکیک مناسبی از مرزهای رفتار بهنجار و ناهنجار انجام داد.
مساله مهم دیگر در درک دادههای شبکههای اجتماعی، شیوه گردآوری آنها است. ارائهدهندگان خدمات شبکههای اجتماعی امکان دسترسی به بخش کمی از دادههای کاربران (اغلب دادههای کاربران دارای پروفایلهای عمومی یا نیمه عمومی) را به وسیله رابطهای برنامهنویسی کاربردی به صورت رایگان فراهم میکنند. دسترسی به بخش گستردهتر اطلاعات شبکه منوط به پرداخت هزینه برای استفاده از این رابطهای کاربردی برنامهنویسی است. از سوی دیگر، به دلیل مسائل حریم خصوصی، اغلب ارائهدهندگان خدمات شبکههای اجتماعی آنلاین تمایلی به در اختیار شخص ثالث قرار دادن کل اطلاعات شبکه ندارند.
همچنین، برخی از دادههای کاربران مانند پیامهای خصوصی ارسال شده توسط ایشان، نه به صورت رایگان و نه با پرداخت هزینه، در اختیار شخص ثالث قرار نمیگیرد. نبود مجموعه دادههای برچسبدار که در آن رفتارهای بهنجار و یا ناهنجار برچسبگذاری شده باشند، دیگر چالش موجود در گردآوری و تحلیل دادههای شبکههای اجتماعی است. در عین حال، گردآوری دادههای رفتاری کاربران با استفاده از رباتها و رابطهای کاربردی برنامهنویسی دشوار و زمانبر است.
در ادامه، به بررسی مفهوم «دادههای رفتاری» (Behavioral Data) و «دادههای ساختاری» (Structural Data) پرداخته میشود و همچنین، چالشهای موجود در زمینه تشخیص ناهنجاری در شبکههای اجتماعی آنلاین، مورد بررسی قرار میگیرد. در نهایت، به بحث تشخیص ناهنجاری در دادههای مبتنی بر گراف پرداخته شده است.
دادههای رفتاری
رفتارهای آنلاین به فعالیتهایی گفته میشود که در فضای سایبری بهوقوع میپیوندند و میتوانند انعکاسی از فعالیتهای برونخط افراد و آنچه در جهان واقع به وقوع میپیوندد، باشند. کاربران شبکههای اجتماعی میتوانند محتوا را به صورت عمومی، نیمه عمومی و خصوصی در شبکه به اشتراک بگذارند. این محتوا ممکن است اشتباه باشد. وجود اطلاعات اشتباه در پروفایلها منجر به نتایج گمراه کنندهای در تحلیلهای رفتاری میشود که دلیل اصلی آن فقدان امکان ارتباط فیزیکی با افراد ناشناختهای است که در شبکه وجود دارند. این امر همچنین میتواند فضای سایبری را برای مجرمان به بستری مناسب جهت پیادهسازی اهداف خود مبدل کند.
رفتار کاربران شبکه در دستههای غیرفعال، فعال (پیوند دهندهها و دعوت کنندهها)، تازه واردها، تماشاچیها، گروهگها، ستارهها (نفوذگران) و ترکیبی قرار میگیرد. کاربران غیرفعال، اعتماد کمتری به شبکههای اجتماعی آنلاین دارند و تنها برای کنجکاوی و حضور دوستانشان به شبکه میپیوندند ولی برای حفظ امنیت خود فعالیت محدودی دارند. این کاربران معمولا علاقهای به آگاهسازی دیگران از حضور خود و فعالیتهایشان در شبکه ندارند. اگرچه این کاربران به شبکه اعتماد ندارند ولی از محتوای منتشر شده در شبکههای اجتماعی آنلاین برای به روز رسانی اطلاعات خود استفاده میکنند.
دعوتگرها افرادی هستند که تمایل دارند روابط برونخط خود را به روابط آنلاین مبدل کنند. بنابراین، دوستان، همکاران یا اقوام خود را به شبکههای اجتماعی دعوت میکنند که در آن حضور دارند. این کاربران، بالاترین نفوذ فرهنگی را در شبکه دارند. دعوتگرها نقش اساسی در راهاندازی بحثهای اصلی و روز در شبکه دارند. پیوند دهندهها، کاربرانی هستند که با دیگر کاربران حاضر در شبکه ارتباط برقرار میکنند و نقش مهمی در برقراری ارتباطات و رشد شبکههای اجتماعی آنلاین دارند. این افراد بالاترین نفوذ و بیشترین فعالیت را در میان گروهها و جوامع خود دارند.
تازهواردها، نوعی از کاربران غیر فعال هستند که بهتازگی به شبکه پیوستهاند. تازهواردها با گذشت زمان امکان تبدیل شدن به هر یک از دیگر انواع کاربران را دارند. بهطور کلی، تازهواردها یا با گذشت زمان جذب شبکه شده و در آن فعالیت میکنند یا جذب شبکه نمیشوند و غیر فعال شده یا بهعنوان تماشاچی در شبکه حضور پیدا میکنند. تماشاچیها در شبکه گردش میکنند اما اغلب هیچگونه اطلاعاتی از خود در شبکه به اشتراک نمیگذارند.
افرادی با رفتار ترکیبی با جوامع مختلف در ارتباط هستند و به اشتراکگذاری مطالب با آنها میپردازند. ایجاد اعتماد رفتاری در میان کاربران حاضر در شبکه یکی از ارکان مهم شبکههای اجتماعی آنلاین است. عدم اطمینان میان افراد حاضر در شبکه، بیشتر ناشی از عدم شناخت آنها از یکدیگر در جهان واقعی و به صورت فیزیکی است. به طور معمول، کاربران هنگامی که صاحب یک حساب کاربری را در فضای غیر مجازی نشناسند، اعتماد کمتری به او دارند.
دادههای ساختاری
کاربران حاضر در شبکه و روابط میان آنها از جمله دادههای قابل استخراج از شبکه است. این دادهها، آنچه در شبکه در میان کاربران به وقوع پیوسته را بهصورت یک ساختار نمایش میدهند. این ساختار حاوی اطلاعات مهم و قابل توجهی از شبکه است. اطلاعات ساختاری به کمک برخی از مفاهیم محاسباتی مانند مرکزیت یا مفاهیم هندسی مانند توپولوژی شبکه قابل استنباط و بررسی هستند. گلو و همکاران و فالوتوس ساختار شبکههای اجتماعی آنلاین را با استفاده از نظریه گراف مدل کردهاند.
فالوتوس استفاده از EigenSpokes که در واقع الگوهای شگفتانگیز موجود در گرافهای بزرگ است را جهت تشخیص ناهنجاری در شبکههای اجتماعی آنلاین توصیه میکند. توپولوژی ستارهای/شبهستارهای، گروهک/شبه گروهک، همسایگی سنگین و یال غالب برخی از انواع توپولوژیهای ناهنجار در شبکه هستند.
توپولوژی ستارهای/شبهستارهای نوعی از گراف شبکه است که در آن گرهها به یک گره مرکزی مانند هاب متصل شدهاند. هاب، یک نقطه اشتراکگذاری برای دیگر گرههای شبکه که ارتباط بسیار کم داشته یا هیچ ارتباطی با یکدیگر ندارند فراهم میکند. توپولوژی ستارهای نشانگر کاربری است که بهصورت یکسره به گرههای دیگر در شبکه متصل شده ولی آن گرهها با یکدیگر هیچ ارتباطی ندارند. در توپولوژی گروهک/شبه گروهک (یا یک زیرگراف کامل) دو یا تعداد بیشتری گره به وسیله یک یال به یکدیگر متصل شدهاند. این مفهوم در شبکههای اجتماعی به گروهی از افراد که یکدیگر را میشناسند اشاره دارد.
همسایگی سنگین و یال غالب، به کاربرانی اشاره دارد که وزن مجموع یالها در آنها در مقایسه با تعداد یالها بهطور قابل توجهی بالاتر است. اگر یک کاربر، تعداد زیادی پیام از یک منبع یکتا (کاربر) دریافت کند، بهعنوان همسایگی سنگین در نظر گرفته میشود. توپولوژیهای همسایگی سنگین و یال غالب در گرافهای وزندار اتفاق میافتد. برخی از انواع توپولوژیهای ناهنجار در شکل زیر نمایش داده شدهاند.
چالشها
حل مسائل مربوط به تشخیص ناهنجاری بهویژه در شبکههای اجتماعی آنلاین، بهدلیل سر و کار داشتن با رفتارهای انسانی، امری دشوار است. صحت پایین دادهها، نرخ تولید بالا، پیچیدگی محاسباتی، مجموعه دادههای بدون برچسب، مسائل حریم خصوصی و نبود یک تعریف عمومی برای ناهنجاری در شبکههای اجتماعی گوناگون از چالشهای اصلی تشخیص ناهنجاری در شبکههای اجتماعی آنلاین به شمار میآیند. فراهم کردن یک مجموعه داده دارای برچسب در یک شبکه اجتماعی، به دلیل نقض حریم خصوصی کاربران، امری مشکل و چه بسا امکانناپذیر است.
هیچ یک از ارائهدهندگان شبکههای اجتماعی آنلاین تمایلی به انتشار عمومی دادههای کاربران خود به دلایل قانونی و بِرندی ندارند. فقدان دادههای کامل مانند پیامهای مبادله شده بین کاربران، تشخیص ناهنجاری را با مشکل مواجه میکند. از سوی دیگر، ارائهدهندگان شبکههای اجتماعی آنلاین به طور مداوم و باگذشت زمان، ویژگیها و قابلیتهای جدیدی را برای پاسخگویی به تقاضا و نیازهای جامعه کاربری خود و جذب کاربران جدید، به شبکه اجتماعی خود میافزایند که چالشی برای تشخیص ناهنجاری محسوب میشود. همچنین، ساختارها و اهداف مختلف شبکههای اجتماعی آنلاین موجب ایجاد ناسازگاری بین تعاریف ناهنجاری بیان شده برای این شبکهها میشوند.
تشخیص ناهنجاری در دادههای مبتنی بر گراف
نظریه گراف برای ارائه ساختارهای پیچیدهای که مدلسازی آنها دشوار است مورد استفاده قرار میگیرد. دادههای رابطهای بسیاری وجود دارد که بهوسیله نظریه گراف قابل مدلسازی است. اینترنت، شبکه غذایی، شبکههای زیستی، تعاملهای پروتئین-پروتئین، شبکه برق و شبکههای اجتماعی آنلاین از این جمله هستند.
از نظریه گراف بهطور گسترده برای مدلسازی شبکههای اجتماعی استفاده شده است. تحلیل گراف شبکههای اجتماعی آنلاین به دو صورت محلی و سراسری انجام پذیر است. در رویکرد محلی، تحلیل به رفتار کاربران در نمونهای از شبکه اشاره دارد. در رویکرد سراسری تمرکز بر عمومیسازی قوانین استخراج شده از شبکه به عنوان الگویی برای تمایز رفتار آنلاین کاربر در کل شبکه است. الگوریتمهای تشخیص ناهنجاری مبتنی بر گراف در دو گروه ایستا و پویا طبقهبندی میشوند.
این الگوریتمها با استفاده از خصیصههای ساده گراف شده (گره، یال و برچسب) به تشخیص ناهنجاری در ساختار شبکه میپردازند. استخراج ویژگیهای کارا و دارای معنی که قادر به تولید مدل باشند و به سادگی تفسیر شوند گامی اساسی برای الگوریتمهای ایستا است. الگوریتمهای ایستا شامل الگوریتمهای مدل محور، چگالی محور و خوشه محور میشوند.
الگوریتمهای پویا با استفاده از توالی رویدادهای گرافهای زمانی در حال تکامل (به عنوان نمونه، تغییرات فاصله ارتباطات) کار میکنند. یک سری زمانی، یک توالی از رویدادها است که در نقاط متوالی در بازههای زمانی مشخص به وقوع میپیوندند. در این الگوریتمها، گراف شبکه در طول زمان برای اعمال تغییرات جدید به وقوع پیوسته به طور مکرر محاسبه و ترسیم میشود. مقیاسپذیری این نوع از الگوریتمها یک چالش اساسی محسوب میشود.
اگر نوشته بالا برای شما مفید بوده است، آموزشهای زیر نیز به شما پیشنهاد میشوند:
- مجموعه آموزشهای دادهکاوی و یادگیری ماشین
- آموزش تشخیص دادههای پرت یا Outlier Detection
- مجموعه آموزشهای آمار و احتمالات
- تشخیص ناهنجاری با استفاده از داده کاوی — بررسی موردی همراه با کدهای پایتون
- تشخیص ناهنجاری در داده کاوی — با استفاده از زبان برنامهنویسی R
^^