آزمایش A/B چیست و چه تاثیری بر توسعه محصول دارد؟

۵۷۶

۱۴۰۱/۱۰/۳

۱۶ دقیقه

PDF

آموزش متنی جامع

فهرست مطالب این نوشته

مایکروسافت میزبان ایده اولیه آزمایش A/B

آزمایش‌های کنترل شده

اهمیت آزمایش A/B

تغییرات کوچک می‌توانند تأثیرات بزرگی بر جای بگذارند

آزمایش A/B و کمک به تصمیم‌گیری سرمایه‌گذاران

ایجاد یک قابلیت بزرگ

از حالات جالب یا متفاوت بهراسید

مدل‌هایی که می‌توان تیم‌های آزمون A/B را بر مبنای آنها شکل داد

از داده‌های با کیفیت پایین استفاده نکنید

نتیجه‌گیری

باورهای غلط مدیران

نتیجه‌گیری از آزمایش دکتر لیند

در حوزه‌ی تجزیه و تحلیل سرویس‌های تحت وب، «آزمایش A/B» به آزمونی کنترل شده گفته می‌شود که دارای دو متغیر است و طی آن سعی می‌گردد بازخورد کاربران در شرایط یکسان نسبت به این دو متغیر سنجیده شود. برای مثال، در یک صفحه با محتوای یکسان دکمه‌ای قرار دارد که افراد با کلیک روی آن به صفحه‌ی پرداخت می‌روند؛ این دکمه را به گروهی از کاربران با رنگ آبی (متغیر A) و به گروهی دیگر با رنگ سبز (متغیر B) نشان می‌دهیم و سپس رفتار آنها را بررسی می‌کنیم و در می‌یابیم که نمایش دکمه با کدام رنگ توجه مراجعین به سایت را بیشتر جلب کرده است. در نهایت نتیجه حاصله را به صورت قطعی روی سرویس خود اعمال می‌نماییم.

در ادامه‌ی این مطلب قصد داریم به همین موضوع یعنی آزمایش A/B‌ پرداخته، تاریخچه و اهمیتش را مرور کنیم و تاثیر آن را بر فرآیند توسعه‌ی یک سرویس بررسی نماییم.

مایکروسافت میزبان ایده اولیه آزمایش A/B

در سال 2012 یکی از کارمندان مایکروسافت که روی Bing کار می‌کرد، ایده‌ای پیرامون تغییر نحوه نمایش تیتر تبلیغات در میان نتایج این موتور جستجو داشت. توسعه این ایده به تلاش زیادی احتیاج نداشت و تنها چند روز از وقت یک مهندس را می‌گرفت. اما این تنها فقط یکی از صدها ایده مطرح بود و مدیران برنامه آن را در پائین‌ترین اولویت قرار داده بودند. همین مسائل سبب شد ایده‌ی ذکر شده بیشتر از ۶ ماه راکد بماند تا عاقبت یک مهندس بررسیش کرد، فهمید هزینه‌ی کدنویسی آن بسیار ناچیز است و در نهایت به منظور ارزیابی تاثیرش یک آزمایش A/B راه‌اندازی کرد. چند ساعت پس از شروع آزمون، شیوه‌ی جدید نمایش تبلیغات درآمدی به مراتب فراتر از انتظار را رقم زد، تا جایی که باور این درآمد به سختی امکان‌ پذیر بود. در چنین شرایطی که اتفاقی دور از انتظار رخ می‌دهد، معمولاً گمانه‌زنی می‌شود که یک باگ یا خطا در سیستم وجود دارد؛ اما این بار هیچ باگی در کار نبود.

تجزیه‌ و‌ تحلیل نشان داد که تغییرات انجام‌ شده، به‌طور عجیبی درآمد را تا 12% افزایش داده است. عددی که سبب می‌شد تنها در ایالات متحده درآمد سالیانه بینگ به ۱۰۰ میلیون دلار برسد، آنهم بدون اینکه به معیارهای کلیدی تجربه‌ی کاربری این محصول صدمه‌ای وارد شده باشد. این بهترین ایده درآمدزایی در تاریخ بینگ بود، اما تا پیش از اینکه مورد آزمایش قرار گیرد، ارزش آن نادیده گرفته شده بود.

این مثال نشان می‌دهد که تشخیص پتانسیل ایده‌های جدید چقدر سخت است. ضمناً یادآور می‌شود که داشتن توانایی اجرای آزمایش‌های متعدد و ارزان، تا چقدر حائز اهمیت است؛ مسئله‌ای که کسب و کارهای زیادی رفته رفته در حال درک هستند.

امروزه مایکروسافت و چندین شرکت برتر دیگر مثل آمازون، Booking.com، فیس‌بوک و گوگل هرساله با تست‌های زیادی که میلیون‌ها کاربر را به کار می‌گیرد، بیش از 10000 آزمایش آنلاین انجام می‌دهند. استارت‌آپ‌ها و شرکت‌هایی که پایه دیجیتالی ندارند (مثل Walmart، Hertz و Singapore Airlines) هم به‌ طور مداوم اما در مقیاس کوچک‌تری این تست‌ها را انجام می‌دهند. این سازمان‌ها فهمیده‌اند که رویکرد «با همه‌چیز آزمایش کن» به‌طور شگفت‌انگیزی بازدهی‌شان را افزایش می‌دهد. برای مثال به بینگ کمک کرد هر ماه ده‌ها مورد از تغییراتی را شناسایی کند که هر یک درآمد حاصل از هر جستجو را ۱۰ الی ۲۵ درصد افزایش می‌دادند. این رشد درآمد به همراه دگرگونی‌هایی که ماهیانه منجر به افزایش رضایتمندی کاربران می‌شدند، بزرگترین دلیل سود‌ دهی بینگ بودند؛ ضمناً همین موارد سبب شدند سهم بینگ در جستجوهایی که آمریکایی‌ها توسط کامپیوترهای شخصی خود انجام می‌دادند ۲۳٪ افزایش یابد؛ بد نیست بدانید میزان این رشد در سال ۲۰۰۸ تنها ۹٪ بوده است و تا به حال چنین روند صعودی در طی یکسال رخ نداده بود.

آزمایش‌های کنترل شده

در دوره‌ای که برای کسب و کارها بهره‌گیری از وب بدل به یک مسئله حیاتی شده است، آزمایش‌های آنلاین پیچیده‌ای که روی کاربران صورت می‌گیرن،د باید از یک فرآیند اجرایی استاندارد پیروی کنند. اگر شرکتی برای اجرای صحیح این آزمایش‌ها اقدام به توسعه‌ی زیرساخت‌های نرم‌افزاری و مهارت‌های سازمانی لازم کند، به احتمال زیاد قادر خواهد بود نه تنها بسیار ارزان و راحت ایده‌های مناسب برای وبسایت خودش را تشخیص دهد، بلکه به همین شیوه مدل‌های بالقوه کسب و کار، استراتژی‌ها و محصولات دارای پتانسیل بالا و کمپین‌های بازاریابی اثر‌گذار را نیز شناسایی کند.

آزمون‌های کنترل شده استاندارد می‌توانند تصمیم‌ گیری را بدل به یک فرآیند علمی شهود محور نمایند و به سادگی شما را از تصمیمات لحظه‌ای دور سازند. بدون این دست از آزمون‌ها، ممکن است هرگز یپشرفت رخ ندهد و بسیاری از ایده‌های بدی اجرایی شوند که منجر به شکست قطعی خواهند شد؛ هدر رفت منابع نیز از دیگر عواقب این روند خواهد بود.

علیرغم آنچه گفته شد، بازهم شاهد آن هستیم که بسیاری از سازمان‌ها از جمله شرکت‌های بزرگ فعال در حوزه‌ی دیجیتال، آزمودن ایده‌های جدید خود را به صورت تصادفی و اتفاقی انجام می‌دهند و نمی‌دانند چطور باید برای آنها آزمایش‌هایی صحیح و علمی پیاده‌سازی کنند. در ادامه به نتایج تحقیق و تجربیاتی ۳۵ ساله در همین زمینه خواهیم پرداخت.

اهمیت آزمایش A/B

در یک آزمون A/B آزمایش کنندگان دو نوع تجربه را برای کاربر فراهم می‌کنند. تجربه «A» که روشی کنترل شده است، در اصل سیستم فعلی محسوب می‌شود که کاربران هم اکنون با آن سر و کار دارند و در اصطلاح از آن با عنوان «رقیب» نیز یاد می‌شود. تجربه «B» شامل راه حلی می‌گردد که گمانه زنی می‌شود می‌تواند چیزی را در سیستم کنونی بهبود دهد؛ به این راه‌حل اصطلاحاً «چالش» نیز می‌گویند.

تهر یک از کاربران به صورت اتفاقی با این تجربه‌ها درگیر می‌شوند و بازخوردهای آنها بر اساس شاخصه‌هایی کلیدی سنجیده شده و با یکدیگر مقایسه می‌شوند. (آزمایش‌های انحصاری A/B/C و آزمایش‌های چند متغیره با متغیرهای مختلف، آزمایش‌های متضاد یکدیگر، تشخیص بیشتر از یک راه اصلاح یا درمان برای متغیرهای مختلف در یک بازه زمانی یکسان.) این اصلاح یا ویرایش آنلاین می‌تواند شامل موارد مختلفی مثل افزودن یک ویژگی جدید، ایجاد یک تغییر در رابط کاربری (مثل یک طرح جدید)، به وجود آوردن یک تغییر backend (مثل بهبود یک الگوریتم، مثل توصیه کتاب در آمازون)، یا ارائه یک طرح کسب‌وکار متفاوت (مثل پیشنهاد یک حمل‌ونقل رایگان) باشد. شرکت‌های عملیاتی هرچقدر بیشتر پیرامون فروش، استفاده مجدد، میزان کلیک، یا میزان زمانی که کاربران در یک سایت می‌گذرانند، مراقبت به خرج دهند، به همان اندازه هم می‌توانند از آزمایش A/B برای یادگیری چگونگی بهبود عملکردشان استفاده کنند.

هر شرکتی که روزانه حداقل چند هزار کاربر فعال داشته باشد، می‌تواند از مزایای آزمایش‌های A/B بهره‌مند شود. دسترسی به گروه بزرگی از مشتریان، به این معناست که می‌توانید آنها را در معرض تجربه‌های کاربری متفاوتی قرار دهید و سپس به صورت خودکار حجم گسترده‌ای داده راجع به نحوه تعامل آنها با وبسایت یا اپلیکیشن خود جمع‌آوری کنید. با قیاس داده‌های مربوط به هر تجربه و بررسی آنها، قادر خواهید بود خیلی سریع ایده‌های متعددی را سنجیده و ارزشیابی نمایید. ضمن اینکه به این ترتیب پیاده‌سازی آزمون‌ها و تجربه‌های کاربری متفاوت هزینه‌ی چندانی را به شما تحمیل نخواهد کرد. سازمان‌ها بر همین اساس قادر شده‌اند اجرائیات خود را سرعت بخشند، شکست‌ها را در مقیاس کوچک تجربه کنند و برای رسیدن به موفقیت به سرعت تغییر مسیر دهند.

تغییرات کوچک می‌توانند تأثیرات بزرگی بر جای بگذارند

بیشتر مردم تصور می‌کنند هر چه سرمایه‌گذاری‌های کلان‌تری انجام دهند، اثرات و سودهای بزرگتری را شاهد خواهند بود. اما در دنیای آنلاین چنین طرز فکری کاملاً اشتباه است، در این دنیا شما زمانی موفق خواهید بود که تعداد زیادی تغییر کوچک را به درستی انجام دهید. در دنیای کسب و کار نیز اگرچه تحولات بزرگ و ایده‌های ساختار شکن مورد ستایش هستند، اما این ستایش‌ها تنها زمانی رخ می‌دهند که صدها بهبود کوچک و جزئی را اعمال نمایید.

در راستای آنچه ذکر شد بد نیست به یک مثال بپردازیم. سال 2008 یکی از کارمندان دفتر انگلستان مایکروسافت پیشنهادی ساده ارائه داد که مورد توجه قرار گرفت.

وی پیشنهاد کرد هر بار کاربری در صفحه‌ی سایت MSN روی لینک سرویس ایمیل «هات‌میل» (Hotmail) کلیک می‌کند، پنجره‌ی مربوط به این سرویس به جای باز شدن در همان صفحه در یک تب جدید باز شود. آزمایش A/B ذکر شده، با حدود 900,000 نفر کاربر انجام شد و نتایج دلگرم‌کننده‌ای را در پی داشت. با احتساب میزان کلیک‌هایی که در صفحه اصلی MSN صورت گرفت مشخص شد که حجم تعامل کاربرانی که هاتمیل را باز کردند تا 8.9% افزایش یافت. (تأثیر بیشتر تغییرات بر روی میزان تعامل کاربران چیزی کمتر از 1% بود) با این وجود بازهم باید ایده مورد بحث و بررسی قرار می‌گرفت، چراکه به‌طور هم‌زمان سایت‌های کمی لینک را در برگه جدید باز ‌می‌کردند، همین باعث شد که این تغییر فقط در انگلستان انجام شود.

در ژوئن سال 2010 میلادی (اوایل تابستان 1389 شمسی) آزمایش با شرکت 2.7 میلیون نفر کاربر آمریکایی انجام شد و نتایج مشابهی را به دنبال داشت، موفقیت‌آمیز بودن مرحله دوم آزمایش آن‌هم در شرایط و بازه زمانی و مکانی متفاوت، منجر به اعمال آن تغییر در سراسر جهان شد.

باز کردن لینک‌ها در تب جدید یکی از بهترین روش‌های افزایش تعامل کاربران است که مایکروسافت آن را معرفی کرده. این در حالی است که برای اعمال این تغییر تنها کاری که باید انجام داد عوض کردن چند خط کد است. امروزه تعدادی از وب‌سایت‌ها، از جمله فیس‌بوک و توییتر برای افزایش تعامل کاربرانشان از این تکنیک استفاده می‌کنند.

آزمایش مایکروسافت یک تجربه منحصر به‌ فرد است. برای مثال آزمایش آمازون نشان داد که تغییر مکان خدمات کارت اعتباری از صفحه اصلی به صفحه سبد خرید درآمد را تا ده‌ها میلیون دلار در سال افزایش می‌دهد. واضح است که سرمایه‌گذاری‌های کوچک می‌توانند نتایج خوب و بازدهی‌های بزرگی را به بار بیاورند.

ناگفته نماند در برخی موارد سرما‌یه‌گذاری‌های بزرگ نتیجه‌ای ایده‌ال را در پی دارند اما نمی‌توان ریسک این سرمایه‌گذاری‌ها را نیز نادیده گرفت. مثلاً بینگ پیش از این نتیجه‌ی حاصل از شکست یک سرمایه‌گذاری بزرگ را تجربه کرده است. این موتور جستجو تلاش کرد با شبکه‌های اجتماعی ترکیب شود تا هنگامیکه یک کاربر از آن بهره می‌گیرد، در کنار نتایج جستجو و در قابی مجزا، اطلاعات استخراج شده‌ی مرتبط از توییتر و فیس‌بوک نیز به نمایش در آیند. توسعه‌ی این ویژگی برای مایکروسافت ۲۵ میلیون دلار هزینه در پی داشت اما تاثیری اندکی روی درآمد و میزان تعامل کاربران با خدمات ارائه شده گذاشت.

آزمایش A/B و کمک به تصمیم‌گیری سرمایه‌گذاران

مدیران می‌توانند با استفاده از تست‌های آنلاین میزان سرمایه‌گذاری برای بهبود هرچه بهتر را تخمین زده و تعیین کنند. این تصمیمی بود که مایکروسافت بعد از پی بردن به کاهش زمان تعلل برای نمایش نتایج در Bing اتخاذ کرد. قطعاً نمایش سریع‌تر بهتر است، اما آیا می‌توان میزان بهبود را محاسبه و تعیین کرد؟ 3 نفر، 10 نفر، 50 نفر؟ چند نفر باید برای افزایش بهبود عملکرد روی آن کار کنند؟

شرکت برای پاسخ دادن به این سؤالات مجموعه‌ای از آزمایش‌های A/B را انجام داد. نتیجه آزمایش‌ها نشان داد که هر 100 میلی‌ثانیه اختلاف در عملکرد، به‌اندازه 0.6% بر روی درآمد تأثیر می‌گذارد. به این ترتیب یک افزایش سرعت تا 100 میلی‌ثانیه می‌تواند ارزشی برابر با افزایش درآمد سالانه 18 میلیون دلار را به دنبال داشته باشد که برای سرمایه‌گذاری بر روی یک گروه بزرگ کافی است.

ایجاد یک قابلیت بزرگ

گفته می‌شود که بیش از یک قرن پیش جان وانامیکر (John Wanamaker)؛ صاحب یک فروشگاه بزرگ یک اصطلاح بازاریابی را نهادینه کرده است: «نیمی از پولی که صرف تبلیغات می‌کنم به هدر می‌رود، اما مشکل اینجاست که نمی‌دانم کدام نیمه». درباره ایده‌های جدید چیزهایی فهمیدیم، اینکه اکثریت قریب به‌اتفاق در آزمایش‌هایشان شکست می‌خورند و حتی متخصصان هم درست تشخیص نمی‌دهند که برای کدام‌یک از آن‌ها پول پرداخت کنند. در گوگل و بینگ تنها حدود 10 الی 20 درصد از آزمایش‌ها نتیجه مثبت دارند. در مایکروسافت جمعاً یک‌سوم آزمایش‌های نتیجه مثبت، یک‌سوم از آن‌ها نتیجه خنثی یا بی‌طرف و یک‌سوم هم نتیجه منفی دارند. همه این آمار و ارقام یادآور ضرب‌المثل قدیمی «نابرده رنج گنج میسر نمی‌شود» است و اینکه شرکت‌ها باید برای رسیدن به بهترین نتیجه، آزمایش‌های مختلفی را باید انجام دهند که شاید نتیجه خیلی از آن‌ها هم برایشان خوشایند نباشد.

از حالات جالب یا متفاوت بهراسید

هر حالتی که جالب یا متفاوت به نظر می‌رسد، معمولاً اشتباه است. با انجام آزمایش‌های مختلف می‌توانید مطمئن شوید که انجام تغییرات نه به‌ منزله تحقیر است و نه اثرات غیرمنتظره. در بینگ حدود 80% از تغییرات پیشنهاد شده، ابتدا به‌عنوان آزمایش‌هایی که تحت نظارت و کنترل قرار گرفته‌اند اجرا می‌شوند. گاهی که بعضی از اشکالات کم ریسک برطرف می‌گردند، تغییرات سطح ماشین درست مانند آپگرید کردن و ارتقا دادن سیستم‌عامل از بین می‌روند و بایستی از اول اعمال شوند.

از نظر علمی انجام هر یک از آزمایش‌های پیشنهادی نیازمند یک زیرساخت است. زیرساخت‌ها و نیازهایی مثل ابزار دقیق (برای ثبت چیزهایی مثل کلیک‌ها، حرکات ماوس و زمان رویدادها)، خطوط اطلاعات و کارشناسان اطلاعات. استفاده از چند ابزار و سرویس شخص ثالث روند را برای تکرار آزمایش‌ها آسان‌تر می‌کند، اما اگر می‌خواهید بعضی چیزها را افزایش دهید باید این قابلیت را به‌طور تمام و کمال با فرآیندتان ادغام کنید. این کار باعث کاهش هزینه‌های هر آزمایش و افزایش قابلیت اطمینان آن می‌شود. از طرفی هم عدم داشتن زیرساخت هزینه‌های جانبی و متفرقه آزمایش‌ها را بالا نگه خواهد داشت و می‌تواند مدیران بالادستی را نسبت به دعوت برای آزمایش‌های دیگر بی‌انگیزه و بی‌میل کند.

مدل‌هایی که می‌توان تیم‌های آزمون A/B را بر مبنای آنها شکل داد

مایکروسافت نمونه‌ای از یک زیرساخت قدرتمند آزمایشی ارائه داده است که می‌تواند تا حد زیادی مفید واقع شود. گروه آزمایش و تجزیه‌و‌تحلیل این شرکت از 80 نفر کارمند تشکیل شده است که هرروز روی صدها آزمایش آنلاین از محصولات مختلف کار و برای اجرای آن‌ها تلاش می‌کند. این محصولات شامل مواردی همچون بینگ، کورتانا، اکس‌چنج، آفیس، اسکایپ، ویندوز، ایکس باکس و ... است.

در طی هر آزمایش همه تغییرات یا ویژگی‌های جدید برای صدها هزار یا حتی ده‌ها میلیون نفر اعمال و نشان داده می‌شود. این گروه روی همه تست‌های یادشده تجزیه‌ و‌ تحلیل‌های آماری دقیق انجام می‌دهد و به‌طور خودکار کارت‌های امتیازی تولید می‌کند که از طریق آن‌ها صدها هزار معیار و ویژگی را چک کرده و تغییرات مهم را علامت‌گذاری می‌کند. کارکنان بخش آزمایش شرکت می‌توانند به سه روش سازمان‌دهی شوند:

مدل متمرکز

در این رویکرد تیمی از دانشمندان و محققان داده (Data) برای کل شرکت کفایت می‌کنند. منفعت و سودشان مدل مذکور در این است که بتوانند تمرکزشان را بر روی پروژه‌های بلند‌مدتی مثل ساخت ابزارهای بهتری برای انجام آزمایش A/B و توسعه الگوریتم‌های آماری پیشرفته‌تر بگذارند.

یکی از بزرگ‌ترین معایب این است که واحدهای کسب‌وکار از گروه‌هایی استفاده می‌کنند که امکان دارد اولویت‌های متفاوتی داشته باشند و با این اولویت‌های متفاوت می‌توانند ناسازگاری‌ها و کشمکش‌های طی تخصیص منابع و هزینه‌ها را کنترل کنند. یک نگرانی دیگر این است که امکان دارد دانشمندان و محققان داده، نسبت به معامله احساس خوبی نداشته باشند و با اهداف و حوزه‌های کاری واحدها مطابقت کمتری پیدا کنند. این مشکلات احتمالی می‌توانند کار اتصال به مشتریان و به اشتراک‌گذاری اطلاعات و استراتژی‌های مربوطه با آن‌ها را دشوارتر کند.

مدل انحرافی

یک رویکرد دیگر توزیع دانشمندان و محققان داد در سطح واحدهای تجاری مختلف است. مزیت مدل دوم (مدل انحرافی) این است که دانشمندان داده می‌توانند در هر یک از حوزه‌های کاری این کسب‌وکارها متخصص و ماهر شوند. بزرگ‌ترین مشکلش هم عدم وجود یک مسیر شغلی واضح و روشن برای این متخصصان است و امکان دارد این مسئله منجر به عدم دریافت بازخورد از همکاران و مربیانی شود که به توسعه کارشان کمک می‌کنند. همچنین ممکن است آزمایش‌ها در واحدهای فردی قدرت توجیه ساخت ابزارهای موردنیاز را نداشته باشند.

مدل مرکز ممتاز

مورد سوم داشتن دانشمندان داده در یک عملیات متمرکز و دیگران در واحدهای کسب‌و‌کار مختلف است. این همان رویکردی است که مایکروسافت استفاده می‌کند. یک مرکز عالی اغلب اوقات تمرکزش را برای طراحی، اجرا و تحلیل آزمایش‌های کنترل‌شده صرف می‌کند. این امر موجب کاهش قابل‌توجه زمان و منابعی می‌شود که طراحی، اجرا و تجزیه‌و‌تحلیل برای ساخت یک پلتفرم آزمایشی و ابزارهای مربوطه در سراسر شرکت به آن نیاز دارند. انتشار بهترین تمرین‌های آزمایشی می‌تواند از طریق سازمان‌دهی کلاس‌های میزبانی (hosting)، آزمایشگاه‌ها و کنفرانس‌ها صورت بگیرد.

هیچ مدلی صرفاً درست یا غلط نیست. شرکت‌های کوچک معمولاً با مدل متمرکز آغاز به کار می‌کنند، یا از یک ابزار شخص ثالث استفاده می‌کنند و بعد از اینکه کمی بزرگ‌تر شدند و رشد کردند به یکی دیگر از مدل‌ها تغییر مسیر می‌دهند.

تعریف موفقیت

هر گروه کاری باید برای آزمایش‌هایش یک معیار ارزیابی مناسب داشته باشد که با اهداف استراتژیکش هماهنگ باشد. ممکن است ساده به نظر برسد اما تعیین معیارهای کوتاه‌مدت ازلحاظ پیش‌گویی و قضاوت بهتر از معیارهای طولانی‌مدتی است که عواقب سختی در پی دارند. بااین‌حال بسیاری از شرکت‌ها اشتباه می‌کنند و این را با یک «معیار ارزیابی کلی» (OEC) هم‌سطح می‌بینند که در نهایت به بحث‌ها و هم‌اندیشی‌های بزرگ داخلی کشیده می‌شود.

رسیدن به یک معیار ارزیابی مناسب نیازمند همکاری بین مدیران ارشدی است که با درک استراتژی و تجزیه‌و‌تحلیل داده‌ها سعی بر کشف معیارها و تعادل میان آن‌ها دارند. البته اجرای OEC یک‌بار برای همیشه کافی نیست و بهتر است حداقل سالی یک‌بار انجام بشود. همان‌طور که آزمایش‌ها و تجارب بینگ نشان می‌دهند، رسیدن به OEC کار ساده‌ای نیست. این اهداف مهم و بلندمدت موجب افزایش نیازهای موتور جست‌و‌جو و درآمد حاصل از تبلیغات در آن می‌شود. جالب اینجاست که کاهش ارتباط نتایج جست‌و‌جو با موضوع جست‌و‌جو شده توسط کاربران، آن‌ها را وادار به جست‌و‌جوی بیشتر می‌کند که این خود موجب افزایش میزان جست‌و‌جوها و کلیک بیشتر روی تبلیغات و نهایتاً افزایش درآمد می‌شود.

واضح است که این دستاوردها عمر کوتاهی خواهند داشت، چرا‌که با این ترفندها کاربران به دلیل تأخیر در رسیدن به نتیجه مناسب این موتور جست‌وجو را ناکارآمد می‌بینند و تصمیم به استفاده از موتور جست‌وجوی دیگری می‌گیرند. بنابراین کدام معیار کوتاه‌مدت می‌تواند میزان جست‌و‌جو و درآمد حاصل از آن و درنتیجه بهبودهای طولانی‌مدت را پیش‌بینی کند؟

یکی دیگر از موارد مهم تجزیه‌وتحلیل اجزای یک OEC و دنبال کردن آن‌ها است. چراکه معمولاً از این طریق می‌توان به چرایی موفقیت‌آمیز بودن ایده‌ها پی برد. برای مثال اگر تعداد کلیک‌های OEC مفید و قابل‌قبول باشند، اندازه‌گیری و پیدا کردن بخش‌های مختلف صفحه که روی آن کلیک شده کار سختی است. به معیارهای سخت‌گیرانه مختلف نگاه کنید، دلیل سخت‌گیرانه بودن این معیارها کمک به گروه برای کشف اطلاعاتی راجع به این است که آیا آزمایش‌ها بر فضای دیگری تأثیرات غیرمنتظره‌ای دارند یا خیر؟

از داده‌های با کیفیت پایین استفاده نکنید

اگر مردم نسبت به نتایج آزمایش بی‌اعتماد باشند، میزان خوب یا بد بودن معیارهای ارزیابی‌تان هم اهمیتی ندارد. گرفتن امتیاز آسان است، اما گرفتن امتیازی که واقعی و مورد اعتماد باشد کار سختی است. باید زمان و منابعی را هم به ارزیابی سیستم آزمایشی اختصاص دهید. یکی از روش‌های اجرای دقیق آزمایش A/B این است که بعضی چیزها را دوباره خودتان تست کنید و مطمئن شوید که حدود 99.5% از مواقع سیستم هیچ تفاوت آماری قابل‌توجهی را نمی‌شناسد. این رویکرد به مایکروسافت کمک کرد که صدها آزمایش نامعتبر و برنامه کاربردی نامناسب را تشخیص بدهد.

ما یاد گرفته‌ایم که بهترین دانشمندان داده شکاک و بدبین هستند و قانون «Twyman» که می‌گوید: «هر حالتی که جالب یا متفاوت به نظر برسد اشتباه است» را دنبال می‌کنند. نتایج شگفت‌انگیز باید تکرار شوند تا مطمئن شویم که معتبرند و تردید مردم را از بین می‌برند.

برای مثال شرکت بینگ در سال 2013 مجموعه‌ای از آزمایش‌ها را اجرا کرد که با رنگ‌ها و متن‌های مختلفی بر روی صفحه نتایج جست‌و‌جو در بخش‌هایی از قبیل عناوین، لینک‌ها و توضیحات ظاهر می‌شدند. تغییرات رنگ با ظرافت و دقت بالایی انجام شده بود و برخلاف چیزی که انتظار می‌رفت نتایج مثبتی در پی داشت. این تغییرات نشان دادند کاربرانی که عناوین را به رنگ‌های سبز و آبی کمی تیره‌تر دیده بودند و توضیحات برایشان به رنگ سیاه کمی روشن نشان داده شده بود، در یک بازه زمانی نسبت به دیگران در جست‌و‌جویشان موفق‌تر بودند و سریع‌تر به نتیجه دلخواهشان رسیدند.

از آنجا که تغییر رنگ‌ها به‌سختی قابل تشخیص و درک است، نتایج توسط افراد و متخصصان رشته‌های مختلف ازجمله کارشناسان طراحی با شک و شبهه زیادی دیده شده بود. (مایکروسافت هم سالیان سال مثل شرکت‌های دیگر برای تعیین طراحی‌ها و رنگ‌های استاندارد به‌جای استفاده از کاربران واقعی از طراحان ماهر استفاده کرد.) بنابراین آزمایش در سطح بزرگ‌تری و با 32 میلیون کاربر تکرار شد و نتایجی مشابه با نتایج آزمایش اول دریافت کرد. تجزیه‌و‌تحلیل نتایج اجرای تغییرات برای همه کاربران نشان داد که تغییر رنگ می‌تواند درآمد را تا رقمی برابر با سالانه 10 میلیون دلار تغییر دهد.

نتیجه‌گیری

اگر می‌خواهید نتایج آزمایش‌هایتان قابل‌اعتماد باشد باید اطمینان داشته باشید که از داده‌هایی با کیفیت بالا استفاده می‌کنید. شاید لازم باشد که داده‌های نامناسب و بی‌کیفیت را حذف کنید، خطاها را شناسایی کنید یا ... . برای انجام این کارها می‌توانید از ربات‌های اینترنتی استفاده کنید. در بینگ بیشتر از 50% درخواست‌ها توسط ربات‌ها ارسال می‌شود.

مدیران باید حواسشان باشد که برخی از بخش‌ها تأثیرات بیشتر یا کمتری بر هر آزمایش دارند، به این پدیده آماری «heterogeneous treatment effects» می‌گویند. در بعضی از موارد یک بخش خوب یا بد می‌تواند آن‌قدر بر نتایج آزمایش اثر بگذارد و آن را منحرف کند که نتیجه کلی به‌طور کامل فراموش شود. این اتفاق در یکی از آزمایش‌های مایکروسافت هم افتاد؛ وقتی‌که کاربران اینترنت اکسپلورر 7 به خاطر یک خطای جاوا اسکریپت نمی‌توانستند روی نتایج جست‌و‌جوی بینگ کلیک کنند و نتیجه کلی آزمایش که در صورت عدم وجود این مشکل مثبت بود منفی شمرده شد. پلتفرم یک آزمایش باید این بخش‌های غیرعادی را شناسایی کند، در غیر این صورت ممکن است آزمایش‌کنندگان با در نظر گرفتن میانگین تأثیرات یک ایده خوب را بد تلقی کنند و آن را از دست بدهند.

ممکن است در صورت استفاده از روش‌های کنترل و درمان یک آزمایش در آزمایش‌های دیگر، نتایج شکل جانب‌دارانه‌ای به خود بگیرند. این تمرین به «تأثیرات انتقال به صفحه بعد» (carryover effects) ختم می‌شود که بر اساس آن، رفتار آینده تجربه مردم در یک آزمایش تغییر خواهد کرد. شرکت‌ها برای جلوگیری از این پدیده باید کاربران آزمایش‌های مختلف را باهم مخلوط کنند و همیشه از مجموعه کاربران خاصی استفاده نکنند.

باورهای غلط مدیران

بعضی از مدیران اعتقاد اشتباهی دارند که می‌گوید تمام کاری که باید انجام دهند فقط ایجاد پایداری و همبستگی است.

واضح است که مطالعات شهودی و تحقیق نمی‌تواند علیت را مشخص کند. این مسئله در رشته پزشکی به‌خوبی شناخته شده است. به همین دلیل است که اداره غذا و داروی ایالات‌متحده آمریکا می‌گوید که شرکت‌ها برای اثبات ایمن و مؤثر بودن داروهایشان تحت آزمایش‌های تصادفی بالینی قرار بگیرند. این آزمایش‌ها شامل متغیرهای زیادی می‌شوند که درک علیت را سخت‌تر می‌کنند. با انجام این قبیل آزمایش‌ها تفکیک نتایج و تفسیر آن‌ها کار سختی نیست. به‌صورت ایدئال یک آزمایش باید آن‌قدر ساده باشد که روابط بین علت و معلول به‌راحتی قابل درک کردن باشند. یکی دیگر از عیب‌های طراحی‌های پیچیده این است که آزمایش‌ها را در مقابل اشکالات آسیب‌پذیرتر می‌کنند. اگر احتمال به وجود آمدن مشکل جدی در هر ویژگی جدید به 10% برسد (که منجر به ناتمام گذاشتن آن تست می‌شود)، احتمال ایجاد مشکلات خطرناک و مهلک برای تغییراتی که 7 ویژگی را در بر دارد، به 50% می‌رسد.

آیا می‌توانید یکی از علت‌های دیگر را تشخیص دهید اما دلیلش را نمی‌دانید؟ آیا باید سعی کنید که مکانیسم علت را درک کنید؟ کوتاه‌ترین جواب برای این سؤالات بله است.

بین سال‌های 1500 تا 1800، حدود 2 میلیون ملوان به خاطر بیماری اسکوروی جان خود را از دست دادند. حالا ما می‌دانیم که اسکوروی یک معلول برای علت عدم وجود ویتامین سی در رژیم غذایی است که ملوان‌ها با عدم مصرف میوه در سفرهای طولانی‌مدتشان آن را آزمایش کردند.

دکتر جیمز لیند؛ جراح نیروی دریایی سلطنتی در سال 1747 تصمیم گرفت که برای آزمایش شش روش درمانی احتمالی یک آزمایش انجام دهد. در یک سفر دریایی به بعضی از ملوان‌ها تعدادی لیمو و پرتقال داد و به بقیه ملوان‌ها هم داروهایی مشابه سرکه. آزمایش نشان داد که مرکبات می‌توانند از ابتلا به بیماری اسکوروی جلوگیری کنند، این در حالی بود که هنوز هیچ‌کس علتش را نمی‌دانست.

دکتر لیند طبق یک باور اشتباه معتقد بود که اسیدیته و ترشی میوه‌ها علت درمان اسکوروی بودند و تلاش کرد که با گرم کردن آب مرکبات و افزایش غلظتشان (که باعث از بین رفتن ویتامین سی می‌شود)، یک داروی فاسد نشدنی بسازد. این مسئله تا 50 سال بعد بیشتر طول نکشید، وقتی‌که آب‌لیموهای حرارت ندیده به جیره غذایی روزانه ملوان‌ها اضافه شده بود و نهایتاً نیروی دریایی سلطنتی موفق شد اسکوروی را از میان کارکنان کشتی ریشه‌کن کند. اگر دکتر لیند آزمایشش را به‌صورت کنترل‌شده هم با آب‌لیموی حرارت دیده و هم آب‌لیموی حرارت ندیده انجام می‌داد، احتمالاً داروها می‌توانستند زودتر از این ساخته شوند و جان افراد زیادی را نجات دهند.

نتیجه‌گیری از آزمایش دکتر لیند

بنابراین باید یادآوری کنیم که همیشه نباید به دنبال این باشید که چرا و چگونه از چه دانشی استفاده کنید. اما وقتی‌که پای کاربران و انگیزه‌های آن‌ها در میان باشد این قاعده سخت‌تر می‌شود. کاربرانی که ممکن است انگیزه‌هایشان از تصمیم‌هایشان متفاوت باشد. در بینگ بعضی از بزرگ‌ترین پیشرفت‌های غیرمنتظره بدون وجود هیچ نظریه اصولی و اساسی ساخته شده بود.

دنیای آنلاین اغلب به‌عنوان فضایی پرتلاطم و پرخطر نشان داده می‌شود اما آزمایش‌های کنترل‌شده می‌توانند در هدایت آن به ما کمک کنند. وقتی‌که جواب‌ها واضح و روشن نیستند، یا مردم نظرات متفاوت و متضادی دارند، یا اینکه درباره ارزش یک ایده مطمئن نیستند، این آزمایش‌ها می‌توانند ما را در مسیر درستی قرار دهند.

چندین سال پیش بینگ در حال بحث و بررسی پیرامون ساخت آگهی‌های بزرگ‌تری بود که تبلیغاتچیان بتوانند لینک‌هایی را به صفحات فرود (landing pages) ویژه‌شان اضافه کنند. برای مثال یک شرکت حسابداری می‌تواند به‌جای اینکه همه‌چیز را در صفحه اصلی قرار دهد، کاربران را به لینک‌هایی مثل «درباره ما» و «قیمت خدمات» هدایت کند. اشکالی که وجود داشت این بود که آگهی‌ها و تبلیغات بزرگ‌تر فضای بیشتری از صفحه‌نمایش را اشغال می‌کنند و موارد بیشتری را نشان می‌دهند. موارد شناخته‌شده‌ای که موجب افزایش نارضایتی کاربران می‌شوند.

مردم فرض را بر این می‌گذارند که این ایده جدا بوده است. بنابراین گروه بینگ در عین اینکه فضای اختصاص داده‌شده به محتوای آگهی‌ها از کل صفحه را حفظ می‌کرد، با افزایش اندازه آگهی‌ها آزمایش را انجام داد و همین مسئله باعث شد که تعداد کمی از آن‌ها نمایش داده شوند. در نهایت نتیجه آزمایش نشان داد که نمایش آگهی‌های کمتر اما بزرگ‌تر منجر به بهبود بیشتر می‌شود. بهبودی شامل افزایش درآمد سالانه تا بیش از 50 میلیون دلار، آن‌هم بدون آسیب رساندن به جنبه‌های کلیدی تجربه کاربر.

اگر می‌خواهید ارزش واقعی یک آزمایش را بفهمید، به تفاوت‌های بین نتایج مورد انتظار و نتایج واقعی آن نگاه کنید. اگر انتظار داشتید اتفاقی بیفتد و آن اتفاق افتاده است، پس چیز زیادی یاد نگرفته‌اید. اگر انتظار داشتید اتفاق‌هایی بیفتد و نیفتاده‌اند، می‌شود به این برداشت رسید که چیزهای مهمی یاد گرفته‌اید. اما اگر انتظار داشتید یک اتفاق جزئی بیفتد و نتایج شگفت‌انگیز بودند و منجر به موفقیتی بزرگ شده‌اند، چیزهای خیلی مهم و با ارزشی یاد گرفته‌اید.

اگر مطلب بالا برای شما مفید بوده است، شاید این آموزش‌ها نیز برای‌تان کاربردی باشند.

محصول، خدمات یا برند خود را در مجله فرادرس معرفی کنید.

کلیک کنید

بر اساس رای ۱ نفر

آیا این مطلب برای شما مفید بود؟

اگر پرسشی درباره این مطلب دارید، آن را با ما مطرح کنید.

ثبت نظر

منابع:

HBR