عمومی، فناوری، کاربردی ۴۳۱ بازدید

جستجوی گوگل یا جستجو کردن در گوگل، کاری است که ما هر روز انجام می‌دهیم؛ در اصل نام گوگل مترادف با جستجوی اینترنتی است. صفحه نخست این وبسایت دروازه ورود به نقاط دور و نزدیک اینترنت شده است. خالی بودن بخش اعظم صفحه نیز به‌هیچ‌عنوان اتفاقی نیست؛ بلکه به معنای آن است که قرار است صفحه سفیدی باشد که منتظر است محتوایش را بر اساس آنچه شما در جستجویش هستید، پر کند.

گوگل به‌ خوبی عظمت دنیای مجازی را درک کرده و می‌داند این دنیا نیز با سرعتی به‌ اندازه انبساط خود کیهان در حال گسترش است. اما مشکل اینجاست همان‌طور که هیچ‌کس قادر نیست نقشه دقیق و قاطعانه‌ای از کیهان ارائه دهد، هیچ‌کس هم نمی‌تواند به دلیل ماهیت پویا و پیوسته در حال تغییر فضای مجازی، نقشه‌ای از این دنیا را تهیه کند. اما خوشبختانه در فضای مجازی، گوگل را داریم تا با استفاده از چند فناوری هوشمندانه و چند حقه کارگشا، به ما کمک کند راه‌مان را در دنیای شلوغ اینترنت پیدا کنیم.

نکته واقعاً هوشمندانه درباره عملکرد جستجوی گوگل این است که وقتی بیشتر ما از آن استفاده می‌کنیم، گمان می‌بریم در حال جستجوی خود اینترنت هستیم. اما واقعیت این است که ما مشغول جستجو در «فهرست گوگل» (Google’s index) از اینترنت هستیم. گوگل با هر نقطه منفردی در گوشه‌ کنار اینترنت ارتباط ندارد، بلکه این فهرست‌بندی گوگل از فضای درهم‌ و برهم اینترنت است که به نحو تأثیرگذاری، عالی و بی‌نظیر است. در حقیقت، این فهرست‌ها جزو بزرگ‌ترین پایگاه‌های داده موجود به شمار می‌روند. چیزی که از آن سخن می‌گوییم، میلیاردها صفحه اینترنتی است که در هزاران دستگاه در سراسر دنیا ذخیره شده است.

فهرست گوگل چگونه تهیه می‌شود؟

اما گوگل چطور این فهرست را تهیه می‌کند و چگونه آن را با نتایج دقیق و بامعنی پر می‌کند که می‌تواند برای کاربران مفید باشد؟ حتی گوگل نیز بالاخره مجبور است از جایی شروع کند؛ به همین دلیل است که از برنامه‌های نرم‌افزاری موسوم به «عنکبوت» (spider/اسپایدر) استفاده می‌کند، که گاه نیز با عنوان «خزنده» (crawler/کراولر) یا روبات گوگل (Googlebot) شناخته می‌شوند.

خزنده جستجوی گوگل

این خزنده‌های مفید کوچک، ابتدا به منطقی‌ترین نقاط شبکه اینترنت اعزام می‌شوند. برای مثال اگر واژه‌ای مثل “Marmite” را جستجو کنید، احتمالاً نخستین صفحه‌ای که عنکبوت گوگل برای گردآوری نتایج جستجوی شما به آن سرک می‌کشد، نشانی www.marmite.com خواهد بود که کار خارق‌العاده‌ای محسوب نمی‌شود. این مرحله نخست از جستجوی تارنماها به‌ عنوان مرحله «دانه‌بندی» (seed level) شناخته می‌شود.

پس از مرحله دانه‌بندی، نوبت به ایجاد «شاخ و برگ» (branch out) می‌رسد. عنکبوت‌ها خزیدنشان را گسترش می‌دهند و با دنبال کردن پیوندهای موجود در نخستین صفحاتی که پیدا کرده‌اند، شروع به بافتن شبکه‌ای از تارنماهای به‌هم مرتبط می‌کنند که از نظر محتوا با هم اشتراک دارند. عنکبوت الگویی از صفحات مرتبط به صفحات دیگر می‌سازد، که به شکل بازگشتی (recursive) باید دوباره بازدید شده تا اطمینان حاصل شود کماکان محتوای مربوط به جستجوی اول را در خود دارند.

بازبینی صفحات بر اساس «سیاست‌های» تکرار و کثرت وقوع انجام می‌شود که روی سرورهای گوگل وجود دارند و توسط نرم‌افزار انتخاب می‌شوند. اما نباید فراموش کرد که اینترنت به حدی گسترده و تغییرپذیر است که هیچ عنکبوتی قادر نیست همه اطلاعات آن بیرون را جمع‌آوری کند.

شرح فرآیند جستجوی گوگل با یک مثال

اجازه بدهید با یک مثال پیش برویم. فرض کنیم شما در جستجوی «ساندویچ همبرگر تنوری» هستید. این سه کلمه را تایپ کرده و کلید جستجو را فشار می‌دهید. سپس نرم‌افزار پردازش جستجوی گوگل مشغول پالایش فهرست‌های خود می‌شود تا تعیین کند کدام پیوندها را به شما نشان دهد.

اما چند لحظه صبر کنید، چه چیز مانع از این می‌شود نتایج مربوط به فرایند ساخت همبرگر، تبلیغات تنورهای خانگی یا نشانی شعبات ساندویچی شیلا نشان داده نشود؟ خب، واقعیت این است که گوگل از خودش سؤال می‌کند؛ در واقع بیش از 200 پرسش را با خودش مطرح می‌کند. در اصل می‌توان گفت، گوگل اندکی هوش مصنوعی (artificial intelligence) خرج می‌کند، چرا که تلاش می‌کند با به کار بردن منطق انسانی از میان بی‌شمار اطلاعات خامی که هیچ ربطی به جستجوی شما ندارند، عبور کند.

برای تصمیم‌گیری در خصوص اینکه کدام تارنماهای «ساندویچ همبرگر تنوری» را به ما نشان دهد، گوگل از خودش سؤال می‌کند که آیا این کلمات در عنوان تارنما یا نشانی اینترنتی آن (URL) آمده است؟ گوگل همچنین می‌پرسد چند بار این کلمات به ترتیب صحیح در هر تارنمای دلخواهی تکرار شده‌اند. آیا تارنمای مذکور حاوی کلمات مترادفی برای «ساندویچ همبرگر تنوری» مثل «برگر گریل» نیز می‌شود؟ شاید بحث درباره نحوه توصیف چیزی مثل ساندویچ همبرگر تنوری مسخره به نظر بیاید، اما برای افرادی که مرکز داده گوگل را اداره می‌کنند، کاملاً جدی و منطقی است.

علاوه بر بررسی کیفیت محتوا یا کیفیت پایین طراحی، گوگل وجود ویروس، بدافزار (malware) و هرزنامه‌ها (spam/اسپم) را نیز بررسی می‌کند. سپس پردازش جستجوی ما شروع به دسته‌بندی صفحات بر اساس «رتبه صفحه» (page rank) می‌کند که بر مبنای امتیازدهی فرمول‌بندی شده‌ای تعیین می‌شود که توسط خود گوگل محاسباتش صورت پذیرفته است. این رتبه با تجزیه‌ و تحلیل میزان اشاره صفحات خارجی به یک تارنمای مشخص، یا ارجاع دادن (cite) آن به‌عنوان یک مرجع و صاحب‌نظر درباره موضوع تعیین می‌شود. تمام این کارها در مدت‌زمانی حدود نیم‌ثانیه انجام می‌شوند و سپس عبارت جستجوی شده شما تقریباً بی‌درنگ (بسته به‌سرعت ارتباط اینترنتی‌تان) به شما بازگشت داده می‌شود.

اگر این مطلب برای شما مفید بوده است، آموزش‌های زیر نیز به شما پیشنهاد می‌شوند:

^^

بر اساس رای ۳ نفر
آیا این مطلب برای شما مفید بود؟
شما قبلا رای داده‌اید!
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

«محمود حاج‌زمان»، متولد ۱۳۶۲ در تهران است. رشته‌ تحصیلی او مهندسی عمران است و تحصیلاتش را تا مقطع دکترا در دانشگاه صنعتی شریف گذرانده است. او از سال ۱۳۸۸ به‌طور حرفه‌ای وارد دنیای روزنامه‌نگاری علم شد و فعالیتش را با آغاز دور جدید انتشار مجله‌ دانستنیها پیوند زد. حاج‌زمان، علاوه بر نویسندگی برای مجله‌ دانستنیها و صفحات علمی خبرگزاری‌ها، کتاب‌های متنوعی را در حوزه‌ ترویج علم ترجمه و تألیف کرده است که از میان آن‌ها می‌توان مجموعه‌ سه‌جلدی به من بگو چرا (انتشارات علمی‌فرهنگی)، دایره‌المعارف مصور بدن شگفت‌انگیز ما (نشر سایان)، دانشنامه‌ دانستنیها (نشر شهر) و چندین جلد از مجموعه کتاب‌های در چند دقیقه (نشر شهر) را نام برد.

نظر شما چیست؟

نشانی ایمیل شما منتشر نخواهد شد.

مشاهده بیشتر