Intermezzo

Cara Kerja Mesin Pencari Internet

Kabar baik tentang Internet dan komponennya yang paling terlihat, World Wide Web, adalah bahwa ada ratusan juta halaman yang tersedia, menunggu untuk menyajikan informasi tentang berbagai topik yang menakjubkan. Berita buruk tentang Internet adalah bahwa ada ratusan juta halaman yang tersedia, kebanyakan dari mereka diberi judul sesuai keinginan penulisnya, hampir semuanya duduk di server dengan nama yang samar. Ketika Anda perlu tahu tentang subjek tertentu, bagaimana Anda tahu halaman mana yang harus dibaca? Jika Anda seperti kebanyakan orang, Anda mengunjungi mesin pencari Internet .

Mesin pencari internet adalah situs khusus di Web yang dirancang untuk membantu orang menemukan informasi yang disimpan di situs lain. Ada perbedaan cara kerja berbagai mesin pencari, tetapi mereka semua melakukan tiga tugas dasar:

Mereka mencari di Internet — atau memilih bagian dari Internet — berdasarkan kata-kata penting.
Mereka menyimpan indeks kata-kata yang mereka temukan, dan di mana mereka menemukannya.
Mereka memungkinkan pengguna untuk mencari kata atau kombinasi kata yang ditemukan dalam indeks itu.

Mesin pencari awal mengadakan indeks beberapa ratus ribu halaman dan dokumen, dan menerima mungkin satu atau dua ribu pertanyaan setiap hari. Saat ini, mesin pencari teratas akan mengindeks ratusan juta halaman, dan menanggapi puluhan juta kueri per hari. Dalam artikel ini, kami akan memberi tahu Anda bagaimana tugas-tugas utama ini dilakukan, dan bagaimana mesin pencari Internet menyatukan bagian-bagiannya agar Anda dapat menemukan informasi yang Anda butuhkan di Web.

Perayapan Web

“Laba-laba” mengambil konten halaman Web dan membuat kata kunci pencarian yang memungkinkan pengguna online menemukan halaman yang mereka cari.

Ketika kebanyakan orang berbicara tentang mesin pencari Internet, yang mereka maksud adalah mesin pencari World Wide Web. Sebelum Web menjadi bagian Internet yang paling terlihat, sudah ada mesin pencari untuk membantu orang menemukan informasi di Internet. Program dengan nama seperti “gopher” dan “Archie” menyimpan indeks file yang disimpan di server yang terhubung ke Internet , dan secara dramatis mengurangi jumlah waktu yang diperlukan untuk menemukan program dan dokumen. Pada akhir 1980-an, mendapatkan nilai serius dari Internet berarti mengetahui cara menggunakan gopher, Archie, Veronica, dan lainnya.

Saat ini, sebagian besar pengguna Internet membatasi pencarian mereka ke Web, jadi kami akan membatasi artikel ini untuk mesin pencari yang berfokus pada konten halaman Web .

Sebelum mesin pencari dapat memberi tahu Anda di mana file atau dokumen berada, itu harus ditemukan. Untuk menemukan informasi tentang ratusan juta halaman Web yang ada, mesin pencari menggunakan robot perangkat lunak khusus, yang disebut spider , untuk membuat daftar kata-kata yang ditemukan di situs Web. Saat laba-laba membuat daftarnya, prosesnya disebut perayapan Web . (Ada beberapa kerugian untuk menyebut bagian dari Internet sebagai World Wide Web — satu set besar nama alat yang berpusat pada arakhnida adalah salah satunya.) Untuk membangun dan memelihara daftar kata yang berguna, spider mesin pencari telah untuk melihat banyak halaman.

Bagaimana laba-laba memulai perjalanannya melalui Web? Titik awal yang biasa adalah daftar server yang sering digunakan dan halaman yang sangat populer. Laba-laba akan mulai dengan situs populer, mengindeks kata-kata di halamannya dan mengikuti setiap tautan yang ditemukan di dalam situs. Dengan cara ini, sistem spidering dengan cepat mulai menyebar, menyebar ke seluruh bagian Web yang paling banyak digunakan.

Google dimulai sebagai mesin pencari akademis. Dalam makalah yang menjelaskan bagaimana sistem itu dibangun, Sergey Brin dan Lawrence Page memberikan contoh seberapa cepat laba-laba mereka dapat bekerja. Mereka membangun sistem awal mereka untuk menggunakan beberapa laba-laba, biasanya tiga laba-laba sekaligus. Setiap laba-laba dapat membuka sekitar 300 koneksi ke halaman Web sekaligus. Pada kinerja puncaknya, menggunakan empat spider, sistem mereka dapat merayapi lebih dari 100 halaman per detik, menghasilkan sekitar 600 kilobyte data setiap detik.

Menjaga semuanya berjalan dengan cepat berarti membangun sistem untuk memberi informasi yang diperlukan kepada laba-laba. Sistem Google awal memiliki server yang didedikasikan untuk menyediakan URL ke laba-laba. Daripada bergantung pada penyedia layanan Internet untuk server nama domain (DNS) yang menerjemahkan nama server menjadi alamat, Google memiliki DNS sendiri, untuk meminimalkan penundaan.

Ketika laba-laba Google melihat halaman HTML , ia mencatat dua hal:

Kata-kata di dalam halaman
Di mana kata-kata itu ditemukan

Kata-kata yang muncul dalam judul, subjudul, tag meta , dan posisi lain yang relatif penting dicatat untuk pertimbangan khusus selama pencarian pengguna berikutnya. Laba-laba Google dibuat untuk mengindeks setiap kata penting pada halaman, meninggalkan artikel “a,” “an” dan “the.” Laba-laba lain mengambil pendekatan yang berbeda.

Pendekatan yang berbeda ini biasanya berusaha untuk membuat laba-laba beroperasi lebih cepat, memungkinkan pengguna untuk mencari lebih efisien, atau keduanya. Misalnya, beberapa laba-laba akan melacak kata-kata dalam judul, sub-judul dan tautan, bersama dengan 100 kata yang paling sering digunakan di halaman dan setiap kata dalam 20 baris pertama teks. Lycos dikatakan menggunakan pendekatan ini untuk menjelajahi Web.

Sistem lain, seperti AltaVista, pergi ke arah lain, mengindeks setiap kata pada halaman, termasuk “a”, “an”, “the” dan kata-kata “tidak penting” lainnya. Dorongan untuk kelengkapan dalam pendekatan ini dicocokkan dengan sistem lain dalam perhatian yang diberikan pada bagian halaman Web yang tidak terlihat, tag meta. Pelajari lebih lanjut tentang tag meta di halaman berikutnya.

Tag Meta

Meta tag memungkinkan pemilik halaman untuk menentukan kata kunci dan konsep di mana halaman akan diindeks. Ini dapat membantu, terutama dalam kasus di mana kata-kata pada halaman mungkin memiliki arti ganda atau tiga kali lipat — tag meta dapat memandu mesin pencari dalam memilih mana dari beberapa kemungkinan arti kata-kata ini yang benar. Namun, ada bahaya dalam ketergantungan yang berlebihan pada tag meta, karena pemilik halaman yang ceroboh atau tidak bermoral mungkin menambahkan tag meta yang sesuai dengan topik yang sangat populer tetapi tidak ada hubungannya dengan konten halaman yang sebenarnya. Untuk melindunginya, spider akan menghubungkan tag meta dengan konten halaman, menolak tag meta yang tidak cocok dengan kata-kata di halaman.

Semua ini mengasumsikan bahwa pemilik halaman benar-benar menginginkannya untuk dimasukkan dalam hasil aktivitas mesin pencari. Sering kali, pemilik halaman tidak ingin halaman itu muncul di mesin pencari utama, atau tidak ingin aktivitas laba-laba mengakses halaman. Pertimbangkan, misalnya, sebuah game yang membuat halaman baru yang aktif setiap kali bagian halaman ditampilkan atau link baru diikuti. Jika laba-laba Web mengakses salah satu halaman ini, dan mulai mengikuti semua tautan untuk halaman baru, permainan bisa salah mengira aktivitas itu sebagai pemain manusia berkecepatan tinggi dan lepas kendali. Untuk menghindari situasi seperti ini, protokol pengecualian robotDikembangkan. Protokol ini, diimplementasikan di bagian meta-tag di awal halaman Web, memberi tahu laba-laba untuk meninggalkan halaman itu sendiri — untuk tidak mengindeks kata-kata di halaman atau mencoba mengikuti tautannya.

Membangun Indeks

Setelah laba-laba menyelesaikan tugas mencari informasi di halaman Web (dan kita harus mencatat bahwa ini adalah tugas yang tidak pernah benar-benar selesai — sifat Web yang terus berubah berarti laba-laba selalu merangkak), mesin pencari harus menyimpan informasi dengan cara yang membuatnya berguna. Ada dua komponen kunci yang terlibat dalam membuat data yang dikumpulkan dapat diakses oleh pengguna:

The informasi yang disimpan dengan data
The metode yang informasi diindeks

Dalam kasus yang paling sederhana, mesin pencari hanya dapat menyimpan kata dan URL tempat kata itu ditemukan. Pada kenyataannya, ini akan menjadi mesin dengan penggunaan terbatas, karena tidak akan ada cara untuk mengetahui apakah kata itu digunakan dengan cara yang penting atau sepele pada halaman, apakah kata itu digunakan sekali atau berkali-kali atau apakah halaman berisi tautan ke halaman lain yang berisi kata tersebut. Dengan kata lain, tidak mungkin membangun daftar peringkat yang mencoba menampilkan halaman yang paling berguna di bagian atas daftar hasil pencarian.

Untuk menghasilkan hasil yang lebih bermanfaat, sebagian besar mesin pencari menyimpan lebih dari sekadar kata dan URL. Mesin mungkin menyimpan berapa kali kata itu muncul di halaman. Mesin mungkin menetapkan bobot untuk setiap entri, dengan peningkatan nilai yang ditetapkan untuk kata-kata saat muncul di dekat bagian atas dokumen, di sub-judul, di tautan, di tag meta atau di judul halaman. Setiap mesin pencari komersial memiliki formula yang berbeda untuk memberikan bobot pada kata-kata dalam indeksnya. Ini adalah salah satu alasan bahwa pencarian kata yang sama pada mesin pencari yang berbeda akan menghasilkan daftar yang berbeda, dengan halaman yang disajikan dalam urutan yang berbeda.

Terlepas dari kombinasi yang tepat dari potongan informasi tambahan yang disimpan oleh mesin pencari, data akan dikodekan untuk menghemat ruang penyimpanan. Misalnya, makalah Google asli menjelaskan penggunaan 2 byte , masing-masing 8 bit , untuk menyimpan informasi tentang pembobotan — apakah kata menggunakan huruf besar, ukuran font, posisi, dan informasi lain untuk membantu menentukan peringkat hit. Setiap faktor mungkin membutuhkan 2 atau 3 bit dalam pengelompokan 2 byte (8 bit = 1 byte). Akibatnya, banyak informasi dapat disimpan dalam bentuk yang sangat ringkas. Setelah informasi dipadatkan, itu siap untuk pengindeksan.

Indeks memiliki satu tujuan: Memungkinkan informasi ditemukan secepat mungkin. Ada beberapa cara untuk membuat indeks, tetapi salah satu cara yang paling efektif adalah dengan membuat tabel hash . Dalam hashing , rumus diterapkan untuk melampirkan nilai numerik untuk setiap kata. Rumus ini dirancang untuk mendistribusikan entri secara merata di sejumlah divisi yang telah ditentukan. Distribusi numerik ini berbeda dari distribusi kata di seluruh alfabet, dan itulah kunci keefektifan tabel hash.

Dalam bahasa Inggris, ada beberapa huruf yang memulai banyak kata, sementara yang lain memulai lebih sedikit. Anda akan menemukan, misalnya, bahwa bagian “M” dari kamus jauh lebih tebal daripada bagian “X”. Ketidaksetaraan ini berarti bahwa menemukan kata yang dimulai dengan huruf yang sangat “populer” bisa memakan waktu lebih lama daripada menemukan kata yang dimulai dengan huruf yang kurang populer. Hashing menyamakan perbedaan, dan mengurangi waktu rata-rata yang diperlukan untuk menemukan entri. Ini juga memisahkan indeks dari entri yang sebenarnya. Tabel hash berisi nomor hash bersama dengan penunjuk ke data aktual, yang dapat diurutkan dengan cara apa pun yang memungkinkannya disimpan paling efisien. Kombinasi pengindeksan yang efisien dan penyimpanan yang efektif memungkinkan untuk mendapatkan hasil dengan cepat, bahkan ketika pengguna membuat pencarian yang rumit.

Membangun Pencarian

Pencarian melalui indeks melibatkan pengguna membangun kueri dan mengirimkannya melalui mesin pencari. Permintaannya bisa sangat sederhana, minimal satu kata. Membangun kueri yang lebih kompleks memerlukan penggunaan operator Boolean yang memungkinkan Anda menyaring dan memperluas istilah pencarian.

Operator Boolean yang paling sering terlihat adalah:

DAN – Semua istilah yang digabungkan dengan “AND” harus muncul di halaman atau dokumen. Beberapa mesin pencari mengganti operator “+” untuk kata DAN.
ATAU – Setidaknya salah satu istilah yang digabungkan dengan “ATAU” harus muncul di halaman atau dokumen.
TIDAK – Istilah atau istilah setelah “TIDAK” tidak boleh muncul di halaman atau dokumen. Beberapa mesin pencari mengganti operator “-” untuk kata TIDAK.
DIIKUTI OLEH – Salah satu istilah harus langsung diikuti oleh yang lain.
DEKAT – Salah satu istilah harus berada dalam jumlah kata tertentu dari yang lain.
Tanda Kutipan – Kata-kata di antara tanda kutip diperlakukan sebagai frasa, dan frasa itu harus ditemukan di dalam dokumen atau file.

Mencari Olahraga

Mesin pencari telah menjadi bagian integral dari kehidupan kita sehingga setidaknya satu permainan terorganisir telah berkembang di sekitar alat ini.

Googlewhacking , Anda mengetik dua kata ke dalam

mesin pencari Google dengan harapan menerima

tepat satu hasil — satu halaman Web di mana kedua kata tersebut muncul.

Ini adalah

pukulan murni .

Ini tugas yang cukup sulit — Anda harus memilih dua kata yang sama sekali tidak berhubungan atau Anda akan mendapatkan lebih dari satu hasil, tetapi dengan banyak kata yang sama sekali tidak berhubungan, Anda mendapatkan hasil nol.

Jika Anda mencapai pukulan murni, Anda dapat mengirimkannya ke

www.googlewhack.com , di mana ia diposting di

The Whack Stack (bersama dengan nama Anda, atau apa pun yang Anda ingin menyebut diri Anda sendiri) untuk dilihat semua orang.

Salah satu pukulan murni saat ini di The Whack Stack adalah ”

scallywags

ambidextrous .”

Pencarian Masa Depan

Pencarian yang ditentukan oleh operator Boolean adalah pencarian literal — mesin mencari kata atau frasa persis seperti yang dimasukkan. Ini bisa menjadi masalah ketika kata-kata yang dimasukkan memiliki banyak arti. “Tempat tidur”, misalnya, bisa menjadi tempat tidur, tempat menanam bunga, tempat penyimpanan truk, atau tempat ikan bertelur. Jika Anda hanya tertarik pada salah satu dari arti ini, Anda mungkin tidak ingin melihat halaman yang menampilkan semua arti lainnya. Anda dapat membangun pencarian literal yang mencoba menghilangkan makna yang tidak diinginkan, tetapi alangkah baiknya jika mesin pencari itu sendiri dapat membantu.

Salah satu bidang penelitian mesin pencari adalah pencarian berbasis konsep . Beberapa penelitian ini melibatkan penggunaan analisis statistik pada halaman yang berisi kata atau frasa yang Anda cari, untuk menemukan halaman lain yang mungkin menarik bagi Anda. Jelas, informasi yang disimpan tentang setiap halaman lebih besar untuk mesin pencari berbasis konsep, dan jauh lebih banyak pemrosesan diperlukan untuk setiap pencarian. Namun, banyak kelompok yang bekerja untuk meningkatkan hasil dan kinerja mesin pencari jenis ini. Yang lain telah pindah ke area penelitian lain, yang disebut pertanyaan bahasa alami.

Gagasan di balik kueri bahasa alami adalah Anda dapat mengetik pertanyaan dengan cara yang sama seperti saat Anda menanyakannya kepada manusia yang duduk di samping Anda — tidak perlu melacak operator Boolean atau struktur kueri yang rumit. Situs kueri bahasa alami yang paling populer saat ini adalah AskJeeves.com , yang mem-parsing kueri untuk kata kunci yang kemudian diterapkan ke indeks situs yang telah dibuatnya. Ini hanya berfungsi dengan kueri sederhana; tetapi persaingan sangat ketat untuk mengembangkan mesin kueri bahasa alami yang dapat menerima kueri dengan kompleksitas tinggi.

Untuk informasi lebih lanjut tentang mesin telusur dan topik terkait, lihat tautan di bawah.

Marshub