Komputer, Pengaturcaraan

Apa yang crawler? alat crawler "Yandex" dan Google

Setiap hari di Internet terdapat sejumlah besar bahan-bahan baru untuk membuat laman web dikemaskini halaman web lama, memuat naik foto dan video. Tanpa tersembunyi dari enjin carian tidak dapat ditemui dalam World Wide Web, tiada dokumen ini. Alternatif seperti program robotik pada bila-bila masa tidak wujud. Apakah yang dimaksudkan dengan carian robot, mengapa anda memerlukannya dan bagaimana untuk mengendalikan?

Apakah yang dimaksudkan dengan carian robot

Laman web crawler (enjin carian) - ia adalah satu program automatik yang mampu untuk melawat berjuta-juta laman web, dengan cepat mengemudi melalui internet tanpa sebarang campur tangan operator. Bots sentiasa ruang imbasan daripada World Wide Web, mencari laman web baru dan kerap lawati telah diindeks. Nama lain untuk crawler web labah-labah, crawler, bots.

Mengapa carian labah-labah enjin

Fungsi utama yang melaksanakan labah-labah enjin carian - laman web diindeks, serta teks, imej, audio dan fail video yang pada mereka. Bots memeriksa rujukan, laman cermin (salinan) dan kemas kini. Robot juga melaksanakan kawalan HTML-kod untuk taraf Pematuhan Pertubuhan Dunia, yang membangun dan melaksanakan standard teknologi bagi World Wide Web.

Apa yang pengindeksan, dan mengapa ia diperlukan

Pengindeksan - adalah, sebenarnya, adalah proses melawat halaman web tertentu oleh enjin carian. Program ini mengimbas teks di laman web ini, imej, video, link keluar, maka halaman muncul dalam hasil carian. Dalam beberapa kes, laman web ini tidak boleh diimbas secara automatik, maka ia boleh ditambah kepada enjin carian secara manual webmaster. Biasanya, ini berlaku dalam ketiadaan pautan luar untuk tertentu (selalunya hanya baru-baru diwujudkan) halaman.

Bagaimana mencari labah-labah enjin

Setiap enjin carian mempunyai bot sendiri dengan robot carian Google boleh berbeza dengan ketara mengikut mekanisme yang berfungsi pada program yang sama, "Yandex" atau sistem lain.

Secara umum, prinsip kerja robot adalah seperti berikut: program "datang" di laman web ini dan pautan luar dari laman utama, "membaca" sumber Web (termasuk yang overhead mencari yang tidak melihat pengguna). Boat adalah bagaimana untuk mengemudi antara muka surat laman web dan bergerak kepada orang lain.

Program ini akan memilih lokasi untuk indeks? Lebih sering daripada tidak "tersandung" labah-labah yang bermula dengan laman berita atau direktori sumber utama dan agregator dengan berat badan rujukan besar. Crawler terus mengimbas halaman satu demi satu, ke atas kadar dan ketekalan mengindeks faktor-faktor berikut:

Dalaman: perelinovka (pautan dalaman antara halaman sumber yang sama), saiz lokasi, kod yang betul, mesra pengguna dan sebagainya;
Luar: jumlah berat rujukan, yang membawa kepada laman web ini.

Perkara pertama carian carian robot di mana-mana laman web dengan robots.txt. pengindeksan sumber selanjutnya dilaksanakan berdasarkan maklumat yang diterima adalah daripada dokumen ini. Fail ini mengandungi arahan khusus untuk "labah-labah" yang boleh meningkatkan peluang lawatan halaman oleh enjin carian, dan, akibatnya, untuk mencapai laman web hit awal dalam "Yandex" atau Google.

Program analog crawler

Selalunya istilah "carian robot" adalah keliru dengan bijak, pengguna atau ejen autonomi, "semut" atau "cacing". Tenggelam perbezaan yang signifikan hanya dalam perbandingan dengan ejen-ejen, definisi lain merujuk kepada jenis yang sama robot.

Sebagai contoh, ejen boleh:

intelektual: program, yang berpindah dari satu tempat ke tempat, bebas membuat keputusan bagaimana untuk meneruskan; mereka tidak begitu biasa di Internet;
Autonomi: Ejen-ejen ini membantu pengguna dalam memilih produk, mencari, atau mengisi borang, penapis yang dipanggil, yang sedikit yang berkaitan dengan program rangkaian;.
pengguna: program yang menyumbang kepada interaksi pengguna dengan World Wide Web, pelayar (sebagai contoh, Opera, IE, Google Chrome, Firefox), Rasul-rasul (Viber, Telegram) atau program e-mel (MS Outlook dan Qualcomm).

"Semut" dan "cacing" adalah lebih serupa dengan enjin carian "labah-labah". Bentuk pertama antara rangkaian dan konsisten berinteraksi seperti koloni semut ini, "cacing" adalah dapat meniru dalam hal-hal lain yang sama seperti crawler standard.

Pelbagai robot enjin carian

Membezakan antara pelbagai jenis crawler. Bergantung kepada tujuan program ini, mereka adalah:

"Mirror" - Pendua sedang melayari laman web.
Mobile - tumpuan kepada versi mudah alih laman web.
Cepat - menetapkan maklumat baru dengan cepat dengan melihat maklumat terkini.
Rujukan - indeks rujukan, mengira jumlah mereka.
Indexers pelbagai jenis kandungan - program khusus untuk teks, audio, video, gambar.
"Spyware" - mencari halaman yang belum dipaparkan dalam enjin carian.
"Woodpecker" - secara berkala melawat tapak untuk memeriksa kesesuaian dan kecekapan mereka.
Negara - melayari sumber Web yang terletak di salah satu daripada domain negara (contohnya, .com, atau .kz .ua).
Global - indeks semua laman negara.

Robot enjin carian utama

Terdapat juga beberapa labah-labah enjin carian. Dalam teori, fungsi mereka boleh berbeza-beza secara meluas, tetapi dalam amalan program adalah hampir sama. Perbezaan utama mengindeks laman web robot enjin carian utama adalah seperti berikut:

Mengetatkan ujian. Adalah dipercayai bahawa mekanisme crawler "Yandex" anggaran agak ketat tapak untuk pematuhan dengan piawaian World Wide Web.
Pemeliharaan integriti laman web ini. Indeks crawler Google keseluruhan laman web ini (termasuk kandungan media), "Yandex" boleh juga melihat kandungan terpilih.
ujian kelajuan halaman baru. Google menambah sumber baru dalam hasil carian dalam beberapa hari, dalam kes "oleh Yandex" proses mungkin mengambil masa dua minggu atau lebih.
Kekerapan semula pengindeksan. Crawler "Yandex" menyemak kemas kini dua kali seminggu, dan Google - satu setiap 14 hari.

Internet, sudah tentu, tidak terhad kepada enjin carian dua. enjin carian yang lain mempunyai robot mereka yang mengikuti parameter pengindeksan mereka sendiri. Di samping itu, terdapat beberapa "labah-labah" yang direka sumber carian tidak utama, dan pasukan individu atau webmaster.

salah faham biasa

Bertentangan dengan kepercayaan popular, "labah-labah" tidak memproses maklumat. Program ini hanya mengimbas dan menyimpan halaman web dan proses selanjutnya mengambil robot yang sama sekali berbeza.

Juga, ramai pengguna percaya bahawa labah-labah enjin carian mempunyai kesan negatif dan "berbahaya" Internet. Malah, beberapa versi "labah-labah" ketara boleh melebihi muatan pelayan. Terdapat juga faktor manusia - webmaster, yang mencipta program ini, boleh membuat kesilapan dalam konfigurasi robot. Namun kebanyakan program sedia ada yang direka dengan baik dan diuruskan secara profesional, dan apa-apa masalah yang timbul dengan segera dikeluarkan.

Bagaimana untuk menguruskan pengindeksan

robot enjin carian adalah program automatik, tetapi proses pengindeksan boleh sebahagiannya dikawal oleh webmaster. Ini amat membantu luaran dan pengoptimuman dalaman sumber. Selain itu, anda secara manual boleh menambah tapak baru untuk enjin carian: sumber yang besar mempunyai bentuk khas halaman Web pendaftaran.

Komputer, Pengaturcaraan

Apa yang crawler? alat crawler "Yandex" dan Google

Apakah yang dimaksudkan dengan carian robot

Mengapa carian labah-labah enjin

Apa yang pengindeksan, dan mengapa ia diperlukan

Bagaimana mencari labah-labah enjin

Program analog crawler

Pelbagai robot enjin carian

Robot enjin carian utama

salah faham biasa

Bagaimana untuk menguruskan pengindeksan

Similar articles

Komputer

Komputer

Komputer

Komputer

Komputer

Komputer

Trending Now

Kesihatan

Komputer

Perjalanan

Kesihatan

Komputer

Hubungan

Newest

Kesederhanaan

Seni dan Hiburan

Kesihatan

Berita dan Masyarakat

Kesihatan

Komputer