pengertian Robot.txt dan cara untuk mengaturnya

Mengenal Robot.txt
The Robot Exclusion Standard, atau sering kita kenal sebagai Robots Exclusion Protocol atau robots.txt protokol, adalah sebuah konvensi untuk mencegah web crawler bekerja sama dengan robot web lain untuk mengakses semua atau bagian dari sebuah website yang jika dilihat secara terbuka.

Ketika situs anda berdomain namadomain.com didaftarkan pada mesin pencari (misal google), maka secara otomatis anda memperbolehkan atau menyuruh robot perayap mesin pencari tersebut untuk mengunjungi dan merayapi situs namadomain.com. Lalu, Pada saat robot perayap (bot crawler) mesin pencari itu mengunjungi situs anda, file yang pertama kali mereka rayapi adalah robots.txt yang terletak pada . Jadi, file robots.txt harus diletakkan pada direktori utama atau di folder public_html. File robots.txt itu berisi perintah-perintah pada bot crawler mengenai halaman mana saja yang boleh diindex atau ditampilkan di mesin pencari. Hal ini tentu saja untuk melindungi halaman sistem anda untuk diketahui oleh orang-orang. Misalnya halaman Administrator website yang merupakan halaman yang pantang untuk diketahui oleh umum atau diindeks oleh mesin pencari. Disitulah robots.txt melakukan tugasnya. Sama halnya dengan website, Blog juga memiliki file robots.txt. Hanya saja, robots.txt di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog blogspot, default robots.txt diatur seperti ini:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://blogURL/feed/posts/default?orderby=UPDATED

Arti dari kode di atas adalah :

User-agent: Mediapartners-Google	=	Menandakan bahwa blog ini adalah patner dari google
Disallow:	=	Menandakan bahwa tidak ada batasan halaman merangkak oleh crawler. Dengan kata lain, memungkinkan crawler merangkak semua halaman di situs.
User-agent: *	=	Menandakan bahwa kode/perintah yang ditempatkan di bawahnya berlaku padasemua robot crawler
Disallow: /search	=	Melarang crawler untuk menjelajah url yang memiliki awalan urlbloganda.com/search.
Allow: /	=	Membiarkan crawler merayapi semua halaman kecuali yang dicantumkan pada perintah disallow.
Sitemap	=	Ini adalah sitemap dari situs Anda yang diberitahukan kepada crawler agar mudah ketika menjelajahinya lagi. Sitemap berisi semua link yang ada disitus untuk dirayapi crawler.

Setting Tag Tajug Robot Khusus
settingan ini bertujuan untuk menginformasikan mesin pencari untuk mengindex semua isinya tetapi tidak memperbolehkan User-agent Open Diretory Project untuk mengcrawl semua isi blog dan tidak memperbolehkan untuk mengindex arsip

Peringatan! Gunakan dengan hati-hati. Penggunaan yang tidak tepat dari fitur tersebut dapat mengakibatkan blog Anda diabaikan oleh mesin telusur.

pengertian Robot.txt dan cara untuk mengaturnya

0 komentar:

Post a Comment

Recent

Comments

Blog Archive