Dengan membuat file robots.txt dan menempatkannya di website Anda, maka proses indeks dapat lebih efektif dan terkontrol. Sebagai contoh, jika Anda tidak ingin halaman-halaman tertentu diindeks dan kemudian ditampilkan di mesin pencari, maka Anda dapat melarangnya melalui file robots.txt. Penerapannya bisa untuk melarang indeks ke lokasi halaman yang sudah dihapus, melarang lokasi yang rawan dianggap duplikasi konten secara SEO (misalnya tag atau kategori), dan sebagainya. Anda juga bisa memblokir robot dari situs tertentu yang tidak jelas fungsinya namun menghabiskan bandwidth hosting Anda.
Ada dua bagian perintah utama yang lazim digunakan di file robots.txt, yaitu :
- User-agent: untuk menetapkan pengaturan pada robot yang tercantum di bagian ini. Jika pengaturan diberlakukan untuk semua robot, maka gunakan simbol bintang *.
- Disallow: untuk menetapkan halaman mana yang tidak boleh diindeks oleh robot yang disebutkan di bagian User-agent. Perintah pelarangan diawali dengan simbol garis miring /.
Untuk mempersilakan semua program robot untuk mengindeks situs Anda, maka cukup tuliskan baris berikut:
User-agent: *
Disallow:
Penjelasan: semua robot tidak ada yang dilarang alias bebas mengindeks. Perintah ini paling lazim digunakan para pemilik situs.
Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs Anda, maka tuliskan baris berikut:
User-agent: *
Disallow: /
Penjelasan: semua robot dilarang mengindeks (misalnya dipakai di situs underground)
Untuk melarang para robot mengakses halaman tertentu, tuliskan baris berikut:
User-agent: *
Disallow: /login.html
Disallow: /cadangan/
Disallow: /member/info.php
Penjelasan: robot tidak boleh mengindeks file login.html, folder cadangan, dan halaman info.php di folder member.
Untuk melarang sebuah program robot tertentu namun mengijinkan robot-robot lainnya, tuliskan baris berikut:
User-agent: NamaRobot
Disallow: /
Penjelasan: robot bernama NamaRobot tidak boleh mengindeks, yang lain boleh (baca catatan di bagian akhir untuk mengenal nama robot).
Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya, tuliskan baris berikut:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Penjelasan: robot Google boleh mangeindeks, lainnya tidak boleh.
Sebagai tip, Anda juga dapat menuliskan lokasi file sitemap.xml situs Anda di baris terakhir:
User-agent: *
Disallow:
Sitemap: http://www.komputeran.com/feeds/posts/default?orderby=updated
Penjelasan: tambahkan url lengkap alamat file sitemap situs Anda. Jika punya beberapa sitemap, tuliskan di baris berikutnya.
Beberapa robot mesin pencari terkemuka juga bisa memahami penggunaan wildcard untuk melarang beberapa lokasi dengan satu atau dua baris perintah:
User-agent: *
Disallow: /*.pdf$
Disallow: /arsip*/
Penjelasan: baris kedua melarang semua robot mengindeks semua file pdf. Baris ketiga melarang pengindeksan pada folder-folder yang diawali dengan kata arsip (misalnya /arsip-2010, /arsip-2011, /arsiplama, dan sebagainya).
Catatan penting:
- Hati-hati dalam menyusun perintah di robots.txt, kesalahan perintah bisa berakibat situs Anda tidak diindeks oleh mesin pencari.
- File robots.txt harus diberi nama persis: robots.txt dan bukan dengan nama lain (pastikan huruf kecil semua).
- File robots.txt harus diletakkan di direktori utama (root). Contoh: http://www.komputeran.com/robots.txt .
- Khusus pengguna Blogger, Anda dapat membuat file robots.txt untuk blog Anda via fitur yang telah tersedia di bagian: Setelan > Preferensi penelusuran > Perayap dan pengindeksan.
- Jika Anda ingin melarang program robot tertentu namun tidak mengetahui nama User-agent-nya, maka periksa log atau analisis statistik situs Anda, atau temukan daftarnya di situs http://www.user-agents.org.
- Jika Anda ingin agar sebuah halaman atau folder rahasia di situs Anda tidak diindeks program robot, sebaiknya jangan menggunakan robots.txt untuk melarangnya. Hal ini disebabkan file robots.txt dapat diakses dan dilihat oleh siapapun, sehingga justru akan menjadi bumerang. Gunakan file .htaccess atau metode pengaman lainnya jika memang Anda ingin benar-benar merahasiakan lokasi tertentu.
Mantaf ulasannya,Bro...Keep goin'....
BalasHapusmakasih infonya mas....ribet juga ya...mau tanyanih untuk penghapusan url Tidak ditemukan gimana mas, klik satu persatu capek tangan haaha makasih infonya...
BalasHapusmaknyos ilmunya sob,
BalasHapus16 url saya tercekal
BalasHapusUser-agent: Mediapatners Google
Disallow:
User-agent: *
Disallow:search/
Allow:
Sitemap: http://ittaqi-tafuzi.blogspot.com/feeds/posts/default?orderby=UPDATED
bisa dijelaskan mas
mungkin bisa dilihat di webmaster tool boss
Hapusthanks bro
BalasHapusTerima kasih mas brow atas informasinya.
BalasHapusterima kasih infonya.
BalasHapusMaturnuwun ..
BalasHapusMakasih Infonya, Mas....
BalasHapusYang dpt info, blognya,khususnya wordpress, hilang atau tidak terdeteksi file robots.txt nya, gampang aza, copas (copy-paste) aza file robots.txt dari blog yg sudah ada, misal dari WIYASA GROUP ( klik: http://wiyasa.com/robots.txt ), lalu save as file tersebut dan upload ke Public html.
Blog WP saya juga banyak yang hilang, entah kenapa, sehingga tidak terdeteksi di google. TP Alhmdlh, sekarang sdh pada "sehat" lagi...
Makasih infonya gan...
Salam YAKIN SUKSES !!!
Founder WIYASA GROUP
terima kasih atas informasinya , kunjungan balik ya http://www.reseper.com/
BalasHapussaya ingin men-disallow file 404error.php dr web saya. bagaimana y caranya? file tsb digenerate otomatis oleh CMS. ada yg bisa bantu?
BalasHapusDan apakah script ini
Disallow: /*.pdf$
hanya berlaku untuk semua file pdf di direktori utama atau beserta sub-sub direktori lainya (misal: namaweb.com/xxxx/abc.pdf) ?
blog kumpulan cwk bokep
BalasHapusjembut memek cewek bali
cwk panggilan asli mlg
video bokep mahasiswi mlg
pin bbm bispak malang
trik ngentot gratis cara gue
geng motor cewek mlg
foto-foto kimcil malang
wisata empek di batu-malang
mantap naik motor bonus naik cewek!!!!
jilati memek cewekku didepan laptopkoe
Salam kenal, mohon pencerahannya gan
BalasHapus1. misalnya saya ingin memblokir link2 ini :
/2014/02/&target=facebook
/2013/03/&target=email
/2012/01/&target=buzz
benar tidak kalau di robot.txt saya tulis
Disallow: /*/*/&target=
2. benar tidak untuk memblokir semua page saya tulis
Disallow: /p
Kalau salah bagaimana yang benarnya?
Terima kasih
benar-benar bermanfaat artikel nya,, menambah wawasan pengetahuan bagi saya,
BalasHapushttp://belajar-komputeran.blogspot.com/