Tahukah Anda?
Pencarian di blog ini menggunakan Mesin Pencari Buatan Indonesia!
Mari kita dukung!  Kunjungi dan gunakan Penjejak.com ! »

Selasa, 09 Oktober 2012

Cara Membuat File Robots.txt untuk SEO

Robots.txt adalah sebuah file teks yang secara de-facto dijadikan sebagai rujukan awal oleh program penelusur milik mesin pencari (search engine) atau layanan internet sejenis. Program penelusur yang lazim disebut sebagai web robot, web crawler, atau web spider, akan memeriksa apakah sebuah situs memiliki file robots.txt dan kemudian memeriksa instruksi yang diberikan di dalamnya. Para robot mesin pencari ini kemudian akan mengindeks halaman web berdasarkan isntruksi yang ada di file robots.txt.

web robots

Dengan membuat file robots.txt dan menempatkannya di website Anda, maka proses indeks dapat lebih efektif dan terkontrol. Sebagai contoh, jika Anda tidak ingin halaman-halaman tertentu diindeks dan kemudian ditampilkan di mesin pencari, maka Anda dapat melarangnya melalui file robots.txt. Penerapannya bisa untuk melarang indeks ke lokasi halaman yang sudah dihapus, melarang lokasi yang rawan dianggap duplikasi konten secara SEO (misalnya tag atau kategori), dan sebagainya. Anda juga bisa memblokir robot dari situs tertentu yang tidak jelas fungsinya namun menghabiskan bandwidth hosting Anda.

Ada dua bagian perintah utama yang lazim digunakan di file robots.txt, yaitu :
  • User-agent: untuk menetapkan pengaturan pada robot yang tercantum di bagian ini. Jika pengaturan diberlakukan untuk semua robot, maka gunakan simbol bintang *.
  • Disallow: untuk menetapkan halaman mana yang tidak boleh diindeks oleh robot yang disebutkan di bagian User-agent. Perintah pelarangan diawali dengan simbol garis miring /.
Berikut ini beberapa contoh penulisan perintah di dalam file robots.txt:

Untuk mempersilakan semua program robot untuk mengindeks situs Anda, maka cukup tuliskan baris berikut:
User-agent: *
Disallow:
Penjelasan: semua robot tidak ada yang dilarang alias bebas mengindeks. Perintah ini paling lazim digunakan para pemilik situs.

Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs Anda, maka tuliskan baris berikut:
User-agent: *
Disallow: /
Penjelasan: semua robot dilarang mengindeks (misalnya dipakai di situs underground)

Untuk melarang para robot mengakses halaman tertentu, tuliskan baris berikut:
User-agent: *
Disallow: /login.html
Disallow: /cadangan/
Disallow: /member/info.php
Penjelasan: robot tidak boleh mengindeks file login.html, folder cadangan, dan halaman info.php di folder member.

Untuk melarang sebuah program robot tertentu namun mengijinkan robot-robot lainnya, tuliskan baris berikut:
User-agent: NamaRobot
Disallow: /
Penjelasan: robot bernama NamaRobot tidak boleh mengindeks, yang lain boleh (baca catatan di bagian akhir untuk mengenal nama robot).

Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya, tuliskan baris berikut:
User-agent: Google
Disallow:

User-agent: *
Disallow: /
Penjelasan: robot Google boleh mangeindeks, lainnya tidak boleh.

Sebagai tip, Anda juga dapat menuliskan lokasi file sitemap.xml situs Anda di baris terakhir:
User-agent: *
Disallow:

Sitemap: http://www.komputeran.com/feeds/posts/default?orderby=updated
Penjelasan: tambahkan url lengkap alamat file sitemap situs Anda. Jika punya beberapa sitemap, tuliskan di baris berikutnya.

Beberapa robot mesin pencari terkemuka juga bisa memahami penggunaan wildcard untuk melarang beberapa lokasi dengan satu atau dua baris perintah:
User-agent: *
Disallow: /*.pdf$
Disallow: /arsip*/
Penjelasan: baris kedua melarang semua robot mengindeks semua file pdf. Baris ketiga melarang pengindeksan pada folder-folder yang diawali dengan kata arsip (misalnya /arsip-2010, /arsip-2011, /arsiplama, dan sebagainya).

Catatan penting:
  • Hati-hati dalam menyusun perintah di robots.txt, kesalahan perintah bisa berakibat situs Anda tidak diindeks oleh mesin pencari.
  • File robots.txt harus diberi nama persis: robots.txt dan bukan dengan nama lain (pastikan huruf kecil semua).
  • File robots.txt harus diletakkan di direktori utama (root). Contoh: http://www.komputeran.com/robots.txt .
  • Khusus pengguna Blogger, Anda dapat membuat file robots.txt untuk blog Anda via fitur yang telah tersedia di bagian: Setelan > Preferensi penelusuran > Perayap dan pengindeksan.
  • Jika Anda ingin melarang program robot tertentu namun tidak mengetahui nama User-agent-nya, maka periksa log atau analisis statistik situs Anda, atau temukan daftarnya di situs http://www.user-agents.org.
  • Jika Anda ingin agar sebuah halaman atau folder rahasia di situs Anda tidak diindeks program robot, sebaiknya jangan menggunakan robots.txt untuk melarangnya. Hal ini disebabkan file robots.txt dapat diakses dan dilihat oleh siapapun, sehingga justru akan menjadi bumerang. Gunakan file .htaccess atau metode pengaman lainnya jika memang Anda ingin benar-benar merahasiakan lokasi tertentu.


15 komentar:

  1. Mantaf ulasannya,Bro...Keep goin'....

    BalasHapus
  2. makasih infonya mas....ribet juga ya...mau tanyanih untuk penghapusan url Tidak ditemukan gimana mas, klik satu persatu capek tangan haaha makasih infonya...

    BalasHapus
  3. maknyos ilmunya sob,

    BalasHapus
  4. 16 url saya tercekal
    User-agent: Mediapatners Google
    Disallow:
    User-agent: *
    Disallow:search/
    Allow:
    Sitemap: http://ittaqi-tafuzi.blogspot.com/feeds/posts/default?orderby=UPDATED

    bisa dijelaskan mas

    BalasHapus
    Balasan
    1. mungkin bisa dilihat di webmaster tool boss

      Hapus
  5. Terima kasih mas brow atas informasinya.

    BalasHapus
  6. Makasih Infonya, Mas....

    Yang dpt info, blognya,khususnya wordpress, hilang atau tidak terdeteksi file robots.txt nya, gampang aza, copas (copy-paste) aza file robots.txt dari blog yg sudah ada, misal dari WIYASA GROUP ( klik: http://wiyasa.com/robots.txt ), lalu save as file tersebut dan upload ke Public html.

    Blog WP saya juga banyak yang hilang, entah kenapa, sehingga tidak terdeteksi di google. TP Alhmdlh, sekarang sdh pada "sehat" lagi...

    Makasih infonya gan...

    Salam YAKIN SUKSES !!!
    Founder WIYASA GROUP

    BalasHapus
  7. terima kasih atas informasinya , kunjungan balik ya http://www.reseper.com/

    BalasHapus
  8. saya ingin men-disallow file 404error.php dr web saya. bagaimana y caranya? file tsb digenerate otomatis oleh CMS. ada yg bisa bantu?

    Dan apakah script ini
    Disallow: /*.pdf$
    hanya berlaku untuk semua file pdf di direktori utama atau beserta sub-sub direktori lainya (misal: namaweb.com/xxxx/abc.pdf) ?

    BalasHapus
  9. Salam kenal, mohon pencerahannya gan
    1. misalnya saya ingin memblokir link2 ini :
    /2014/02/&target=facebook
    /2013/03/&target=email
    /2012/01/&target=buzz

    benar tidak kalau di robot.txt saya tulis
    Disallow: /*/*/&target=

    2. benar tidak untuk memblokir semua page saya tulis
    Disallow: /p

    Kalau salah bagaimana yang benarnya?

    Terima kasih

    BalasHapus
  10. benar-benar bermanfaat artikel nya,, menambah wawasan pengetahuan bagi saya,
    http://belajar-komputeran.blogspot.com/

    BalasHapus