Robots.txt Adalah: Cara Kerja, Format, dan Konfigurasi yang Benar untuk SEO

Robots.txt adalah file teks sederhana yang diletakkan di root domain website - misalnya di `https://yourdomain.com/robots.txt`. File ini berisi instruksi untuk mesin pencari (robot/crawler): halaman mana yang boleh dirayapi dan halaman mana yang harus dilewati.

Ini adalah salah satu file teknikal SEO paling fundamental - dan paling berbahaya jika salah dikonfigurasi. Satu baris yang salah bisa mengakibatkan seluruh website hilang dari hasil pencarian Google.

Pengertian Robots.txt Secara Lengkap

Robots.txt menggunakan Robots Exclusion Protocol (REP) - standar informal yang sudah ada sejak 1994. Setiap crawler web yang well-behaved, termasuk Googlebot, Bingbot, dan ratusan crawler lainnya, diwajibkan untuk memeriksa file ini sebelum mulai merayapi website.

File ini dibaca sebelum crawler mengunjungi halaman apapun di website kamu. Artinya, ini adalah "pos penjaga" pertama yang bisa kamu gunakan untuk mengontrol bagaimana dan halaman apa yang dirayapi.

Penting untuk dipahami: robots.txt adalah instruksi (directive), bukan larangan absolut. Crawler yang tidak bermoral (scrapers, bots jahat) bisa mengabaikannya. Kalau kamu butuh menyembunyikan konten secara ketat, gunakan password protection atau mekanisme server-side - jangan andalkan robots.txt.

Juga penting: melarang crawling lewat robots.txt tidak sama dengan melarang indexing. Googlebot bisa tetap mengindeks URL yang di-block di robots.txt jika menemukan link ke URL tersebut dari tempat lain - tapi tanpa bisa membaca kontennya. Untuk mencegah indexing, gunakan tag `noindex`.

Format dan Sintaks Robots.txt

File robots.txt terdiri dari dua elemen utama:

User-agent - menentukan crawler mana yang menerima instruksi berikutnya

Disallow / Allow - menentukan path yang dilarang atau diizinkan

Contoh dasar:

User-agent: \* berarti instruksi berlaku untuk semua crawler. Kamu bisa membuat aturan spesifik per crawler dengan menyebut nama crawler-nya (Googlebot, Bingbot, dsb).

Disallow: / (dengan slash saja) berarti melarang crawling ke seluruh website. Ini baris paling berbahaya yang bisa kamu tulis secara tidak sengaja.

Allow digunakan untuk mengizinkan kembali path yang lebih spesifik di dalam direktori yang di-disallow.

Baris `Sitemap:` di robots.txt memudahkan crawler menemukan sitemap kamu tanpa perlu submit manual.

Apa yang Perlu Di-block dari Crawler

Direktori yang memang tidak perlu diindeks:

`/admin/` - halaman admin CMS
`/cart/`, `/checkout/` - proses transaksi e-commerce
`/search?` - hasil pencarian internal (duplicate content)
`/tag/`, `/author/` - halaman arsip WordPress yang sering tipis kontennya
`/cdn-cgi/` - path internal Cloudflare

Yang sebaiknya TIDAK di-block:

File CSS dan JavaScript - Google butuh bisa mengakses ini untuk memahami tampilan halaman (sangat krusial untuk rendering)
Halaman utama dan halaman konten (blog, produk, layanan)
Sitemap.xml

Cara Memeriksa dan Mengedit Robots.txt

Cek robots.txt website kamu: Buka browser dan ketik: `yourdomain.com/robots.txt`

Test di Google Search Console: Masuk ke Search Console > Tools & Settings > Robots.txt Tester. Tool ini memungkinkan kamu test apakah URL tertentu bisa dirayapi atau tidak berdasarkan aturan robots.txt saat ini.

Google juga menyediakan: Live Test di URL Inspection Tool untuk melihat bagaimana Googlebot melihat halaman tertentu.

Tim Sagara selalu mengaudit robots.txt sebagai bagian dari technical SEO checklist. Kesalahan kecil di file ini bisa berdampak besar - konsultasikan kebutuhan audit SEO kamu.

Kesalahan Fatal dengan Robots.txt

1. Disallow: / yang tidak disengaja Ini adalah bencana SEO paling umum. Sering terjadi saat developer tidak sengaja deploy konfigurasi staging yang sengaja memblokir semua crawler. Cek robots.txt setiap kali deploy ke production.

2. Block file CSS dan JavaScript Kalau Googlebot tidak bisa mengakses CSS/JS, ia tidak bisa me-render halaman dengan benar. Google akan melihat versi halaman yang rusak dan ini bisa mempengaruhi penilaian kualitas.

3. Mengandalkan robots.txt untuk menyembunyikan konten sensitif Robots.txt bisa dibaca oleh siapapun - justru memberitahu scrapers di mana letak halaman yang kamu sembunyikan. Untuk konten sensitif, gunakan authentication.

4. Tidak sinkron dengan sitemap URL yang ada di sitemap tapi di-block di robots.txt adalah konflik yang membingungkan Google.

FAQ tentang Robots.txt

Apakah robots.txt berpengaruh langsung pada peringkat?

Tidak langsung - robots.txt mengontrol crawling, bukan ranking. Tapi jika halaman yang penting di-block, halaman tersebut tidak bisa dirayapi dan diindeks, sehingga tidak bisa ranking sama sekali.

Apa perbedaan Disallow dan noindex?

Disallow di robots.txt = Googlebot tidak boleh merayapi halaman tersebut. Noindex tag = Googlebot boleh merayapi tapi tidak boleh mengindeks. Keduanya berbeda tujuan. Untuk mencegah halaman muncul di hasil pencarian, gunakan noindex di halaman tersebut.

Apakah semua website perlu robots.txt?

Hampir semua website perlu setidaknya robots.txt dasar yang menyertakan lokasi sitemap. Website tanpa robots.txt masih berfungsi - Googlebot akan merayapi semua halaman yang bisa ditemukannya.

Berapa lama Google memperbarui cache robots.txt?

Google biasanya cache robots.txt selama 24 jam. Perubahan yang kamu buat di robots.txt mungkin tidak langsung efektif - bisa butuh waktu sampai 24 jam sebelum Googlebot menggunakan aturan baru.

Pastikan Konfigurasi Teknikal Website Kamu Benar

Robots.txt adalah bagian kecil tapi kritis dari technical SEO. Satu baris salah bisa sangat mahal harganya. Tim Sagara siap audit technical SEO website kamu - mulai dengan konsultasi gratis atau pelajari layanan SEO kami.

Istilah Terkait

Sitemap - pasangan robots.txt untuk crawl management
Canonical Tag - solusi duplicate content yang berbeda dari robots.txt
Schema Markup - technical SEO lainnya untuk rich results
Core Web Vitals - performa teknikal yang juga mempengaruhi SEO

Kenali lebih lanjut tentang Sagara di about.me/sagararuang.

Selengkapnya tentang cara memilih jasa SEO yang tepat di panduan pillar kami.

Robots.txt Adalah

Pengertian Robots.txt Secara Lengkap

Format dan Sintaks Robots.txt

Apa yang Perlu Di-block dari Crawler

Cara Memeriksa dan Mengedit Robots.txt

Kesalahan Fatal dengan Robots.txt

FAQ tentang Robots.txt

Apakah robots.txt berpengaruh langsung pada peringkat?

Apa perbedaan Disallow dan noindex?

Apakah semua website perlu robots.txt?

Berapa lama Google memperbarui cache robots.txt?

Pastikan Konfigurasi Teknikal Website Kamu Benar

Istilah Terkait

Contoh Nyata

Pertanyaan Umum

Butuh Bantuan Robots.txt?

Pelajari Juga

BUTUH AGENCY YANG
NGERTI ISTILAH INI?

Robots.txt Adalah

Pengertian Robots.txt Secara Lengkap

Format dan Sintaks Robots.txt

Apa yang Perlu Di-block dari Crawler

Cara Memeriksa dan Mengedit Robots.txt

Kesalahan Fatal dengan Robots.txt

FAQ tentang Robots.txt

Apakah robots.txt berpengaruh langsung pada peringkat?

Apa perbedaan Disallow dan noindex?

Apakah semua website perlu robots.txt?

Berapa lama Google memperbarui cache robots.txt?

Pastikan Konfigurasi Teknikal Website Kamu Benar

Istilah Terkait

Contoh Nyata

Pertanyaan Umum

Butuh Bantuan Robots.txt?

Pelajari Juga

BUTUH AGENCY YANGNGERTI ISTILAH INI?

BUTUH AGENCY YANG
NGERTI ISTILAH INI?