Dua file ini yaitu .htaccess dan robot.txt merupakan komponen penting dalam sebuah situs. Dari sisi teknis, kedua file ini memiliki manfaat dan keuntungan yang bisa membawa situs menuju harapan yang dikehendaki webmaster berkaitan dengan pengalaman pengguna situs (User Experience) dan SEO. Umumnya file .htaccess (server apache) dan robots.txt berada di folder root server situs.
Perbedaan File .htaccess dengan Robot.txt
Perbedaan dasar dari kedua file ini adalah .htaccess digunakan (terutama) untuk akses internal situs, sedangkan robots.txt untuk mengelola akses eksternal.
File .htaccess lebih banyak bekerja secara internal, misalkan untuk memberitahu server Apache bagaimana menangani sebuah halaman atau file yang ada di situs. Dapat juga menghandel penggunaan URL, bisa juga mengatur cara pengguna situs mengakses sumber daya yang ada, dan lain sebagainya. Lewat .htaccess, webmastre dapat menangani fitur-fitur situsnya sendiri.
Sedangkan untuk file robots.txt adalah untuk mengatur akses “eksternal”. Misalkan mengatur dan memberitahu kepada robot mesin pencari maupun robot alat web lainnya, apa yang bisa dirayapi, diindeks.
File .htaccess
File .htaccess adalah file konfigurasi yang digunakan pada server web yang menggunakan perangkat lunak Apache sebagai web server-nya. Apache akan menjalankan apa yang tertulis dalam file .htaccess. File akan berpengaruh pada keseluruhan direktori yang ditempatkan di dalamnya dan semua file dan subdirektori dalam direktori yang ditentukan. Oleh karena itu, jika salah membuatnya akan berakibat pada situs bahkan situs tidak dapat diakses (error 500)
Umumnya file .htaccess berisi fungsi perintah dan fitur tambahan untuk menjalankan situs, misalkan:
- menulis ulang url agar seo friendly
- redirect url
- Memblokir halaman, memblokir alamat IP
- otorisasi dan proteksi password
- Pengaturan untuk direktori tertentu memvariasikan preferensi server, misalnya RAM yang digunakan oleh aplikasi
- Pengalihan Kesalahan yang disesuaikan (seperti menentukan halaman 404 yang ramah)
- Setelan cache, kompres situs (gzip)
Tanpa .htaccess, situs akan berperilaku dengan cara default. Bahkan untuk cms atau platform blog tertentu jika tidak ada file .htaccess, mungkin tidak bekerja sama sekali.
Misalnya, saat menginstall WordPress secara otomatis akan membuat file file .htaccess yang berisi:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^ index.php $ – [L]
RewriteCond% {REQUEST_FILENAME}! -f
RewriteCond% {REQUEST_FILENAME}! -d
RewriteRule /index.php [L]
</ IfModule>
File Robot.txt
Robot.txt adalah file yang berisi petunjuk dari situs yang ditujukan untuk robot web (dikenal sebagai Web Wanderers, Crawler, atau Spiders) yaitu sebuah program yang dibuat untuk masuk ke dalam situs secara otomatis. Misalkan robot mesin pencari Google menggunakannya untuk mengindeks konten situs.
Robot web umumnya akan mencari file “/robots.txt” pada sebuah URL sebelum merayapi. Untuk itu sebaiknya penempatan file robots.txt di direktori tingkat atas server web atau berada ditempat yang sama dengan index. Ingatlah, untuk nama file harus menggunakan huruf kecil semua: ” robots.txt “, bukan ” Robots.TXT
Tanpa robots.txt, robot mesin pencari akan mengindeks atau menyalin keseluruhan situs tanpa pengecualian, termasuk file yang bersifat pribadi atau rahasia. Dengan robots.txt dapat melakukan:
- Pemberitahuan kepada mesin pencari bahwa apa yang boleh atau tidak untuk mengindeks
- Melarang robot perayap dari layanan lain ( misalkan robot Archive.org )
Pada umumnya robot.txt sekali ditetapkan jarang diubah dan pembuatannya pun cukup mudah dibandingkan file .htaccess. Selain itu tidak menyebabkan kerusakan pada situs melainkan berpengaruh pada indeks hasil pencarian jika tidak dilakukan dengan benar.
Contoh file robots.txt
Untuk mengecualikan semua robot dari keseluruhan server
User-agent: *
Disallow: /
Membolehkan semua akses lengkap dari robot (atau buat saja file “/robots.txt” kosong, atau jangan gunakan sama sekali)
User-agent: *
Disallow:
Untuk mengecualikan semua robot dari bagian server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Untuk mengecualikan robot tunggal
User-agent: BadBot
Disallow: /
Membiarkan robot tunggal
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Keterangan:
- “User-agent: * ” berarti bagian ini berlaku untuk semua robot.
- “Disallow: / ” memberitahu robot bahwa seharusnya tidak mengunjungi halaman manapun di situs ini.
Perbedaan File .htaccess dengan Robot.txt – Lentera SEO