Categories: Yazılım

Robots.txt Kullanımı

Makale Başlıkları

Robots.txt Nedir ?

Robots.txt dosyası sitenizin taranacak(indexlenecek) bölümlerin tanımlanmasına yardımcı olur. Öncelikle bu dosya google ve botları için bir klavuz dosyası diyebiliriz. Dosya türü olarak. Metin Belgesi(.txt) dosyasıdır. Bu dosya sitenizin kök dizininde(public_html,htdocs,www gibi..) bulunur. Bu metin belgesine yazacağınız kodlar ile , google botlarının sitenizde hangi konumları index’lemesi gerektiğini hangi konumları index’lememesini her şeyini yazabilirsiniz.

İndexlenme Nedir ?

Aslında indexlenmeden kastımızı google’nin sitenizi taraması ve arama sonuçlarında çıkartmasıdır. Misal bizim sitemizde Dnsmap Nedir ? Nasıl Kullanılır ? diye bir konu var. Google bunu indexledi yani taradı ve arama sonuçlarında birisi Dnsmap nedir diye yazdığı zaman benim bu konumda google tarafından taranıp hafızaya alındığı için arama sonuçlarında çıkıyor.

Örnek bir robots.txt dosyası ;

User-agent: *
Allow: /

Bu robots.txt dosyasını açıklamak gerekirse, En başta yazdığımız User-agent google botlarının ismini ifade eder. Oraya belirgin bir google botunun ismini yazarak sitenizi taramasına izin verebilirsiniz. Ancak biz User-agent ile bütün google botlarını kapsıyoruz. Tam olarak User-agent kapsamaz User-agent: * bu şekilde olduğu zaman kapsar, çünkü o sondaki yıldız(*) işareti tamamı anlamına geliyor. Yani User-agent: * bu kod ile bütün google botlarına izin vermiş bulunmaktayız. Bütün google botları sitenizi index lemek için izine sahiptir. Şimdi gelelim ikinci kod bloğuna.

İkinci kod bloğunda “Allow: /” komutu ile bütün dizinlerin taranmasına izin verdik. Eğer bir metin belgesi açar ve içine ;

User-agent: *
Allow: /

bunları yazıp robots.txt olarak kaydedip, web sitenizin ana dizinine atarsanız, siteniz google tarafından indexlenir.

Robots.txt dosyasını dikkatli kullanın!!!

Bu işin iyi ve kötü yanları var,

User-agent: *
Allow: /

bu şekilde yaparsanız sitenizin her türlü dosyası ortada olacağından dolayı farz edelim web sitenizde /kisisel diye bi klasör açtınız ve oraya size öze resim program filan yüklediniz. En basitinden sahil de bi fotoğrafınızı yüklediniz. Ve fotoğrafınızın ismi sahilde.jpg diyelim. Siz ana dizine attığınız robots.txt yüzünden bütün sitenizin taranmasına ve google hafızasına alınmasına izin vermiş bulunduğunuz için, bu resim de google arama sonuçlarında yerini alacaktır. Yani herhangi bir kullanıcı google görsellere ya da google ye “sahilde” şeklinde yazıp arattığı takdirde sizin fotoğrafınızı görme ihtimali yüksektir.

Bu gibi nedenlerden dolayı robots.txt dosyasının ayarını iyi yapın.

Kişiselleştirilmiş robots.txt örneği ;

User-agent: *
Disallow: /kisiselresimler/
Disallow: /ozelklasör/
Disallow: /gizli/
Disallow: /admin/

Burada /klasöradı/ şeklinde 4 tane klasör yazdım bunların başında yer alan “Disallow” komutu ile bu dizinler google tarafından taranmayacaktır.

Dilerseniz, Web sitenizin taranmamasını istiyorsanız sadece

User-agent: *
Disallow: /

Yapmanız yeterli olacaktır.

Admin

enesphp@gmail.com

Recent Posts

Docker wsl –shutdown command Hatası Çözümü

Merhaba arkadaşlar, bu hatayı bazı kullanıcılar yaşamakta, sebebi bilgisayarın BIOS'da ki SVM ayarından kaynaklanıyor. Bende…

6 ay ago

Windows Ücretsiz VPN Nasıl Kurulur

Merhaba arkadaşlar hızlı bir şekilde windows ve diğer işletim sistemlerinde çalışan ve sizi engelli sitelerden…

11 ay ago

Google Ban Kontrolü PHP

Merhaba arkadaşlar, PHP kullanarak web sitemizin google'da banlanıp banlanmadığını kontrol edeceğiz. Bu işlemin mantığı google'a…

2 yıl ago

PHP ile Mail Gönderme API

Merhaba arkadaşlar kısaca phpmailer kütüphanesini kullanarak basit http post isteği ile mail gönderimi yapan bir…

2 yıl ago

DNS Nedir

DNS, Domain Name System kelimelerinin kısaltmasıdır. İnternetin işleyişinde çok önemli bir rol oynayan DNS, internet…

2 yıl ago

Cpanel Cronjob Wget Log Dosyası Engelleme

Cron Job içinde dışarıya log dosyası oluşturtmadan wget kullanımı çok kolay, Bildiğiniz üzere her wget…

2 yıl ago