Robots.txt Kullanımı

Makale Başlıkları

Robots.txt Nedir ?

Robots.txt dosyası sitenizin taranacak(indexlenecek) bölümlerin tanımlanmasına yardımcı olur. Öncelikle bu dosya google ve botları için bir klavuz dosyası diyebiliriz. Dosya türü olarak. Metin Belgesi(.txt) dosyasıdır. Bu dosya sitenizin kök dizininde(public_html,htdocs,www gibi..) bulunur. Bu metin belgesine yazacağınız kodlar ile , google botlarının sitenizde hangi konumları index’lemesi gerektiğini hangi konumları index’lememesini her şeyini yazabilirsiniz.

İndexlenme Nedir ?

Aslında indexlenmeden kastımızı google’nin sitenizi taraması ve arama sonuçlarında çıkartmasıdır. Misal bizim sitemizde Dnsmap Nedir ? Nasıl Kullanılır ? diye bir konu var. Google bunu indexledi yani taradı ve arama sonuçlarında birisi Dnsmap nedir diye yazdığı zaman benim bu konumda google tarafından taranıp hafızaya alındığı için arama sonuçlarında çıkıyor.

Örnek bir robots.txt dosyası ;

User-agent: *
Allow: /

Bu robots.txt dosyasını açıklamak gerekirse, En başta yazdığımız User-agent google botlarının ismini ifade eder. Oraya belirgin bir google botunun ismini yazarak sitenizi taramasına izin verebilirsiniz. Ancak biz User-agent ile bütün google botlarını kapsıyoruz. Tam olarak User-agent kapsamaz User-agent: * bu şekilde olduğu zaman kapsar, çünkü o sondaki yıldız(*) işareti tamamı anlamına geliyor. Yani User-agent: * bu kod ile bütün google botlarına izin vermiş bulunmaktayız. Bütün google botları sitenizi index lemek için izine sahiptir. Şimdi gelelim ikinci kod bloğuna.

İkinci kod bloğunda “Allow: /” komutu ile bütün dizinlerin taranmasına izin verdik. Eğer bir metin belgesi açar ve içine ;

User-agent: *
Allow: /

bunları yazıp robots.txt olarak kaydedip, web sitenizin ana dizinine atarsanız, siteniz google tarafından indexlenir.

Robots.txt dosyasını dikkatli kullanın!!!

Bu işin iyi ve kötü yanları var,

User-agent: *
Allow: /

bu şekilde yaparsanız sitenizin her türlü dosyası ortada olacağından dolayı farz edelim web sitenizde /kisisel diye bi klasör açtınız ve oraya size öze resim program filan yüklediniz. En basitinden sahil de bi fotoğrafınızı yüklediniz. Ve fotoğrafınızın ismi sahilde.jpg diyelim. Siz ana dizine attığınız robots.txt yüzünden bütün sitenizin taranmasına ve google hafızasına alınmasına izin vermiş bulunduğunuz için, bu resim de google arama sonuçlarında yerini alacaktır. Yani herhangi bir kullanıcı google görsellere ya da google ye “sahilde” şeklinde yazıp arattığı takdirde sizin fotoğrafınızı görme ihtimali yüksektir.

Bu gibi nedenlerden dolayı robots.txt dosyasının ayarını iyi yapın.

Kişiselleştirilmiş robots.txt örneği ;

User-agent: *
Disallow: /kisiselresimler/
Disallow: /ozelklasör/
Disallow: /gizli/
Disallow: /admin/

Burada /klasöradı/ şeklinde 4 tane klasör yazdım bunların başında yer alan “Disallow” komutu ile bu dizinler google tarafından taranmayacaktır.

Dilerseniz, Web sitenizin taranmamasını istiyorsanız sadece

User-agent: *
Disallow: /

Yapmanız yeterli olacaktır.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir