Makale Başlıkları
Robots.txt dosyası sitenizin taranacak(indexlenecek) bölümlerin tanımlanmasına yardımcı olur. Öncelikle bu dosya google ve botları için bir klavuz dosyası diyebiliriz. Dosya türü olarak. Metin Belgesi(.txt) dosyasıdır. Bu dosya sitenizin kök dizininde(public_html,htdocs,www gibi..) bulunur. Bu metin belgesine yazacağınız kodlar ile , google botlarının sitenizde hangi konumları index’lemesi gerektiğini hangi konumları index’lememesini her şeyini yazabilirsiniz.
Aslında indexlenmeden kastımızı google’nin sitenizi taraması ve arama sonuçlarında çıkartmasıdır. Misal bizim sitemizde Dnsmap Nedir ? Nasıl Kullanılır ? diye bir konu var. Google bunu indexledi yani taradı ve arama sonuçlarında birisi Dnsmap nedir diye yazdığı zaman benim bu konumda google tarafından taranıp hafızaya alındığı için arama sonuçlarında çıkıyor.
Örnek bir robots.txt dosyası ;
User-agent: *
Allow: /
Bu robots.txt dosyasını açıklamak gerekirse, En başta yazdığımız User-agent google botlarının ismini ifade eder. Oraya belirgin bir google botunun ismini yazarak sitenizi taramasına izin verebilirsiniz. Ancak biz User-agent ile bütün google botlarını kapsıyoruz. Tam olarak User-agent kapsamaz User-agent: * bu şekilde olduğu zaman kapsar, çünkü o sondaki yıldız(*) işareti tamamı anlamına geliyor. Yani User-agent: * bu kod ile bütün google botlarına izin vermiş bulunmaktayız. Bütün google botları sitenizi index lemek için izine sahiptir. Şimdi gelelim ikinci kod bloğuna.
İkinci kod bloğunda “Allow: /” komutu ile bütün dizinlerin taranmasına izin verdik. Eğer bir metin belgesi açar ve içine ;
User-agent: *
Allow: /
bunları yazıp robots.txt olarak kaydedip, web sitenizin ana dizinine atarsanız, siteniz google tarafından indexlenir.
Bu işin iyi ve kötü yanları var,
User-agent: *
Allow: /
bu şekilde yaparsanız sitenizin her türlü dosyası ortada olacağından dolayı farz edelim web sitenizde /kisisel diye bi klasör açtınız ve oraya size öze resim program filan yüklediniz. En basitinden sahil de bi fotoğrafınızı yüklediniz. Ve fotoğrafınızın ismi sahilde.jpg diyelim. Siz ana dizine attığınız robots.txt yüzünden bütün sitenizin taranmasına ve google hafızasına alınmasına izin vermiş bulunduğunuz için, bu resim de google arama sonuçlarında yerini alacaktır. Yani herhangi bir kullanıcı google görsellere ya da google ye “sahilde” şeklinde yazıp arattığı takdirde sizin fotoğrafınızı görme ihtimali yüksektir.
Bu gibi nedenlerden dolayı robots.txt dosyasının ayarını iyi yapın.
User-agent: *
Disallow: /kisiselresimler/
Disallow: /ozelklasör/
Disallow: /gizli/
Disallow: /admin/
Burada /klasöradı/ şeklinde 4 tane klasör yazdım bunların başında yer alan “Disallow
” komutu ile bu dizinler google tarafından taranmayacaktır.
Dilerseniz, Web sitenizin taranmamasını istiyorsanız sadece
User-agent: *
Disallow: /
Yapmanız yeterli olacaktır.
Merhaba arkadaşlar, bu hatayı bazı kullanıcılar yaşamakta, sebebi bilgisayarın BIOS'da ki SVM ayarından kaynaklanıyor. Bende…
Merhaba arkadaşlar hızlı bir şekilde windows ve diğer işletim sistemlerinde çalışan ve sizi engelli sitelerden…
Merhaba arkadaşlar, PHP kullanarak web sitemizin google'da banlanıp banlanmadığını kontrol edeceğiz. Bu işlemin mantığı google'a…
Merhaba arkadaşlar kısaca phpmailer kütüphanesini kullanarak basit http post isteği ile mail gönderimi yapan bir…
Cron Job içinde dışarıya log dosyası oluşturtmadan wget kullanımı çok kolay, Bildiğiniz üzere her wget…