WebDev Zone.GR

Robots.txt

Πολλοί από εσάς που ασχολείστε με ιστοσελίδες θα έχετε ακούσει κάποια πράγματα για το αρχείο robots.txt Αναρωτηθήκατε ποτέ τι είναι αυτό το αρχείο; Το robots.txt είναι μια σειρά από κανόνες που θα ακολουθήσουν τα bots των μηχανών αναζήτησης για να ευρετηριάσουν (indexing) την ιστοσελίδα σας. Με αυτό το αρχείο μπορείτε να αποκλείσετε το indexing μερικών φακέλων ή και αρχείων της ιστοσελίδας σας.

Οι λόγοι ποικίλουν.. μπορεί να θέλετε να κρατήσετε κάποιες περιοχές κρυφές, όπως περιοχές με δοκιμαστικό υλικό, υλικό άσχετο με την ιστοσελίδα σας, περιοχές ευαίσθητων δεδομένων κτλ.

Για να δημιουργήσετε ένα robots.txt ακολουθήστε τα παρακάτω βήματα.
1. Δημιουργήστε ένα κενό robots.txt αρχείο με το σημειωματάριο ή όποιο άλλο λογισμικό θέλετε. Είναι πολύ σημαντικό να το αποθηκεύστε το σε Unix File Format γιατί τα Windows αποθηκεύουν ένα παραπανίσιο χαρακτήρα σε κάθε τέλος γραμμής, πράγμα που κάνει το αρχείο μη εκτελέσιμο σε Unix.

2 Το πρώτο πράγμα που συμπληρώνουμε είναι η εντολή User-agent: * Με αυτή την εντολή βάζουμε περιορισμούς για όλα τα bot των μηχανών. Μπορούμε να θέσουμε περιορισμούς μόνο σε κάποιο συγκεκριμένο bot, πχ User-agent: googlebot

3. Μετά ακολουθεί η εντολή Disallow: όπου βάζουμε για τιμές τις περιοχές (φακέλους/αρχεία) που θέλουμε να αποτρέψουμε το index.
Disallow: /cgi-bin/ /arxeio/sensitive.html
4. Το αρχείο μας θα έχει περίπου την εξής μορφή:
User-agent: *
Disallow:
/cgi-bin/ /arxeio/sensitive.html
5. Το ανεβάζουμε σε ASCII μορφή στον κεντρικό φάκελο (root) της ιστοσελίδας μας και είμαστε έτοιμοι!

Εκτυπώθηκε από: http://www.webdevzone.gr
Κατηγορία: WebServer
Ημερομηνία: Τρίτη, 25 Μαΐου 2010
Συγγραφέας: Seldimi