Η Google διανέμει με άδεια ανοιχτού κώδικα τον ‘Web Crawler’ της μετά από 20 χρόνια

Το Robot Exclusion Protocol (REP), της Google, γνωστό και ως robots.txt, είναι ένα πρότυπο που χρησιμοποιείται από πολλούς ιστότοπους για να ενημερώσει τους αυτοματοποιημένους ανιχνευτές ποια τμήματα του ιστότοπου πρέπει να ανιχνευθούν ή όχι.

Ωστόσο, δεν είναι το επίσημα υιοθετημένο πρότυπο, οδηγώντας σε διαφορετικές ερμηνείες. Σε μια προσπάθεια να καταστεί το REP ένα επίσημο πρότυπο διαδικτύου, η Google έκανε open-source τον parser robots.txt και τη σχετική βιβλιοθήκη C++ που δημιούργησε πριν από 20 χρόνια. Μπορείτε να βρείτε το εργαλείο στο GitHub.

Το REP δημιουργήθηκε το 1994 από έναν Ολλανδό μηχανικό λογισμικού, τον Martijn Koster και σήμερα είναι το de facto πρότυπο που χρησιμοποιούν οι ιστοτόποι για να καθοδηγούν τους ανιχνευτές.

Το πρόγραμμα ανίχνευσης Googlebot βλέπει το αρχείο robots.txt για να εντοπίσει οποιεσδήποτε οδηγίες για ποια μέρη του ιστότοπου θα πρέπει να αγνοήσει. Εάν δεν υπάρχει αρχείο robots.txt, το bot υποθέτει ότι είναι εντάξει να ανιχνεύσει ολόκληρο τον ιστότοπο.

Ωστόσο, αυτό το πρωτόκολλο έχει ερμηνευτεί “κάπως διαφορετικά με την πάροδο των ετών” από τους προγραμματιστές, οδηγώντας σε ασάφεια και δυσκολία στην “ορθή γραφή των κανόνων”.

Για παράδειγμα, υπάρχει αβεβαιότητα σε περιπτώσεις όπου ο “επεξεργαστής κειμένου περιλαμβάνει χαρακτήρες BOM στα αρχεία robots.txt”.

Ενώ για τους κατασκευαστές εργαλείων ανίχνευσης και εργαλείων υπάρχει πάντα αβεβαιότητα σχετικά με το “πώς πρέπει να χειρίζονται τα αρχεία robots.txt που είναι εκατοντάδες μεγάλα megabytes; ”

Αυτός είναι ο λόγος για τον οποίο η Google θέλει να υιοθετηθεί επίσημα το REP ως πρότυπο διαδικτύου με καθορισμένους κανόνες για όλους. Η εταιρεία αναφέρει ότι έχει τεκμηριώσει με ακρίβεια πώς πρέπει να χρησιμοποιηθεί το REP και υπέβαλε την πρότασή της στο Internet Engineering Task Force (IETF).

Ενώ δεν μπορούμε να πούμε με βεβαιότητα ότι η REP θα γίνει επίσημο πρότυπο. σίγουρα θα βοηθήσει τους επισκέπτες του διαδικτύου καθώς και τους κατόχους ιστότοπων, επιδεικνύοντας πιο συνεπή αποτελέσματα αναζήτησης και σεβόμενη τις επιθυμίες του ιστότοπου.

Πηγή άρθρου: https://fossbytes.com/

One thought on “Η Google διανέμει με άδεια ανοιχτού κώδικα τον ‘Web Crawler’ της μετά από 20 χρόνια”

tas-sos

2 Ιουλίου 2019 at 15:26 | Απάντηση

Τι θέλει να πετύχει με αυτό η Google ;
Δηλαδή ανοίγει κάτι προς όλους ώστε να γίνει αυτή το το πρότυπο ; Έτσι βλέπει η Google τον ανοιχτό κώδικα ;

Επίσης η άδεια είναι «Apache License 2.0».

One thought on “Η Google διανέμει με άδεια ανοιχτού κώδικα τον ‘Web Crawler’ της μετά από 20 χρόνια”

Leave a Comment Cancel reply