Το Harvard δημοσιεύει ένα σύνολο δεδομένων υψηλής ποιότητας με σχεδόν 1 εκατομμύριο βιβλία κοινού κτήματος

Το Πανεπιστήμιο του Χάρβαρντ ανακοίνωσε πριν από λίγες ημέρες ότι κυκλοφορεί ένα σύνολο δεδομένων υψηλής ποιότητας με σχεδόν 1 εκατομμύριο βιβλία κοινού κτήματος που θα μπορούσαν να χρησιμοποιηθούν από οποιονδήποτε για την εκπαίδευση μεγάλων γλωσσικών μοντέλων και άλλων εργαλείων τεχνητής νοημοσύνης. Το σύνολο δεδομένων δημιουργήθηκε από το νεοσύστατο Institutional Data Initiative του Χάρβαρντ με χρηματοδότηση τόσο από τη Microsoft όσο και από το OpenAI. Περιέχει βιβλία που έχουν σαρωθεί ως μέρος του έργου Google Books και δεν προστατεύονται πλέον από πνευματικά δικαιώματα.

Περίπου πέντε φορές μεγαλύτερο από το μέγεθος του περιβόητου συνόλου δεδομένων Books3 που χρησιμοποιήθηκε για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης όπως το Meta’s Llama, η βάση δεδομένων της Institutional Data Initiative εκτείνεται σε είδη, δεκαετίες και γλώσσες, με κλασικά από τον Σαίξπηρ, τον Τσαρλς Ντίκενς και τον Δάντη μέχρι τα σκοτεινά τσέχικα μαθηματικά και τα λεξικά τσέπης της Ουαλίας. Ο Greg Leppert, εκτελεστικός διευθυντής του Institutional Data Initiative, λέει ότι το έργο είναι μια προσπάθεια να «εξισορροπήσει τους όρους ανταγωνισμού» παρέχοντας στο ευρύ κοινό, συμπεριλαμβανομένων μικρών παικτών στον κλάδο της τεχνητής νοημοσύνης και μεμονωμένων ερευνητών, πρόσβαση σε ένα εξαιρετικά εκλεπτυσμένο αποθετήριο περιεχομένου που συνήθως μόνο καθιερωμένοι τεχνολογικοί γίγαντες έχουν τους πόρους να συγκεντρώσουν.

Ο Leppert πιστεύει ότι η νέα βάση δεδομένων δημόσιου τομέα θα μπορούσε να χρησιμοποιηθεί σε συνδυασμό με άλλα αδειοδοτημένα υλικά για την κατασκευή μοντέλων τεχνητής νοημοσύνης. «Το σκέφτομαι λίγο σαν τον τρόπο που το Linux έχει γίνει ένα θεμελιώδες λειτουργικό σύστημα για τόσο μεγάλο μέρος του κόσμου», λέει, σημειώνοντας ότι οι εταιρείες θα πρέπει ακόμα να χρησιμοποιούν πρόσθετα δεδομένα εκπαίδευσης για να διαφοροποιήσουν τα μοντέλα τους από αυτά των ανταγωνιστών τους.

Ο Burton Davis, αντιπρόεδρος της Microsoft και αναπληρωτής γενικός σύμβουλος για θέματα πνευματικής ιδιοκτησίας, τόνισε ότι η υποστήριξη της εταιρείας για το έργο ήταν σύμφωνη με τις ευρύτερες πεποιθήσεις του για την αξία της δημιουργίας «δεξαμενών προσβάσιμων δεδομένων» για χρήση από νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης. Με άλλα λόγια, η Microsoft δεν σχεδιάζει απαραίτητα να ανταλλάξει όλα τα δεδομένα εκπαίδευσης AI που έχει χρησιμοποιήσει στα δικά της μοντέλα με εναλλακτικές λύσεις κοινού κτήματος, όπως τα βιβλία στη νέα βάση δεδομένων του Χάρβαρντ. «Χρησιμοποιούμε δημόσια διαθέσιμα δεδομένα για τους σκοπούς της εκπαίδευσης των μοντέλων μας», λέει ο Davis.

Ο Tom Rubin, επικεφαλής πνευματικής ιδιοκτησίας και περιεχομένου του OpenAI, περιέγραψε την εταιρεία ως «ευχαρισμένη» που υποστήριξε το έργο σε μια δήλωση.

Καθώς υποβάλλονται δεκάδες αγωγές για τη χρήση δεδομένων που προστατεύονται από πνευματικά δικαιώματα για εκπαίδευση AI και παίρνουν τον δρόμο τους μέσα από τα δικαστήρια, το μέλλον του τρόπου κατασκευής των εργαλείων τεχνητής νοημοσύνης κρέμεται σε μια κλωστή. Εάν οι εταιρείες τεχνητής νοημοσύνης κερδίσουν τις υποθέσεις τους, θα μπορούν να συμεχίσουν να κάνουν scrapping το διαδίκτυο χωρίς να χρειάζεται να συνάψουν συμφωνίες αδειοδότησης με κατόχους πνευματικών δικαιωμάτων. Αλλά αν χάσουν, οι εταιρείες τεχνητής νοημοσύνης θα μπορούσαν να αναγκαστούν να αναθεωρήσουν τον τρόπο κατασκευής των μοντέλων τους. Ένα κύμα έργων όπως η βάση δεδομένων του Χάρβαρντ προχωρά με την υπόθεση ότι —ό,τι κι αν συμβεί— θα υπάρχει ανάγκη για σύνολα δεδομένων κοινού κτήματος.

Εκτός από το θησαυροφυλάκιο βιβλίων, το Institutional Data Initiative συνεργάζεται επίσης με τη Δημόσια Βιβλιοθήκη της Βοστώνης για τη σάρωση εκατομμυρίων άρθρων από διαφορετικές εφημερίδες που βρίσκονται τώρα στο κοινό κτήμα, και δηλώνει ότι είναι ανοιχτό να δημιουργήσει παρόμοιες συνεργασίες στη συνέχεια. Ο ακριβής τρόπος με τον οποίο θα κυκλοφορήσει το σύνολο δεδομένων των βιβλίων δεν έχει διευθετηθεί. Το institutional Data Initiative ζήτησε από την Google να συνεργαστεί για τη δημόσια διανομή, αλλά οι λεπτομέρειες βρίσκονται ακόμη σε διαβούλευση. Σε μια δήλωση, ο Kent Walker, πρόεδρος παγκόσμιων υποθέσεων της Google, δήλωσε ότι η εταιρεία είναι «περήφανη που υποστηρίζει» το έργο.

Όταν κυκλοφορήσει το σύνολο δεδομένων του IDI, θα συμμετάσχει σε μια σειρά από παρόμοια έργα, startups και πρωτοβουλίες που υπόσχονται να δώσουν στις εταιρείες πρόσβαση σε ουσιαστικό και υψηλής ποιότητας εκπαιδευτικό υλικό AI χωρίς τον κίνδυνο να αντιμετωπίσουν προβλήματα πνευματικών δικαιωμάτων.

Υπάρχουν επίσης άλλα νέα έργα Κοινού Κτήματος. Την περασμένη άνοιξη, η γαλλική startup τεχνητής νοημοσύνης Pleias δημοσίευσε το δικό της σύνολο δεδομένων Κοινού Κτήματος, το Common Corpus, το οποίο περιέχει περίπου 3 έως 4 εκατομμύρια βιβλία και περιοδικές συλλογές, σύμφωνα με τον συντονιστή του έργου Pierre-Carl Langlais. Με την υποστήριξη του Υπουργείου Πολιτισμού της Γαλλίας, το Common Corpus έχει ληφθεί περισσότερες από 60.000 φορές μόνο αυτόν τον μήνα στην πλατφόρμα ανοιχτού κώδικα AI Hugging Face. Την περασμένη εβδομάδα, η Pleias ανακοίνωσε ότι κυκλοφορεί το πρώτο σύνολο μεγάλων γλωσσικών μοντέλων που εκπαιδεύονται σε αυτό το σύνολο δεδομένων, για τα οποία ο Langlais είπε στο WIRED αποτελούν τα πρώτα μοντέλα «που έχουν εκπαιδευτεί αποκλειστικά σε ανοιχτά δεδομένα και συμμορφώνονται με τον νόμο [ΕΕ] AI Act».

Γίνονται προσπάθειες για τη δημιουργία παρόμοιων συνόλων δεδομένων εικόνων επίσης. H start-up AI Spawning δημοσίευσε το δικό της αυτό το καλοκαίρι που ονομάζεται Source.Plus, το οποίο περιέχει εικόνες Κοινού κτήματος από το Wikimedia Commons καθώς και μια ποικιλία από μουσεία και αρχεία. Αρκετές σημαντικοί πολιτιστικοί φορείς έχουν κάνει εδώ και καιρό τα δικά τους αρχεία προσβάσιμα στο κοινό ως αυτόνομα έργα, όπως το Μητροπολιτικό Μουσείο Τέχνης στη Νέα Υόρκη.

Ο Ed Newton-Rex, πρώην στέλεχος της Stability AI που τρέχει τώρα μια μη κερδοσκοπική οργάνωση που πιστοποιεί ηθικά εκπαιδευμένα εργαλεία τεχνητής νοημοσύνης, λέει ότι η άνοδος αυτών των συνόλων δεδομένων δείχνει ότι δεν υπάρχει ανάγκη κλοπής υλικού που προστατεύεται από πνευματικά δικαιώματα για τη δημιουργία μοντέλων τεχνητής νοημοσύνης υψηλής απόδοσης και ποιότητας. Η OpenAI είπε προηγουμένως στους νομοθέτες στο Ηνωμένο Βασίλειο ότι θα ήταν “αδύνατο” για να δημιουργηθούν προϊόντα όπως το ChatGPT χωρίς τη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα. «Τα μεγάλα σύνολα δεδομένων κοινού κτήματος όπως αυτά καταρρίπτουν περαιτέρω την «άμυνα της ανάγκης» που χρησιμοποιούν ορισμένες εταιρείες τεχνητής νοημοσύνης για να δικαιολογήσουν την scrapping έργων που προστατεύονται από πνευματικά δικαιώματα για να εκπαιδεύσουν τα μοντέλα τους», λέει ο Newton-Rex.

Ωστόσο, εξακολουθεί να έχει επιφυλάξεις σχετικά με το εάν το IDI και τα παρόμοια έργα θα αλλάξουν πραγματικά το status quo της εκπαίδευσης στην τεχνητή νοημοσύνη. «Αυτά τα σύνολα δεδομένων θα έχουν θετικό αντίκτυπο μόνο εάν χρησιμοποιούνται, πιθανώς σε συνδυασμό με την αδειοδότηση άλλων δεδομένων, για την αντικατάσταση των έργων που προστατεύονται από πνευματικά δικαιώματα.

Πηγή άρθρου: https://www.wired.com

Leave a Comment Cancel reply