ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Ανοιχτός κώδικας και προηγμένα γλωσσικά νευρωνικά δίκτυα

Ως Κοινότητα Ανοιχτών Τεχνολογιών παρακολουθούμε την ανάπτυξη των μεγάλων γλωσσικών μοντέλων από τις αρχές του 2023. Μας ενδιαφέρει θερμά να εξετάσουμε το θέμα των μεγάλων γλωσσικών μοντέλων ανοιχτού κώδικα στην Ελληνική γλώσσα.

Η ανάγκη για ένα ικανό μοντέλο γλωσσικής επεξεργασίας στα ελληνικά προκύπτει από την σημαντικότατη ανάγκη να προστατευτούν τα ιδιωτικά δεδομένα, τα δεδομένα των επιχειρήσεων, αλλά και η γνώση που βρίσκεται στη δημόσια σφαίρα. Διαβλέπουμε μία νέα εποχή στην οποία μεγάλα τεχνολογικά μονοπώλια θα διαμεσολαβούν την πρόσβαση στην συλλογικά αποκτημένη και δημόσια γνώση, την οποία–αφομοιωμένη πλέον από τα προηγμένα γλωσσικά μοντέλα–μετασχηματίζουν σε μία μορφή την οποία κατέχουν και προστατεύουν.

Επιπλέον, η ενδεχόμενη ενσωμάτωση του GPT-4 στις δημόσιες υπηρεσίες και την ηλεκτρονική διακυβέρνηση θα διοχετεύσει μεγάλο όγκο προσωπικών και ευαίσθητων δεδομένων πολιτών σε ένα κλειστού κώδικα corpus δεδομένων εκπαίδευσης, ενισχύοντας την πρωτοκαθεδρία του συγκεκριμένου μοντέλου, και διευρύνοντας το χάσμα ανάμεσα στην OpenAI και τα ανοιχτού κώδικα μοντέλα.

Πέραν αυτού, αν και η ικανότητα ακόμα και του GPT-4 στα ελληνικά είναι σχετικά αξιοπρεπής, τα επιτεύγματα του που τόσο εντυπωσιάζουν στην αγγλική γλώσσα, δεν έχουν αναπαραχθεί στα ελληνικά. Αυτό θα δράσει ανασταλτικά σε ορισμένους πρωτοποριακούς τρόπους καθοδήγησης και παρότρυνσης του μοντέλου από ελληνόφωνους χρήστες. Και θα παράγει υποδεέστερα αποτελέσματα, τα οποία ίσως δεν είναι καν ευπαρουσίαστα για χρήση σε δημόσιες υπηρεσίες. 

Και δεν μπορούμε καν να το κρίνουμε ποσοτικά, αφού απουσιάζουν στη γλώσσα μας και οι περιεκτικές, τυποποιημένες, και αυτόματες δοκιμασίες απέναντι στις οποίες κρίνονται τα αγγλόφωνα μοντέλα.

Μακροπρόθεσμα, οι ελλείψεις αυτές θα εντείνουν το ψηφιακό και γλωσσικό χάσμα για τη χώρα μας. Στο ένα άκρο, οι τεχνικά καταρτισμένοι άνθρωποι που έχουν επιπλέον καλή γνώση της αγγλικής γλώσσας θα υιοθετήσουν τα μοντέλα πιθανοκρατικής παραγωγής λόγου και θα τα αξιοποιήσουν, ενώ στο άλλο οι πολίτες που αντιμετωπίζουν δυσκολίες στην υιοθέτηση των νέων τεχνολογιών και υπολείπονται στη χρήση της αγγλικής γλώσσας θα μείνουν αβοήθητοι σε μια παρελθοντική κατάσταση.

Δεν μπορούμε βεβαίως να γνωρίζουμε εκ των προτέρων ποια θα είναι η τελική κατάληξη μίας κατάστασης που εδώ και τώρα βρίσκεται υπό εξέλιξη. Αυτό που γνωρίζουμε ότι βρισκόμαστε σε ένα σημείο καμπής για τον Ανοιχτό Κώδικα. Σε πολλούς άλλους τομείς και εφαρμογές το λογισμικό ανοιχτού κώδικα είναι η επιλογή των τεχνικά καταρτισμένων εταιριών και οργανισμών. Στην παρούσα κατάσταση, απεναντίας, η OpenAI έπιασε εξ απήνης όλες τις εταιρείες που εργάζονταν για την ανάδειξη προϊόντων γλωσσικής τεχνολογίας και τεχνητής νοημοσύνης, παρέχοντας ένα κλειστό γλωσσικό μοντέλο τελευταίας γενιάς, που καθορίζει το μέτρο της επίδοσης των άλλων μοντέλων, και δεν έχει ίσης επίδοσης αντίστοιχο ανοικτού κώδικα.

Πολλοί ακόμα αναλυτές είναι απαισιόδοξοι για την ανατροπή αυτής της κατάστασης. Η OpenAI, υποστηρίζουν, είναι πολύ φτηνή για να χτυπηθεί. Είναι πολύ πιο οικονομικό για οποιαδήποτε εταιρεία να εντάξει την παραγωγική τεχνητή νοημοσύνη μέσα από πάμφθηνες κλήσεις στο GPT-4 παρά να αναπτύξει ιδιόκτητες λύσεις που θα φιλοξενήσει η ίδια. Και πολλοί τομείς υιοθετούν οργανικά τις λύσεις γλωσσικής τεχνολογίας για τις οποίες περιμένουν εδώ και αρκετά χρόνια. Τα γενικής χρήσης μοντέλα όπως το GPT-4 έχουν ήδη ξεπεράσει τις επιμέρους εφαρμογές νευρωνικών δικτύων, που πάσχιζαν να αναδειχθούν τα προηγούμενα χρόνια σε αυτοτελή προϊόντα και υπηρεσίες. Η αναγνώριση του τόνου ενός μηνύματος, η αποδελτίωση τύπου για χρηματιστηριακή και στρατηγική χρήση, η περίληψη και η μετάφραση κειμένου, και τόσες άλλες περιοχές της επεξεργασίας φυσικού λόγου, αφομοιώθηκαν μέσα σε ελάχιστους μήνες από το GPT-4. Έχουμε επομένως έναν μετασχηματισμό όλου του τομέα δραστηριοποίησης που αφορά στις γλωσσικές τεχνολογίες.

Όσο για το Llama, το μεγάλο γλωσσικό μοντέλο που ανέπτυξε και δημοσιοποίησε η Meta, δεν μπορούμε να γνωρίζουμε πως αυτή η μεγάλη μονοπωλιακή εταιρεία σχεδιάζει στρατηγικά να κερδοφορήσει με βάση την γρήγορη υιοθέτησή του ως ανοιχτού κώδικα εναλλακτικής του GPT-4. Η πρόσφατη εμπορική συμφωνία ανάμεσα στην Meta και την AWS, ώστε η τελευταία να παρέχει υπηρεσίες cloud για βαθμονόμηση του Llama, υποδεικνύει ότι ίσως και πάλι οδεύουμε σε μία κατάσταση τεχνολογικού ολιγοπωλίου, είτε το μοντέλο είναι ανοικτού κώδικα είτε όχι.

Πρέπει ακόμα να εμβαθύνουμε στο τί ακριβώς συνιστά “ανοιχτός κώδικας” στη περίπτωση των νευρωνικών δικτύων. Και ας μην ξεχνάμε πως εκτός από τους τελικά διαμορφωμένους συντελεστές που προκύπτουν από την εκπαίδευση του νευρωνικού δικτύου, τόσο η προέλευση, η προεπεξεργασία, ή η σύνθεση των δεδομένων, όσο και οι διαδικασίες εκπαίδευσης, βελτιστοποίησης και επαλήθευσης του μοντέλου, όλες αποτελούν οργανικά μέρη της αναπαραγωγιμότητας, ή μη, ενός μοντέλου νευρωνικών δικτύων.

Τα δεδομένα οφείλουν να είναι:

  • συγκεντρωμένα σύμφωνα με αρχές δεοντολογίας
  • προστατευτικά της ιδιωτικότητας
  • ελεύθερα από γλωσσικά εγκιβωτισμένες κυριαρχίες
  • διαφανή ως προς τη σύστασή τους
  • δημόσια προσβάσιμα
  • διαλειτουργικά

Οι διαδικασίες οφείλουν να είναι διαφανείς και αναπαραγώγιμες, αναφορικά με:

  • την εκπαίδευση
  • την επαλήθευση
  • τον ποιοτικό έλεγχο

Τόσο ως προς τα δεδομένα όσο και προς τις διαδικασίες, οι προβληματισμοί αυτοί είναι ουσιώδεις αν θέλουμε να “μεταφέρουμε” τις αρχές της ανοιχτότητας στο αναδυόμενο οικοσύστημα των προηγμένων, γλωσσικά ικανών, νευρωνικών δικτύων.

Για όλους τους λόγους που προαναφέρθηκαν επιδιώκουμε την ανάπτυξη ενός μεγάλου γλωσσικού μοντέλου ανοιχτού κώδικα στα ελληνικά, προς επανάχρηση από το ελληνικό οικοσύστημα καινοτομίας και την εγχώρια ερευνητική κοινότητα.

Χαρακτηριστικό εμπόδιο σε αυτήν την προσπάθεια είναι η χρόνια, ενδημική παραμέληση της δημόσιας χρηματοδότησης φιλόδοξων εγχειρημάτων συγκέντρωσης και επισημείωσης ελληνόφωνων κειμένων, τα οποία να διατίθενται με άδειες για ερευνητική επανάχρηση, και με σημασιολογικά και τεχνικά διαλειτουργική μορφή. Κρίνουμε ότι η ανάπτυξη των αγγλόφωνων γλωσσικών μοντέλων επιταχύνθηκε καθοριστικά από την διαθεσιμότητα μεγάλων, μηχανικά αναγνώσιμων, διαλειτουργικών corpora, τα οποία τα αμερικανικά χρηματοδοτικά όργανα και ερευνητικά ιδρύματα προάγουν εδώ και αρκετές δεκαετίες, και επί των οποίων εκπαιδευτηκαν εκτενώς τα νευρωνικά δίκτυα κατά την προηγούμενη δεκαετία.

Κοντά σε αυτά τα σώματα δεδομένων ήταν και η εμβάθυνση στις μεθοδολογίες αξιολόγησης της επίδοσης των νευρωνικών δικτύων που στράφηκε προς τις τεχνικές μέτρησης και της ανθρώπινης διανοητικής ικανότητας. Και αυτές οι έρευνες της προηγούμενης δεκαετίας έδωσαν ένα μετρήσιμο κριτήριο απέναντι στο οποίο εκπαιδεύτηκαν τα νευρωνικά δίκτυα, με αποτέλεσμα να τα βλέπουμε σήμερα να έχουν ικανοποιητικές επιδόσεις σε μία σειρά από τυποποιημένες δοκιμασίες γενικών, λυκειακών, νομικών, και άλλων γνώσεων. Και σε αυτό το κομμάτι υποδομών η χώρα μας πάσχει από έλλειψη σε δημόσια προσβάσιμες, επαναχρησιμοποιήσιμες δοκιμασίες, ακόμα και ως προς την ίδια τη γλωσσική ικανότητα μηχανών στην ελληνική γλώσσα.

Το χάσμα αυτό ανάμεσα στην ελληνόφωνη και την αγγλόφωνη γλωσσική τεχνολογία θα συνεχίσει να διευρύνεται και να επιδεινώνεται εξαιτίας του γρήγορου ρυθμού των εξελίξεων. Αν δεν επουλωθούν οι ελλείψεις αυτές, σε δομημένα, διαλειτουργικά σώματα κειμένων και δοκιμασίες αξιολόγησης της μηχανικής μάθησης στην ελληνική γλώσσα και πολιτισμική πραγματικότητα, η νέα εποχή της παραγωγικής τεχνητής νοημοσύνης θα οδηγήσει σε μία νέα εσοδεία κλειστής έρευνας η οποία δεν θα επαναδιατεθεί προς επανάχρηση από το εγχώριο οικοσύστημα έρευνας και καινοτομίας. Φτάνουμε έτσι στο σημείο που η αρχή “δημόσιο χρήμα – ανοιχτός κώδικας” όσον αφορά την προμήθεια λύσεων τεχνητής νοημοσύνης αποκτά μια χειροπιαστή υπόσταση, και αναδεικνύεται ως μονόδρομος εξόδου από το επαπειλούμενο ψηφιακό χάσμα, αλλά και τον μονοπωλιακό τεχνολογικό ολοκληρωτισμό.

Βρισκόμαστε αυτή τη στιγμή σε μία προσπάθεια καταγραφής και αξιολόγησης των πηγών δεδομένων και των υπαρχόντων προεκπαιδευμένων μοντέλων διαφορετικών αρχιτεκτονικών (BERT, GPT, κ.α.), και καλούμε όλα τα μέλη της ερευνητικής κοινότητας που δουλεύουν ανοιχτά και διαλειτουργικά να πάρουν μέρος και να γίνουν κομμάτι αυτής της προσπάθειας για συλλογική ανασυγκρότηση των ανοικτών γλωσσικών τεχνολογιών στα ελληνικά.

Σκοπός παραμένει το κλείσιμο της ψαλίδας του τεχνολογικού χάσματος ανάμεσα στις ελληνόφωνες και τις αγγλόφωνες γλωσσικές τεχνολογίες, και η απεξάρτηση της δημόσιας σφαίρας από τις κλειστές, ολιγοπωλιακές, και επικίνδυνες για την ιδιωτικότητα των πολιτών, τεχνολογικές λύσεις, στον τομέα των προηγμένων, γλωσσικά ικανών νευρωνικών δικτύων και όχι μόνο.

2 thoughts on “Ανοιχτός κώδικας και προηγμένα γλωσσικά νευρωνικά δίκτυα

Leave a Comment