ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Το Ίδρυμα Mozilla ενημερώνει τη βιβλιοθήκη φωνητικών δεδομένων ανοιχτού κώδικα

Το έργο Common Voice του Mozilla Foundation κυκλοφόρησε την περασμένη εβδομάδα, ένα ακόμα μεγάλο σύνολο φωνητικών δεδομένων.  Το έργο «Common Voice» από το Ίδρυμα Mozilla, έχει σαν στόχο να διδάξει στις μηχανές το πώς ακριβώς μιλούν οι άνθρωποι. Πρόκειται για μία προσπάθεια που βασίζεται στο crowdsourcing (πληθοπορισμός) για τη δημιουργία μίας παγκόσμιας βάσης φωνητικών δεδομένων που δε θα περιορίζεται από πνευματικά ή άλλα δικαιώματα, θα είναι προσβάσιμη από όλους ως Κοινό Κτήμα (άδεια CC-0) και θα μπορεί να αξιοποιηθεί ελεύθερα σε οποιοδήποτε λογισμικό αναγνώρισης ομιλίας.

Το έργο Common Voice διαθέτει ήδη 5,5 εκατομμύρια ηχητικά κλιπ σε 54 γλώσσες διάρκειας 7.226 ωρών.  Οι εθελοντές ανεβάζουν ηχογραφημένα κλιπ μιλώντας στο έργο Common Voice. Στη συνέχεια, οι καταγραφείσες προτάσεις συλλέγονται σε μια φωνητική βάση δεδομένων υπό την άδεια CC0. Αυτό επιτρέπει στους προγραμματιστές να χρησιμοποιούν τα κλιπ και τους περιορισμούς πνευματικών δικαιωμάτων.

Το Common Voice στοχεύει να καλύψει τα κενά που αφήνουν οι κοινές εφαρμογές φωνητικής τεχνολογίας, οι οποίες συχνά κρίνονται ότι δεν εκπαιδεύονται σε διαφορετικά σύνολα δεδομένων που αντιπροσωπεύουν μια σειρά από τόνους, διάλεκτους και γλώσσες. Μαζί με την πρόσφατη ενημέρωσή του στο Common Voice, η Mozilla βελτίωσε επίσης την ταχύτητα αναγνώρισης του DeepSpeech πρόσφατα.

Με το Project Common Voice, ο Mozilla ζητάει από όλους μας, να αφιερώσουμε λίγο χρόνο για εκφωνήσουμε να επικυρώσουμε τις προτάσεις που έχουμε εκφωνήσει κάνοντας τις απαραίτητες διορθώσεις. Όσο περισσότερες ώρες ομιλίας δωρίσουμε, τόσο καλύτερο και αξιόπιστο θα είναι το έργο Common Voice.

Εταιρείες όπως η Google ήδη εκπαιδεύουν την αναγνώριση ομιλίας τους (μαζί του και άλλα συστήματα AI) χρησιμοποιώντας τα δεδομένα σας. Είναι σε θέση να σας πείσουν να το πράξετε παρέχοντας τις «δωρεάν» υπηρεσίες τους. Στην περίπτωση του Mozilla, ο μηχανισμός αναγνώρισης ομιλίας είναι ανοιχτός κώδικας, οπότε η συμμετοχή όλων μας στην ανάπτυξή του είναι σημαντική για το μέλλον αυτής της τεχνολογίας και την επανάχρηση της και από άλλα έργα.

Μπορείτε δοκιμάσετε και να βοηθήσετε το έργο Common Voice  εδώ.

Leave a Comment