To πρώτο σύνολο φωνητικών δεδομένων από το έργο Common Voice του Mozilla, είναι διαθέσιμο!

Το Mozilla Foundation ξεκίνησε το καλοκαίρι ένα νέο έργο ανοιχτού κώδικα με την ονομασία Common Voice. Το Common Voice, είναι ένα σύστημα αναγνώρισης ομιλίας ανοιχτού κώδικα που βασίζεται σε εθελοντές που υποβάλουν δείγματα της ομιλίας τους και επικυρώνουν την ακρίβεια τους. Ο Mozilla στοχεύει στη συλλογή δειγμάτων ομιλίας από εθελοντές για την εκπαίδευση μιας εφαρμογής ανοιχτού κώδικα για την αναγνώριση ομιλίας.

Εταιρείες όπως η Google ήδη εκπαιδεύουν την αναγνώριση ομιλίας τους (μαζί του και άλλα συστήματα AI) χρησιμοποιώντας τα δεδομένα σας. Είναι σε θέση να σας πείσουν να το πράξετε παρέχοντας τις «δωρεάν» υπηρεσίες τους. Στην περίπτωση του Mozilla, ο μηχανισμός αναγνώρισης ομιλίας είναι ανοιχτός κώδικας, οπότε η συμμετοχή όλων μας στην ανάπτυξή του είναι σημαντική για το μέλλον αυτής της τεχνολογίας και την επανάχρηση της και από άλλα έργα.

Λίγους μετά το Common Voice, έχει συγκεντρώσει εκατοντάδες χιλιάδες δείγματα φωνής και πριν από λίγες μέρες δημοσίευσε με ελεύθερη άδεια Κοινού κτήματος την πρώτη έκδοση αυτής της φωνητικής συλλογής. Αυτή η συλλογή περιέχει περίπου 400.000 εγγραφές από 20.000 διαφορετικούς ανθρώπους, με αποτέλεσμα περίπου 500 ώρες ομιλίας. Μέχρι σήμερα είναι ήδη το δεύτερο μεγαλύτερο δημόσιο φωνητικό σύνολο δεδομένων που γνωρίζουμε και οι άνθρωποι σε όλο τον κόσμο προσθέτουν και επικυρώνουν νέα δείγματα όλη την ώρα!

Μέχρι πριν από λίγο καιρό, πολλοί προγραμματιστές, κατασκευαστές, νεοφυείς επιχειρήσεις και ερευνητές που ήθελαν να πειραματιστούν και να αναπτύξουν τεχνολογίες με φωνής, είχαν πρόσβαση σε μια αρκετά περιορισμένη συλλογή δεδομένων φωνής. Αυτά τα φωνητικά δεδομένα μπορεί να κοστίζουν πάνω από δεκάδες χιλιάδες δολάρια και είναι ανεπαρκή σε κλίμακα για τη δημιουργία αναγνώρισης ομιλίας σε επίπεδο που οι άνθρωποι περιμένουν. Με την παροχή αυτού του νέου δημόσιου συνόλου δεδομένων, το Mozilla Foundation θέλει να βοηθήσει να ξεπεραστούν αυτά τα εμπόδια και να διευκολυνθεί η δημιουργία νέων και καλύτερων συστημάτων αναγνώρισης ομιλίας. Επιπρόσθετα σκοπεύει να υποστηρίξει και άλλες γλώσσες εκτός από τα Αγγλικά και να ανοίξει η τεχνολογία ομιλίας έτσι ώστε περισσότεροι άνθρωποι να μπορούν να εμπλακούν, να καινοτομήσουν και να ανταγωνιστούν τους μεγαλύτερους παίκτες.

Αν ενδιαφέρεστε να μάθετε περισσότερα για το έργο για την αναγνώριση ομιλίας ανοιχτού κώδικα “Deep Speech” και πώς μπορούν να χρησιμοποιηθούν τα δεδομένα Common Voice για τη δημιουργία καλύτερων προϊόντων αναγνώρισης ομιλίας, διαβάστε και το άρθρο του Reuben Morais από την Machine Learning team του Mozilla με τίτλο “Journey to <10% Word Error Rate”. Παρέχει μια συναρπαστική περίληψη των προκλήσεων και των προβλημάτων που αντιμετωπίζει το πρώτο μοντέλο αναγνώρισης ομιλίας ανοικτού κώδικα.

Φυσικά, το έργο Common Voice, χρειάζετε ακόμα την βοήθεια όλων μας. Όσο περισσότερες ώρες ομιλίας δωρίσουμε, τόσο καλύτερο και αξιόπιστο θα είναι το έργο Common Voice.

Πηγή άρθρου: https://medium.com/

Leave a Comment Cancel reply