Ο αριθμός των εφαρμογών και η σημασία των φωνητικών διεπαφών αυξάνεται ραγδαία

περιεχόμενο

μεγάλα τέσσερα
Οι Αμερικανοί θέλουν να αγοράσουν
Πλύντε, ψήστε, καθαρίστε!
Παλιά έννοια. Έφτασε επιτέλους η ώρα της;
τεχνικά δύσκολη ερώτηση
Φωνή? ΓΡΑΦΙΚΕΣ ΤΕΧΝΕΣ? Ή μήπως και τα δύο;
Προσοχή στην ασφάλεια!

Μια αμερικανική οικογένεια στο Πόρτλαντ του Όρεγκον έμαθε πρόσφατα ότι ο φωνητικός βοηθός του Άλεξ ηχογράφησε τις ιδιωτικές συνομιλίες τους και τις έστειλε σε έναν φίλο. Η ιδιοκτήτρια του σπιτιού, που ονομάστηκε Danielle από τα μέσα ενημέρωσης, είπε στους δημοσιογράφους ότι «δεν θα ξανασυνδέσει ποτέ αυτή τη συσκευή γιατί δεν μπορεί να είναι αξιόπιστη».

Alexa, που παρέχονται από ηχεία Echo (1) και άλλα gadget σε δεκάδες εκατομμύρια σπίτια στις Η.Π.Α., αρχίζει η εγγραφή όταν ακούει το όνομά του ή τη λέξη κλήσης που εκφωνείται από τον χρήστη. Αυτό σημαίνει ότι ακόμη και αν η λέξη "Alexa" αναφέρεται σε μια τηλεοπτική διαφήμιση, η συσκευή μπορεί να ξεκινήσει την εγγραφή. Αυτό ακριβώς συνέβη σε αυτήν την περίπτωση, λέει η Amazon, ο διανομέας υλικού.

«Το υπόλοιπο της συνομιλίας ερμηνεύτηκε από τον φωνητικό βοηθό ως εντολή αποστολής μηνύματος», ανέφερε η εταιρεία σε ανακοίνωσή της. «Κάποια στιγμή, η Alexa ρώτησε δυνατά: «Σε ποιον;» Η συνέχιση της οικογενειακής συζήτησης σχετικά με το δάπεδο από σκληρό ξύλο θα έπρεπε να είχε γίνει αντιληπτή από το μηχάνημα ως ένα στοιχείο στη λίστα επαφών του πελάτη.» Τουλάχιστον αυτό πιστεύει η Amazon. Έτσι, η μετάφραση περιορίζεται σε μια σειρά ατυχημάτων.

Η αγωνία όμως παραμένει. Γιατί για κάποιο λόγο, σε ένα σπίτι όπου αισθανόμασταν ακόμα άνετα, πρέπει να μπούμε σε κάποιο είδος «λειτουργίας φωνής», να δούμε τι λέμε, τι εκπέμπει η τηλεόραση και, φυσικά, τι είναι αυτό το νέο ηχείο στο στήθος του συρτάρια λέει . μας.

Ωστόσο, Παρά τις τεχνολογικές ατέλειες και τις ανησυχίες για το απόρρητο, με την αύξηση της δημοτικότητας συσκευών όπως το Amazon Echo, οι άνθρωποι αρχίζουν να συνηθίζουν στην ιδέα της αλληλεπίδρασης με υπολογιστές χρησιμοποιώντας τη φωνή τους..

Όπως σημείωσε ο Werner Vogels, CTO της Amazon, κατά τη διάρκεια της συνεδρίας του AWS re:Invent στα τέλη του 2017, η τεχνολογία έχει περιορίσει μέχρι στιγμής την ικανότητά μας να αλληλεπιδρούμε με υπολογιστές. Πληκτρολογούμε λέξεις-κλειδιά στο Google χρησιμοποιώντας το πληκτρολόγιο, καθώς αυτός εξακολουθεί να είναι ο πιο συνηθισμένος και ευκολότερος τρόπος εισαγωγής πληροφοριών σε ένα μηχάνημα.

είπε ο Βόγκελς. -

μεγάλα τέσσερα

Όταν χρησιμοποιούσαμε τη μηχανή αναζήτησης Google στο τηλέφωνο, πιθανότατα παρατηρήσαμε μια πινακίδα μικροφώνου με κλήση για ομιλία πριν από πολύ καιρό. Αυτό Google τώρα (2), το οποίο μπορεί να χρησιμοποιηθεί για την υπαγόρευση ενός ερωτήματος αναζήτησης, την εισαγωγή ενός μηνύματος μέσω φωνής κ.λπ. Τα τελευταία χρόνια, η Google, η Apple και η Amazon έχουν βελτιωθεί σημαντικά τεχνολογία αναγνώρισης φωνής. Οι βοηθοί φωνής όπως η Alexa, η Siri και ο Βοηθός Google όχι μόνο καταγράφουν τη φωνή σας, αλλά καταλαβαίνουν επίσης τι τους λέτε και απαντούν σε ερωτήσεις.

Το Google Now είναι διαθέσιμο δωρεάν σε όλους τους χρήστες Android. Η εφαρμογή μπορεί, για παράδειγμα, να ρυθμίσει ένα ξυπνητήρι, να ελέγξει την πρόγνωση του καιρού και να ελέγξει τη διαδρομή στους χάρτες Google. Επέκταση συνομιλίας των καταστάσεων Google Now Βοηθός Google () – εικονική βοήθεια στο χρήστη του εξοπλισμού. Διατίθεται κυρίως σε κινητές και έξυπνες οικιακές συσκευές. Σε αντίθεση με το Google Now, μπορεί να συμμετέχει σε αμφίδρομη ανταλλαγή. Ο βοηθός έκανε το ντεμπούτο του τον Μάιο του 2016 ως μέρος της εφαρμογής ανταλλαγής μηνυμάτων Google Allo, καθώς και στο φωνητικό ηχείο Google Home (3).

3. Google Home

Το σύστημα IOS έχει επίσης τον δικό του εικονικό βοηθό, Siri, το οποίο είναι ένα πρόγραμμα που περιλαμβάνεται στα λειτουργικά συστήματα iOS, watchOS, tvOS homepod και macOS της Apple. Το Siri έκανε το ντεμπούτο του με το iOS 5 και το iPhone 4s τον Οκτώβριο του 2011 στο συνέδριο Let's Talk iPhone.

Το λογισμικό βασίζεται σε μια διεπαφή συνομιλίας: αναγνωρίζει τη φυσική ομιλία του χρήστη (με το iOS 11 είναι επίσης δυνατή η μη αυτόματη εισαγωγή εντολών), απαντά σε ερωτήσεις και ολοκληρώνει εργασίες. Χάρη στην εισαγωγή της μηχανικής μάθησης, ένας βοηθός με την πάροδο του χρόνου αναλύει τις προσωπικές προτιμήσεις ο χρήστης να παρέχει πιο σχετικά αποτελέσματα και συστάσεις. Το Siri απαιτεί συνεχή σύνδεση στο Διαδίκτυο - οι κύριες πηγές πληροφοριών εδώ είναι το Bing και το Wolfram Alpha. Το iOS 10 παρουσίασε υποστήριξη για επεκτάσεις τρίτων.

Άλλος ένας από τους τέσσερις μεγάλους Κορτάνα. Είναι ένας έξυπνος προσωπικός βοηθός που δημιουργήθηκε από τη Microsoft. Υποστηρίζεται σε πλατφόρμες Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android και iOS. Η Cortana παρουσιάστηκε για πρώτη φορά στο Microsoft Build Developer Conference τον Απρίλιο του 2014 στο Σαν Φρανσίσκο. Το όνομα του προγράμματος προέρχεται από το όνομα ενός χαρακτήρα από τη σειρά παιχνιδιών Halo. Η Cortana είναι διαθέσιμη στα Αγγλικά, Ιταλικά, Ισπανικά, Γαλλικά, Γερμανικά, Κινέζικα και Ιαπωνικά.

Χρήστες του ήδη αναφερθέντος προγράμματος Alexa πρέπει επίσης να εξετάσουν τους γλωσσικούς περιορισμούς - ο ψηφιακός βοηθός μιλά μόνο αγγλικά, γερμανικά, γαλλικά και ιαπωνικά.

Το Amazon Virtual Assistant χρησιμοποιήθηκε για πρώτη φορά στα έξυπνα ηχεία Amazon Echo και Amazon Echo Dot που αναπτύχθηκαν από το Amazon Lab126. Επιτρέπει τη φωνητική αλληλεπίδραση, την αναπαραγωγή μουσικής, τη δημιουργία λίστας υποχρεώσεων, τη ρύθμιση ξυπνητηριού, τη ροή podcast, την αναπαραγωγή ηχητικών βιβλίων και τον καιρό, την κυκλοφορία, τα σπορ και άλλες πληροφορίες ειδήσεων, όπως ειδήσεις (4) σε πραγματικό χρόνο. Η Alexa μπορεί να ελέγξει πολλές έξυπνες συσκευές για να δημιουργήσει ένα σύστημα οικιακού αυτοματισμού. Μπορεί επίσης να χρησιμοποιηθεί για βολικές αγορές στο κατάστημα της Amazon.

4. Τι χρησιμοποιούν οι χρήστες το Echo (Σύμφωνα με την έρευνα)

Οι χρήστες μπορούν να βελτιώσουν την εμπειρία της Alexa εγκαθιστώντας το Alexa "skills" (), πρόσθετες λειτουργίες που αναπτύχθηκαν από τρίτους, οι οποίες αναφέρονται συνήθως ως εφαρμογές όπως ο καιρός και τα προγράμματα ήχου σε άλλες ρυθμίσεις. Οι περισσότερες συσκευές Alexa σάς επιτρέπουν να ενεργοποιήσετε τον εικονικό βοηθό σας με έναν κωδικό αφύπνισης, που ονομάζεται .

Η Amazon σίγουρα κυριαρχεί στην αγορά των έξυπνων ηχείων σήμερα (5). Η IBM, η οποία παρουσίασε μια νέα υπηρεσία τον Μάρτιο του 2018, προσπαθεί να μπει στην πρώτη τετράδα βοηθός του Watson, σχεδιασμένο για εταιρείες που θέλουν να δημιουργήσουν τα δικά τους συστήματα εικονικών βοηθών με φωνητικό έλεγχο. Ποιο είναι το πλεονέκτημα της λύσης της IBM; Σύμφωνα με εκπροσώπους της εταιρείας, πρώτα απ 'όλα, σε πολύ μεγαλύτερες ευκαιρίες για εξατομίκευση και προστασία της ιδιωτικής ζωής.

Πρώτον, το Watson Assistant δεν είναι επώνυμο. Οι εταιρείες μπορούν να δημιουργήσουν τις δικές τους λύσεις σε αυτήν την πλατφόρμα και να τις χαρακτηρίσουν με τη δική τους επωνυμία.

Δεύτερον, μπορούν να εκπαιδεύσουν τα υποστηρικτικά τους συστήματα χρησιμοποιώντας τα δικά τους σύνολα δεδομένων, τα οποία η IBM λέει ότι διευκολύνει την προσθήκη λειτουργιών και εντολών σε αυτό το σύστημα από άλλες τεχνολογίες VUI (φωνητική διεπαφή χρήστη).

Τρίτον, το Watson Assistant δεν παρέχει στην IBM πληροφορίες σχετικά με τη δραστηριότητα των χρηστών - οι προγραμματιστές λύσεων στην πλατφόρμα μπορούν μόνο να κρατήσουν πολύτιμα δεδομένα για τον εαυτό τους. Εν τω μεταξύ, όποιος κατασκευάζει συσκευές, για παράδειγμα με την Alexa, θα πρέπει να γνωρίζει ότι τα πολύτιμα δεδομένα του θα καταλήξουν στο Amazon.

Το Watson Assistant έχει ήδη αρκετές υλοποιήσεις. Το σύστημα χρησιμοποιήθηκε, για παράδειγμα, από τη Harman, η οποία δημιούργησε έναν φωνητικό βοηθό για το πρωτότυπο αυτοκίνητο της Maserati (6). Στο αεροδρόμιο του Μονάχου, ένας βοηθός της IBM εξουσιοδοτεί ένα ρομπότ Pepper να βοηθά τους επιβάτες να μετακινούνται. Το τρίτο παράδειγμα είναι η Chameleon Technologies, όπου η τεχνολογία φωνής χρησιμοποιείται σε έναν έξυπνο μετρητή σπιτιού.

6. Watson Assistant σε πρωτότυπο αυτοκίνητο της Maserati

Αξίζει να προστεθεί ότι η υποκείμενη τεχνολογία εδώ δεν είναι επίσης νέα. Το Watson Assistant περιλαμβάνει δυνατότητες κρυπτογράφησης για υπάρχοντα προϊόντα IBM, Watson Conversation και Watson Virtual Agent, καθώς και API για ανάλυση γλώσσας και συνομιλία.

Η Amazon δεν είναι μόνο ηγέτης στην τεχνολογία έξυπνης φωνής, αλλά τη μετατρέπει σε άμεση επιχείρηση. Ωστόσο, ορισμένες εταιρείες έχουν πειραματιστεί με την ενσωμάτωση Echo πολύ νωρίτερα. Η Sisense, μια εταιρεία στον κλάδο της BI και των αναλυτικών στοιχείων, εισήγαγε την ενσωμάτωση Echo τον Ιούλιο του 2016. Με τη σειρά της, η startup Roxy αποφάσισε να δημιουργήσει το δικό της λογισμικό και υλικό που ελέγχεται με φωνή για τον κλάδο της φιλοξενίας. Νωρίτερα φέτος, η Synqq παρουσίασε μια εφαρμογή λήψης σημειώσεων που χρησιμοποιεί επεξεργασία φωνής και φυσικής γλώσσας για να προσθέτει σημειώσεις και καταχωρήσεις ημερολογίου χωρίς να χρειάζεται να τις πληκτρολογείτε σε πληκτρολόγιο.

Όλες αυτές οι μικρές επιχειρήσεις έχουν υψηλές φιλοδοξίες. Κυρίως, όμως, έμαθαν ότι δεν θέλει κάθε χρήστης να μεταφέρει τα δεδομένα του στην Amazon, την Google, την Apple ή τη Microsoft, που είναι οι πιο σημαντικοί παίκτες στη δημιουργία πλατφορμών φωνητικής επικοινωνίας.

Οι Αμερικανοί θέλουν να αγοράσουν

Το 2016, η φωνητική αναζήτηση αντιπροσώπευε το 20% όλων των αναζητήσεων Google για κινητά. Οι άνθρωποι που χρησιμοποιούν αυτήν την τεχνολογία σε καθημερινή βάση αναφέρουν την ευκολία και την πολλαπλή εργασία της μεταξύ των μεγαλύτερων πλεονεκτημάτων της. (για παράδειγμα, η δυνατότητα χρήσης μηχανής αναζήτησης κατά την οδήγηση αυτοκινήτου).

Οι αναλυτές της Visiongain υπολογίζουν την τρέχουσα αγοραία αξία των έξυπνων ψηφιακών βοηθών σε 1,138 δισ. δολάρια. Υπάρχουν όλο και περισσότεροι τέτοιοι μηχανισμοί. Σύμφωνα με την Gartner, μέχρι το τέλος του 2018 ήδη 30% των αλληλεπιδράσεών μας με την τεχνολογία θα γίνει μέσω συνομιλιών με συστήματα φωνής.

Η βρετανική εταιρεία ερευνών IHS Markit εκτιμά ότι η αγορά ψηφιακών βοηθών με τεχνητή νοημοσύνη θα φτάσει τα 4 δισεκατομμύρια συσκευές μέχρι το τέλος του τρέχοντος έτους και ο αριθμός αυτός μπορεί να ανέλθει στα 2020 δισεκατομμύρια έως το 7.

Σύμφωνα με αναφορές από το eMarketer και το VoiceLabs, 2017 εκατομμύρια Αμερικανοί χρησιμοποιούσαν φωνητικό έλεγχο τουλάχιστον μία φορά το μήνα το 35,6. Αυτό σημαίνει αύξηση σχεδόν 130% σε σχέση με το προηγούμενο έτος. Μόνο η αγορά ψηφιακών βοηθών αναμένεται να αυξηθεί κατά 2018% το 23. Αυτό σημαίνει ότι θα τα χρησιμοποιείτε ήδη. 60,5 εκατομμύρια Αμερικανοί, που θα έχει ως αποτέλεσμα συγκεκριμένα χρήματα για τους παραγωγούς τους. Η RBC Capital Markets εκτιμά ότι η διεπαφή Alexa θα αποφέρει έσοδα έως και 2020 δισεκατομμυρίων δολαρίων για την Amazon έως το 10.

Πλύντε, ψήστε, καθαρίστε!

Οι φωνητικές διεπαφές εισέρχονται όλο και πιο τολμηρά στις αγορές οικιακών συσκευών και ηλεκτρονικών ειδών ευρείας κατανάλωσης. Αυτό φάνηκε ήδη κατά την περσινή έκθεση IFA 2017. Η αμερικανική εταιρεία Neato Robotics παρουσίασε, για παράδειγμα, μια ηλεκτρική σκούπα ρομπότ που συνδέεται με μια από πολλές πλατφόρμες έξυπνου σπιτιού, συμπεριλαμβανομένου του συστήματος Amazon Echo. Μιλώντας με το έξυπνο ηχείο Echo, μπορείτε να δώσετε εντολή στο μηχάνημα να καθαρίσει ολόκληρο το σπίτι σας συγκεκριμένες ώρες της ημέρας ή της νύχτας.

Στην έκθεση παρουσιάστηκαν και άλλα προϊόντα που ενεργοποιούνται με φωνή, από έξυπνες τηλεοράσεις που πωλούνται με την επωνυμία Toshiba από την τουρκική εταιρεία Vestel μέχρι θερμαινόμενες κουβέρτες της γερμανικής εταιρείας Beurer. Πολλές από αυτές τις ηλεκτρονικές συσκευές μπορούν επίσης να ενεργοποιηθούν εξ αποστάσεως χρησιμοποιώντας smartphone.

Ωστόσο, σύμφωνα με εκπροσώπους της Bosch, είναι πολύ νωρίς για να πούμε ποια από τις επιλογές οικιακού βοηθού θα γίνει κυρίαρχη. Στην IFA 2017, μια γερμανική τεχνική ομάδα παρουσίασε πλυντήρια ρούχων (7), φούρνους και μηχανές καφέ που συνδέονται με την Echo. Η Bosch θέλει επίσης οι συσκευές της να είναι συμβατές με τις πλατφόρμες φωνής Google και Apple στο μέλλον.

7. Πλυντήριο ρούχων Bosch που συνδέεται με το Amazon Echo

Εταιρείες όπως η Fujitsu, η Sony και η Panasonic αναπτύσσουν τις δικές τους λύσεις βοηθών φωνής που βασίζονται σε τεχνητή νοημοσύνη. Η Sharp προσθέτει αυτήν την τεχνολογία σε φούρνους και μικρά ρομπότ που εισέρχονται στην αγορά. Η Nippon Telegraph & Telephone προσλαμβάνει κατασκευαστές υλικού και παιχνιδιών για να προσαρμόσουν ένα σύστημα τεχνητής νοημοσύνης που ελέγχεται με φωνή.

Παλιά έννοια. Έφτασε επιτέλους η ώρα της;

Στην πραγματικότητα, η έννοια του Voice User Interface (VUI) υπάρχει εδώ και δεκαετίες. Όποιος παρακολούθησε το Star Trek ή το 2001: A Space Odyssey πριν από χρόνια, μάλλον περίμενε ότι γύρω στο 2000 όλοι θα ελέγχαμε τους υπολογιστές με τη φωνή μας. Επίσης, δεν ήταν μόνο οι συγγραφείς επιστημονικής φαντασίας που είδαν τις δυνατότητες αυτού του τύπου διεπαφής. Το 1986, ερευνητές της Nielsen ρώτησαν επαγγελματίες πληροφορικής ποια πίστευαν ότι θα ήταν η μεγαλύτερη αλλαγή στις διεπαφές χρήστη μέχρι το έτος 2000. Συχνά επεσήμαναν την ανάπτυξη διεπαφών φωνής.

Υπάρχουν λόγοι να ελπίζουμε σε μια τέτοια λύση. Η λεκτική επικοινωνία είναι τελικά ο πιο φυσικός τρόπος για να ανταλλάσσουν οι άνθρωποι συνειδητά σκέψεις, επομένως η χρήση της για αλληλεπίδραση ανθρώπου-μηχανής φαίνεται ως η καλύτερη λύση μέχρι στιγμής.

Ένα από τα πρώτα VUI, που ονομάζεται κουτί παπουτσιών, δημιουργήθηκε στις αρχές της δεκαετίας του '60 από την IBM. Ήταν ο πρόδρομος των σημερινών συστημάτων αναγνώρισης φωνής. Ωστόσο, η ανάπτυξη συσκευών VUI περιορίστηκε από τα όρια της υπολογιστικής ισχύος. Η ανάλυση και η ερμηνεία της ανθρώπινης ομιλίας σε πραγματικό χρόνο απαιτεί πολλή προσπάθεια και χρειάστηκαν περισσότερα από πενήντα χρόνια για να φτάσουμε στο σημείο όπου αυτό έγινε πραγματικά δυνατό.

Οι συσκευές με φωνητική διεπαφή άρχισαν να εμφανίζονται στη μαζική παραγωγή στα μέσα της δεκαετίας του '90, αλλά δεν κέρδισαν δημοτικότητα. Το πρώτο τηλέφωνο με φωνητικό έλεγχο (κλήση) ήταν Philips Sparkκυκλοφόρησε το 1996. Ωστόσο, αυτή η καινοτόμος και εύχρηστη συσκευή δεν ήταν απαλλαγμένη από τεχνολογικούς περιορισμούς.

Άλλα τηλέφωνα εξοπλισμένα με μορφές φωνητικής διεπαφής (που δημιουργούνται από εταιρείες όπως η RIM, η Samsung ή η Motorola) κυκλοφορούν τακτικά στην αγορά, επιτρέποντας στους χρήστες να καλούν φωνητικά ή να στέλνουν μηνύματα κειμένου. Όλοι τους όμως απαιτούσαν την απομνημόνευση συγκεκριμένων εντολών και την προφορά τους σε μια αναγκαστική, τεχνητή μορφή, προσαρμοσμένη στις δυνατότητες των συσκευών εκείνης της εποχής. Αυτό δημιούργησε μεγάλο αριθμό σφαλμάτων, τα οποία, με τη σειρά τους, οδήγησαν σε δυσαρέσκεια των χρηστών.

Ωστόσο, εισερχόμαστε τώρα σε μια νέα εποχή υπολογιστών, στην οποία η πρόοδος στη μηχανική μάθηση και η ανάπτυξη της τεχνητής νοημοσύνης ξεκλειδώνουν τις δυνατότητες της συνομιλίας ως ενός νέου τρόπου αλληλεπίδρασης με την τεχνολογία (8). Ο αριθμός των συσκευών που υποστηρίζουν τη φωνητική αλληλεπίδραση έχει γίνει ένας σημαντικός παράγοντας που είχε μεγάλο αντίκτυπο στην ανάπτυξη του VUI. Σήμερα, σχεδόν το 1/3 του παγκόσμιου πληθυσμού διαθέτει ήδη smartphone που μπορούν να χρησιμοποιηθούν για τέτοιου είδους συμπεριφορά. Φαίνεται ότι οι περισσότεροι χρήστες είναι τελικά έτοιμοι να προσαρμόσουν τις φωνητικές διεπαφές τους.

8. Σύγχρονη ιστορία της ανάπτυξης της διεπαφής φωνής

Ωστόσο, για να μπορέσουμε να μιλήσουμε ελεύθερα σε έναν υπολογιστή, όπως έκαναν οι χαρακτήρες του A Space Odyssey, πρέπει να ξεπεράσουμε μια σειρά από προβλήματα. Οι μηχανές δεν είναι ακόμα πολύ καλές στο χειρισμό γλωσσικών αποχρώσεων. εκτός Πολλοί άνθρωποι εξακολουθούν να αισθάνονται άβολα δίνοντας φωνητικές εντολές σε μια μηχανή αναζήτησης.

Οι στατιστικές δείχνουν ότι οι βοηθοί φωνής χρησιμοποιούνται κυρίως στο σπίτι ή σε στενούς φίλους. Κανένας από τους ερωτηθέντες δεν παραδέχτηκε ότι χρησιμοποίησε φωνητική αναζήτηση σε δημόσιους χώρους. Ωστόσο, αυτός ο αποκλεισμός είναι πιθανό να εξαφανιστεί με τη διάδοση αυτής της τεχνολογίας.

τεχνικά δύσκολη ερώτηση

Το πρόβλημα που αντιμετωπίζουν τα συστήματα (ASR) είναι η εξαγωγή χρήσιμων δεδομένων από ένα σήμα ομιλίας και η συσχέτισή τους με μια συγκεκριμένη λέξη που έχει ορισμένο νόημα για ένα άτομο. Οι ήχοι που παράγονται είναι διαφορετικοί κάθε φορά.

Μεταβλητότητα σήματος ομιλίας είναι η φυσική του ιδιότητα, χάρη στην οποία, για παράδειγμα, αναγνωρίζουμε έναν τόνο ή τονισμό. Κάθε στοιχείο του συστήματος αναγνώρισης ομιλίας έχει μια συγκεκριμένη εργασία. Με βάση το επεξεργασμένο σήμα και τις παραμέτρους του, δημιουργείται ένα ακουστικό μοντέλο, το οποίο συνδέεται με το μοντέλο γλώσσας. Το σύστημα αναγνώρισης μπορεί να λειτουργήσει με βάση έναν μικρό ή μεγάλο αριθμό μοτίβων, που καθορίζει το μέγεθος του λεξιλογίου με το οποίο λειτουργεί. Μπορεί να είναι μικρά λεξικά στην περίπτωση συστημάτων που αναγνωρίζουν μεμονωμένες λέξεις ή εντολές, καθώς και μεγάλες βάσεις δεδομένων που περιέχει το αντίστοιχο του γλωσσικού συνόλου και λαμβάνοντας υπόψη το γλωσσικό μοντέλο (γραμματική).

Προβλήματα που αντιμετωπίζουν αρχικά οι φωνητικές διεπαφές κατανοούν σωστά την ομιλία, στο οποίο, για παράδειγμα, συχνά παραλείπονται ολόκληρες γραμματικές ακολουθίες, εμφανίζονται γλωσσικά και φωνητικά λάθη, λάθη, παραλείψεις, ελαττώματα ομιλίας, ομώνυμα, αδικαιολόγητες επαναλήψεις κ.λπ. Όλα αυτά τα συστήματα ACP πρέπει να λειτουργούν γρήγορα και αξιόπιστα. Τουλάχιστον αυτές είναι οι προσδοκίες.

Η πηγή των δυσκολιών είναι επίσης ακουστικά σήματα εκτός από την αναγνωρισμένη ομιλία που εισέρχονται στην είσοδο του συστήματος αναγνώρισης, δηλ. όλα τα είδη παρεμβολές και θόρυβος. Στην πιο απλή περίπτωση, τα χρειάζεστε φιλτράρω. Αυτή η εργασία φαίνεται ρουτίνα και εύκολη - εξάλλου, διάφορα σήματα φιλτράρονται και κάθε ηλεκτρονικός μηχανικός ξέρει τι να κάνει σε μια τέτοια κατάσταση. Ωστόσο, αυτό πρέπει να γίνει πολύ προσεκτικά και προσεκτικά εάν το αποτέλεσμα της αναγνώρισης ομιλίας είναι να ανταποκριθεί στις προσδοκίες μας.

Το φιλτράρισμα που χρησιμοποιείται σήμερα καθιστά δυνατή την αφαίρεση, μαζί με το σήμα ομιλίας, του εξωτερικού θορύβου που λαμβάνεται από το μικρόφωνο και των εσωτερικών ιδιοτήτων του ίδιου του σήματος ομιλίας, που καθιστούν δύσκολη την αναγνώρισή του. Ωστόσο, ένα πολύ πιο περίπλοκο τεχνικό πρόβλημα προκύπτει όταν η παρεμβολή στο αναλυόμενο σήμα ομιλίας είναι ... ένα άλλο σήμα ομιλίας, δηλαδή, για παράδειγμα, δυνατές συζητήσεις τριγύρω. Αυτό το ερώτημα είναι γνωστό στη βιβλιογραφία ως το λεγόμενο . Αυτό απαιτεί ήδη τη χρήση πολύπλοκων μεθόδων, των λεγόμενων. αποσυνέλιξη (ξετυλίγοντας) το σήμα.

Τα προβλήματα με την αναγνώριση ομιλίας δεν σταματούν εκεί. Αξίζει να συνειδητοποιήσουμε ότι η ομιλία μεταφέρει πολλούς διαφορετικούς τύπους πληροφοριών. Η ανθρώπινη φωνή υποδηλώνει το φύλο, την ηλικία, τους διαφορετικούς χαρακτήρες του ιδιοκτήτη ή την κατάσταση της υγείας του. Υπάρχει ένα εκτεταμένο τμήμα βιοϊατρικής μηχανικής που ασχολείται με τη διάγνωση διαφόρων ασθενειών με βάση τα χαρακτηριστικά ακουστικά φαινόμενα που εντοπίζονται στο σήμα ομιλίας.

Υπάρχουν επίσης εφαρμογές όπου ο κύριος σκοπός της ακουστικής ανάλυσης ενός σήματος ομιλίας είναι η αναγνώριση του ομιλητή ή η επαλήθευση ότι είναι αυτός που ισχυρίζεται ότι είναι (φωνή αντί κλειδιού, κωδικός πρόσβασης ή κωδικός PUK). Αυτό μπορεί να είναι σημαντικό, ειδικά για τις έξυπνες τεχνολογίες κτιρίων.

Το πρώτο συστατικό ενός συστήματος αναγνώρισης ομιλίας είναι μικρόφωνο. Ωστόσο, το σήμα που λαμβάνεται από το μικρόφωνο παραμένει συνήθως ελάχιστα χρήσιμο. Οι μελέτες δείχνουν ότι το σχήμα και η πορεία του ηχητικού κύματος ποικίλλει σημαντικά ανάλογα με το άτομο, την ταχύτητα της ομιλίας και εν μέρει τη διάθεση του συνομιλητή - ενώ σε μικρό βαθμό αντικατοπτρίζουν το ίδιο το περιεχόμενο των προφορικών εντολών.

Επομένως, το σήμα πρέπει να υποβληθεί σε σωστή επεξεργασία. Η σύγχρονη ακουστική, η φωνητική και η επιστήμη των υπολογιστών παρέχουν μαζί ένα πλούσιο σύνολο εργαλείων που μπορούν να χρησιμοποιηθούν για την επεξεργασία, ανάλυση, αναγνώριση και κατανόηση ενός σήματος ομιλίας. Το δυναμικό φάσμα του σήματος, το λεγόμενο δυναμικά φασματογράμματα. Είναι αρκετά εύκολο να αποκτηθούν και η ομιλία, που παρουσιάζεται με τη μορφή δυναμικού φασματογράμματος, είναι σχετικά εύκολο να αναγνωριστεί χρησιμοποιώντας τεχνικές παρόμοιες με αυτές που χρησιμοποιούνται στην αναγνώριση εικόνας.

Απλά στοιχεία ομιλίας (για παράδειγμα, εντολές) μπορούν να αναγνωριστούν από την απλή ομοιότητα ολόκληρων φασματογραμμάτων. Για παράδειγμα, ένα λεξικό κινητού τηλεφώνου που ενεργοποιείται με φωνή περιέχει μόνο μερικές δεκάδες έως μερικές εκατοντάδες λέξεις και φράσεις, συνήθως προκατασκευασμένες έτσι ώστε να μπορούν να αναγνωρίζονται εύκολα και αποτελεσματικά. Αυτό είναι αρκετό για απλές εργασίες ελέγχου, αλλά περιορίζει σοβαρά τη συνολική εφαρμογή. Τα συστήματα που κατασκευάζονται σύμφωνα με το σχήμα, κατά κανόνα, υποστηρίζουν μόνο συγκεκριμένα ηχεία για τα οποία οι φωνές είναι ειδικά εκπαιδευμένες. Έτσι, αν υπάρχει κάποιος νέος που θέλει να χρησιμοποιήσει τη φωνή του για να ελέγξει το σύστημα, πιθανότατα δεν θα γίνει δεκτός.

Το αποτέλεσμα αυτής της λειτουργίας ονομάζεται Φασματογράφημα 2-W, δηλαδή ένα δισδιάστατο φάσμα. Υπάρχει μια ακόμη δραστηριότητα σε αυτό το μπλοκ που αξίζει να προσέξετε - κατάτμηση. Σε γενικές γραμμές, μιλάμε για τη διάσπαση ενός σήματος συνεχούς ομιλίας σε μέρη που μπορούν να αναγνωριστούν ξεχωριστά. Μόνο από αυτές τις επιμέρους διαγνώσεις γίνεται η αναγνώριση του συνόλου. Αυτή η διαδικασία είναι απαραίτητη γιατί δεν είναι δυνατός ο εντοπισμός μιας μεγάλης και σύνθετης ομιλίας με μια κίνηση. Ολόκληροι τόμοι έχουν ήδη γραφτεί σχετικά με τα τμήματα που θα διακρίνουμε σε ένα σήμα ομιλίας, επομένως δεν θα αποφασίσουμε τώρα εάν τα διακεκριμένα τμήματα θα πρέπει να είναι φωνήματα (ισοδύναμα ήχου), συλλαβές ή ίσως αλλόφωνα.

Η διαδικασία της αυτόματης αναγνώρισης αναφέρεται πάντα σε ορισμένα χαρακτηριστικά των αντικειμένων. Εκατοντάδες σύνολα διαφορετικών παραμέτρων έχουν δοκιμαστεί για το σήμα ομιλίας. Το σήμα ομιλίας έχει χωρίζεται σε αναγνωρισμένα πλαίσια και έχοντας επιλεγμένα χαρακτηριστικάόπου αυτά τα πλαίσια παρουσιάζονται στη διαδικασία αναγνώρισης, μπορούμε να εκτελέσουμε (για κάθε πλαίσιο ξεχωριστά) κατηγοριοποίηση, δηλ. εκχωρώντας ένα αναγνωριστικό στο πλαίσιο, το οποίο θα το αντιπροσωπεύει στο μέλλον.

Επόμενο στάδιο συναρμολόγηση πλαισίων σε ξεχωριστές λέξεις - πιο συχνά με βάση το λεγόμενο. μοντέλο σιωπηρών μοντέλων Markov (HMM-). Μετά έρχεται το μοντάζ των λέξεων Ολοκλήρωσε τις προτάσεις.

Μπορούμε τώρα να επιστρέψουμε στο σύστημα Alexa για λίγο. Το παράδειγμά του δείχνει μια διαδικασία πολλαπλών σταδίων μηχανικής «κατανόησης» ενός ατόμου - πιο συγκεκριμένα: μια εντολή που δόθηκε από αυτόν ή μια ερώτηση που τέθηκε.

Η κατανόηση των λέξεων, η κατανόηση του νοήματος και η κατανόηση της πρόθεσης του χρήστη είναι εντελώς διαφορετικά πράγματα.

Επομένως, το επόμενο βήμα είναι η εργασία της ενότητας NLP (), η αποστολή της οποίας είναι αναγνώριση πρόθεσης χρήστη, δηλ. το νόημα της εντολής/ερώτησης στο πλαίσιο στο οποίο εκφωνήθηκε. Αν εντοπιστεί η πρόθεση, τότε ανάθεση των λεγόμενων δεξιοτήτων και ικανοτήτων, δηλαδή η συγκεκριμένη δυνατότητα που υποστηρίζεται από τον έξυπνο βοηθό. Σε περίπτωση ερώτησης σχετικά με τον καιρό, καλούνται πηγές δεδομένων καιρού, οι οποίες μένει να επεξεργαστούν σε ομιλία (TTS - μηχανισμός). Ως αποτέλεσμα, ο χρήστης ακούει την απάντηση στην ερώτηση που τέθηκε.

Φωνή? ΓΡΑΦΙΚΕΣ ΤΕΧΝΕΣ? Ή μήπως και τα δύο;

Τα περισσότερα γνωστά σύγχρονα συστήματα αλληλεπίδρασης βασίζονται σε έναν ενδιάμεσο που ονομάζεται γραφικό περιβάλλον διεπαφής χρήστη (γραφική διεπαφή). Δυστυχώς, το GUI δεν είναι ο πιο προφανής τρόπος αλληλεπίδρασης με ένα ψηφιακό προϊόν. Αυτό απαιτεί οι χρήστες να μαθαίνουν πρώτα πώς να χρησιμοποιούν τη διεπαφή και να θυμούνται αυτές τις πληροφορίες με κάθε επόμενη αλληλεπίδραση. Σε πολλές περιπτώσεις, η φωνή είναι πολύ πιο βολική, επειδή μπορείτε να αλληλεπιδράσετε με το VUI απλά μιλώντας στη συσκευή. Μια διεπαφή που δεν αναγκάζει τους χρήστες να απομνημονεύουν και να απομνημονεύουν ορισμένες εντολές ή μεθόδους αλληλεπίδρασης προκαλεί λιγότερα προβλήματα.

Φυσικά, η επέκταση του VUI δεν σημαίνει την εγκατάλειψη των πιο παραδοσιακών διεπαφών - μάλλον θα είναι διαθέσιμες υβριδικές διεπαφές που συνδυάζουν διάφορους τρόπους αλληλεπίδρασης.

Η φωνητική διεπαφή δεν είναι κατάλληλη για όλες τις εργασίες σε περιβάλλον κινητού. Με αυτό, θα καλέσουμε έναν φίλο που οδηγεί αυτοκίνητο και θα του στείλουμε ένα SMS, αλλά ο έλεγχος των τελευταίων μεταφορών μπορεί να είναι πολύ δύσκολος - λόγω του όγκου των πληροφοριών που μεταδίδονται στο σύστημα () και δημιουργούνται από το σύστημα (σύστημα). Όπως προτείνει η Rachel Hinman στο βιβλίο της Mobile Frontier, η χρήση του VUI γίνεται πιο αποτελεσματική κατά την εκτέλεση εργασιών όπου η ποσότητα των πληροφοριών εισόδου και εξόδου είναι μικρή.

Ένα smartphone συνδεδεμένο στο Διαδίκτυο είναι βολικό αλλά και άβολο (9). Κάθε φορά που ένας χρήστης θέλει να αγοράσει κάτι ή να χρησιμοποιήσει μια νέα υπηρεσία, πρέπει να κατεβάσει μια άλλη εφαρμογή και να δημιουργήσει έναν νέο λογαριασμό. Εδώ έχει δημιουργηθεί ένα πεδίο για τη χρήση και την ανάπτυξη φωνητικών διεπαφών. Αντί να αναγκάζουν τους χρήστες να εγκαταστήσουν πολλές διαφορετικές εφαρμογές ή να δημιουργούν ξεχωριστούς λογαριασμούς για κάθε υπηρεσία, οι ειδικοί λένε ότι το VUI θα μετατοπίσει το βάρος αυτών των δυσκίνητων εργασιών σε έναν φωνητικό βοηθό με τεχνητή νοημοσύνη. Θα του είναι βολικό να κάνει επίπονες δραστηριότητες. Θα του δίνουμε μόνο εντολές.

9. Διασύνδεση φωνής μέσω έξυπνου τηλεφώνου

Σήμερα, περισσότερα από ένα τηλέφωνο και ένας υπολογιστής συνδέονται στο Διαδίκτυο. Στο δίκτυο συνδέονται επίσης έξυπνοι θερμοστάτες, φώτα, βραστήρες και πολλές άλλες ενσωματωμένες στο IoT συσκευές (10). Έτσι, υπάρχουν ασύρματες συσκευές παντού γύρω μας που γεμίζουν τη ζωή μας, αλλά δεν ταιριάζουν όλες φυσικά στη γραφική διεπαφή χρήστη. Η χρήση του VUI θα σας βοηθήσει να τα ενσωματώσετε εύκολα στο περιβάλλον μας.

10. Διασύνδεση φωνής με το Internet of Things

Η δημιουργία μιας φωνητικής διεπαφής χρήστη θα γίνει σύντομα βασική δεξιότητα του σχεδιαστή. Αυτό είναι ένα πραγματικό πρόβλημα - η ανάγκη εφαρμογής φωνητικών συστημάτων θα σας ενθαρρύνει να εστιάσετε περισσότερο στον προληπτικό σχεδιασμό, δηλαδή στην προσπάθεια κατανόησης των αρχικών προθέσεων του χρήστη, προβλέποντας τις ανάγκες και τις προσδοκίες του σε κάθε στάδιο της συνομιλίας.

Το Voice είναι ένας αποτελεσματικός τρόπος εισαγωγής δεδομένων—επιτρέπει στους χρήστες να εκδίδουν γρήγορα εντολές στο σύστημα με τους δικούς τους όρους. Από την άλλη πλευρά, η οθόνη παρέχει έναν αποτελεσματικό τρόπο εμφάνισης πληροφοριών: επιτρέπει στα συστήματα να εμφανίζουν μεγάλο όγκο πληροφοριών ταυτόχρονα, μειώνοντας την επιβάρυνση της μνήμης των χρηστών. Είναι λογικό ότι ο συνδυασμός τους σε ένα σύστημα ακούγεται ενθαρρυντικός.

Τα έξυπνα ηχεία όπως το Amazon Echo και το Google Home δεν προσφέρουν καθόλου οπτική οθόνη. Βελτιώνοντας σημαντικά την ακρίβεια της αναγνώρισης φωνής σε μέτριες αποστάσεις, επιτρέπουν τη λειτουργία hands-free, η οποία με τη σειρά της αυξάνει την ευελιξία και την αποτελεσματικότητά τους - είναι επιθυμητά ακόμη και για χρήστες που έχουν ήδη smartphone με φωνητικό έλεγχο. Ωστόσο, η έλλειψη οθόνης είναι ένας τεράστιος περιορισμός.

Μόνο ηχητικά σήματα μπορούν να χρησιμοποιηθούν για την ενημέρωση των χρηστών για πιθανές εντολές και η ανάγνωση της εξόδου φωναχτά γίνεται κουραστική, εκτός από τις πιο βασικές εργασίες. Η ρύθμιση ενός χρονοδιακόπτη με φωνητική εντολή κατά το μαγείρεμα είναι εξαιρετική, αλλά δεν είναι απαραίτητο να σας κάνει να ρωτάτε πόσος χρόνος απομένει. Η λήψη μιας τακτικής πρόγνωσης καιρού γίνεται ένα τεστ μνήμης για τον χρήστη, ο οποίος πρέπει να ακούει και να απορροφά μια σειρά από γεγονότα όλη την εβδομάδα, αντί να τα παίρνει από την οθόνη με μια ματιά.

Οι σχεδιαστές έχουν ήδη υβριδικό διάλυμα, Echo Show (11), το οποίο πρόσθεσε μια οθόνη εμφάνισης στο βασικό έξυπνο ηχείο Echo. Αυτό επεκτείνει σημαντικά τη λειτουργικότητα του εξοπλισμού. Ωστόσο, το Echo Show εξακολουθεί να είναι πολύ λιγότερο ικανό να εκτελεί τις βασικές λειτουργίες που ήταν από καιρό διαθέσιμες σε smartphone και tablet. Δεν μπορεί (ακόμα) να σερφάρει στον Ιστό, να εμφανίσει κριτικές ή να εμφανίσει τα περιεχόμενα ενός καλαθιού αγορών Amazon, για παράδειγμα.

Η οπτική απεικόνιση είναι εγγενώς ένας πιο αποτελεσματικός τρόπος παροχής στους ανθρώπους πληθώρας πληροφοριών από τον ήχο. Η σχεδίαση με προτεραιότητα φωνής μπορεί να βελτιώσει σημαντικά τη φωνητική αλληλεπίδραση, αλλά μακροπρόθεσμα, η αυθαίρετη μη χρήση του οπτικού μενού για χάρη της αλληλεπίδρασης θα είναι σαν να παλεύετε με το ένα χέρι δεμένο πίσω από την πλάτη σας. Λόγω της διαφαινόμενης πολυπλοκότητας των έξυπνων διεπαφών φωνής και οθόνης από άκρο σε άκρο, οι προγραμματιστές θα πρέπει να εξετάσουν σοβαρά μια υβριδική προσέγγιση στις διεπαφές.

Η αύξηση της αποτελεσματικότητας και της ταχύτητας των συστημάτων παραγωγής και αναγνώρισης ομιλίας κατέστησε δυνατή τη χρήση τους σε εφαρμογές και τομείς όπως, για παράδειγμα:

• στρατιωτικές (φωνητικές εντολές σε αεροπλάνα ή ελικόπτερα, για παράδειγμα, F16 VISTA),

• αυτόματη μεταγραφή κειμένου (ομιλία σε κείμενο),

• διαδραστικά συστήματα πληροφοριών (Prime Speech, πύλες φωνής),

• φορητές συσκευές (τηλέφωνα, smartphone, tablet),

• ρομποτική (συστήματα Cleverbot - ASR σε συνδυασμό με τεχνητή νοημοσύνη),

• αυτοκίνητα (έλεγχος hands-free εξαρτημάτων αυτοκινήτου, όπως το Blue & Me),

• οικιακές εφαρμογές (έξυπνα οικιακά συστήματα).

Προσοχή στην ασφάλεια!

Τα αυτοκίνητα, οι οικιακές συσκευές, τα συστήματα θέρμανσης/ψύξης και οικιακής ασφάλειας και μια σειρά από οικιακές συσκευές αρχίζουν να χρησιμοποιούν φωνητικές διεπαφές, συχνά βασισμένες σε τεχνητή νοημοσύνη. Σε αυτό το στάδιο, αποστέλλονται τα δεδομένα που λαμβάνονται από εκατομμύρια συνομιλίες με μηχανήματα υπολογιστικά σύννεφα. Είναι σαφές ότι οι έμποροι ενδιαφέρονται για αυτά. Και όχι μόνο αυτοί.

Μια πρόσφατη έκθεση από ειδικούς σε θέματα ασφάλειας της Symantec συνιστά στους χρήστες φωνητικών εντολών να μην ελέγχουν χαρακτηριστικά ασφαλείας όπως κλειδαριές θυρών, πόσο μάλλον συστήματα ασφαλείας στο σπίτι. Το ίδιο ισχύει και για την αποθήκευση κωδικών πρόσβασης ή εμπιστευτικών πληροφοριών. Η ασφάλεια της τεχνητής νοημοσύνης και των έξυπνων προϊόντων δεν έχει ακόμη μελετηθεί επαρκώς.

Όταν οι συσκευές σε όλο το σπίτι ακούν κάθε λέξη, ο κίνδυνος εισβολής και κακής χρήσης του συστήματος γίνεται εξαιρετικά σημαντικό ζήτημα. Εάν ένας εισβολέας αποκτήσει πρόσβαση στο τοπικό δίκτυο ή στις συσχετισμένες διευθύνσεις email του, οι ρυθμίσεις της έξυπνης συσκευής μπορούν να αλλάξουν ή να επαναφερθούν στις εργοστασιακές ρυθμίσεις, γεγονός που θα οδηγήσει στην απώλεια πολύτιμων πληροφοριών και στη διαγραφή του ιστορικού χρήστη.

Με άλλα λόγια, οι επαγγελματίες ασφάλειας φοβούνται ότι η τεχνητή νοημοσύνη και το VUI που βασίζονται στη φωνή δεν είναι ακόμη αρκετά έξυπνα ώστε να μας προστατεύουν από πιθανές απειλές και να κρατούν το στόμα μας κλειστό όταν κάποιος άγνωστος ζητά κάτι.