Głosowy interfejs użytkownika - Voice user interface

Interfejsu głosowego użytkownika ( VUI ) sprawia Porozumiewanie ludzkiego komputerom możliwe, przy użyciu rozpoznawania mowy , aby zrozumieć wypowiadane komendy i odpowiedzi na pytania i zazwyczaj tekstu na mowę grać odpowiedź. Urządzenie do sterowania głosem ( VCD ) to urządzenie sterowane za pomocą głosowego interfejsu użytkownika.

Głosowe interfejsy użytkownika zostały dodane do samochodów , systemów automatyki domowej , komputerowych systemów operacyjnych , urządzeń gospodarstwa domowego, takich jak pralki i kuchenki mikrofalowe , oraz pilotów do telewizorów . Są podstawowym sposobem interakcji z wirtualnymi asystentami na smartfonach i inteligentnych głośnikach . Starsi zautomatyzowani recepcjoniści (którzy kierują połączenia telefoniczne do właściwego numeru wewnętrznego) i interaktywne systemy odpowiedzi głosowej (które przeprowadzają bardziej skomplikowane transakcje przez telefon) mogą reagować na naciskanie przycisków klawiatury za pomocą tonów DTMF , ale te z pełnym interfejsem głosowym umożliwiają dzwoniącym wypowiadać prośby i odpowiedzi bez konieczności naciskania jakichkolwiek przycisków.

Nowsze płyty VCD są niezależne od głośnika, dzięki czemu mogą reagować na wiele głosów, niezależnie od akcentu lub wpływów dialektalnych. Potrafią też odpowiadać na kilka poleceń na raz, oddzielając komunikaty głosowe i przekazując odpowiednią informację zwrotną , dokładnie naśladując naturalną rozmowę.

Przegląd

VUI to interfejs do dowolnej aplikacji głosowej. Jeszcze niedawno sterowanie maszyną poprzez zwykłą rozmowę z nią było science fiction . Do niedawna ten obszar uważany był za sztuczną inteligencję . Jednak postępy w technologiach, takich jak zamiana tekstu na mowę, zamiana mowy na tekst, przetwarzanie języka naturalnego i ogólnie usługi w chmurze, przyczyniły się do masowego przyjęcia tego typu interfejsów. VUIs stały się bardziej powszechne, a ludzie wykorzystują wartości, że te wolne ręce , oczy wolne interfejsy zapewniają w wielu sytuacjach.

VUI muszą niezawodnie reagować na dane wejściowe, w przeciwnym razie zostaną odrzucone i często wyśmiewane przez użytkowników. Zaprojektowanie dobrego VUI wymaga interdyscyplinarnych talentów informatyki , lingwistyki i psychologii czynnika ludzkiego – wszystko to umiejętności, które są drogie i trudne do zdobycia. Nawet przy użyciu zaawansowanych narzędzi programistycznych, zbudowanie efektywnego VUI wymaga dogłębnego zrozumienia zarówno zadań do wykonania, jak i odbiorców docelowych, którzy będą korzystać z finalnego systemu. Im bardziej VUI odpowiada mentalnemu modelowi zadania użytkownika, tym łatwiej będzie z niego korzystać przy niewielkim lub żadnym treningu, co skutkuje zarówno wyższą wydajnością, jak i wyższą satysfakcją użytkownika.

Interfejs VUI przeznaczony dla ogółu społeczeństwa powinien kłaść nacisk na łatwość użytkowania oraz zapewniać wiele pomocy i wskazówek osobom dzwoniącym po raz pierwszy. W przeciwieństwie do tego, VUI zaprojektowany dla małej grupy zaawansowanych użytkowników (w tym pracowników terenowych) powinien skupiać się bardziej na produktywności, a mniej na pomocy i wskazówkach. Takie aplikacje powinny usprawniać przepływ połączeń, minimalizować monity, eliminować niepotrzebne iteracje i umożliwiać rozbudowane „ dialogi o mieszanej inicjatywie ”, które umożliwiają dzwoniącym wprowadzanie kilku informacji w jednej wypowiedzi, w dowolnej kolejności lub kombinacji. Krótko mówiąc, aplikacje głosowe muszą być starannie przygotowane do konkretnego procesu biznesowego, który jest zautomatyzowany.

Nie wszystkie procesy biznesowe sprawdzają się równie dobrze w przypadku automatyzacji mowy. Ogólnie rzecz biorąc, im bardziej złożone są zapytania i transakcje, tym trudniej będzie je zautomatyzować i tym bardziej prawdopodobne jest, że zawiodą wśród ogółu społeczeństwa. W niektórych scenariuszach automatyzacja po prostu nie ma zastosowania, więc jedyną opcją jest pomoc agenta na żywo. Na przykład infolinia porad prawnych byłaby bardzo trudna do zautomatyzowania. Z drugiej strony, mowa doskonale nadaje się do obsługi szybkich i rutynowych transakcji, takich jak zmiana statusu zlecenia pracy, wypełnianie wpisu czasu lub wydatków lub przelewanie środków między kontami.

Historia

Wczesne aplikacje dla VUI obejmowały aktywowane głosem wybieranie numerów telefonów, bezpośrednio lub za pośrednictwem zestawu słuchawkowego (zwykle Bluetooth ) lub samochodowego systemu audio.

W 2007 roku artykuł biznesowy CNN donosił, że polecenia głosowe to branża warta ponad miliard dolarów, a firmy takie jak Google i Apple próbowały stworzyć funkcje rozpoznawania mowy. Od publikacji artykułu minęły lata i od tego czasu na świecie pojawiło się wiele różnych urządzeń do sterowania głosowego. Ponadto Google stworzył silnik rozpoznawania mowy o nazwie Pico TTS, a Apple wypuściło Siri. Urządzenia do sterowania głosem stają się coraz szerzej dostępne i wciąż powstają innowacyjne sposoby korzystania z ludzkiego głosu. Na przykład Business Week sugeruje, że w przyszłości pilot zdalnego sterowania będzie ludzkim głosem. Obecnie Xbox Live pozwala na takie funkcje i Jobs zasugerował taką funkcję w nowym Apple TV .

Oprogramowanie do poleceń głosowych na urządzeniach komputerowych

Zarówno Apple Mac, jak i Windows PC zapewniają wbudowane funkcje rozpoznawania mowy w swoich najnowszych systemach operacyjnych .

Microsoft Windows

Dwa systemy operacyjne firmy Microsoft, Windows 7 i Windows Vista , zapewniają funkcje rozpoznawania mowy. Firma Microsoft zintegrowała polecenia głosowe ze swoimi systemami operacyjnymi, aby zapewnić mechanizm osobom, które chcą ograniczyć korzystanie z myszy i klawiatury, ale nadal chcą utrzymać lub zwiększyć ogólną produktywność.

Windows Vista

Dzięki sterowaniu głosowemu w systemie Windows Vista użytkownik może dyktować dokumenty i wiadomości e-mail w popularnych aplikacjach, uruchamiać aplikacje i przełączać się między nimi, sterować systemem operacyjnym, formatować dokumenty, zapisywać dokumenty, edytować pliki, skutecznie poprawiać błędy i wypełniać formularze w Internecie . Oprogramowanie do rozpoznawania mowy uczy się automatycznie za każdym razem, gdy użytkownik z niego korzysta, a rozpoznawanie mowy jest dostępne w języku angielskim (USA), angielskim (Wielka Brytania), niemieckim (Niemcy), francuskim (Francja), hiszpańskim (Hiszpania), japońskim, chińskim (tradycyjnym) i chiński (uproszczony). Dodatkowo do oprogramowania dołączony jest interaktywny samouczek, za pomocą którego można przeszkolić zarówno użytkownika, jak i mechanizm rozpoznawania mowy.

System Windows 7

Oprócz wszystkich funkcji dostępnych w systemie Windows Vista, system Windows 7 udostępnia kreatora konfiguracji mikrofonu oraz samouczek dotyczący korzystania z tej funkcji.

Mac OS X

Na wszystkich komputerach z systemem Mac OS X jest fabrycznie zainstalowane oprogramowanie do rozpoznawania mowy. Oprogramowanie jest niezależne od użytkownika i umożliwia użytkownikowi „nawigację po menu i wprowadzanie skrótów klawiaturowych, wypowiadanie nazw pól wyboru, nazw przycisków opcji, elementów list i nazw przycisków; otwieranie, zamykanie, sterowanie i przełączanie między aplikacjami. " Jednak witryna Apple zaleca użytkownikowi zakup produktu komercyjnego o nazwie Dictate .

Produkty komercyjne

Jeśli użytkownik nie jest zadowolony z wbudowanego oprogramowania do rozpoznawania mowy lub nie ma wbudowanego oprogramowania do rozpoznawania mowy dla swojego systemu operacyjnego, może poeksperymentować z produktem komercyjnym, takim jak Braina Pro lub DragonNaturallySpeaking na komputery z systemem Windows i Dyktować, nazwa tego samego oprogramowania dla systemu Mac OS.

Urządzenia mobilne z poleceniami głosowymi

Każde urządzenie mobilne z systemem Android OS, Microsoft Windows Phone, iOS 9 lub nowszym albo Blackberry OS udostępnia funkcje poleceń głosowych. Oprócz wbudowanego oprogramowania do rozpoznawania mowy dla każdego systemu operacyjnego telefonu komórkowego, użytkownik może pobierać aplikacje poleceń głosowych innych firm ze sklepu z aplikacjami każdego systemu operacyjnego: Apple App Store , Google Play , Windows Phone Marketplace (początkowo Windows Marketplace for Mobile ) lub Świat aplikacji BlackBerry .

System operacyjny Android

Google opracowało system operacyjny typu open source o nazwie Android , który umożliwia użytkownikowi wykonywanie poleceń głosowych, takich jak: wysyłanie wiadomości tekstowych, słuchanie muzyki, uzyskiwanie wskazówek, dzwonienie do firm, dzwonienie do kontaktów, wysyłanie e-maili, wyświetlanie mapy, odwiedzanie stron internetowych, napisz notatkę i wyszukaj w Google. Oprogramowanie do rozpoznawania mowy jest dostępne dla wszystkich urządzeń od wersji Androida 2.2 „Froyo” , ale ustawienia muszą być ustawione na język angielski. Google umożliwia użytkownikowi zmianę języka, a przy pierwszym użyciu funkcji rozpoznawania mowy użytkownik jest proszony o powiązanie danych głosowych z jego kontem Google. Jeśli użytkownik zdecyduje się na skorzystanie z tej usługi, umożliwi to Google dostosowanie oprogramowania do głosu użytkownika.

Firma Google wprowadziła Asystenta Google z systemem Android 7.0 „Nougat” . Jest znacznie bardziej zaawansowana niż starsza wersja.

Amazon.com ma Echo, które wykorzystuje niestandardową wersję Androida Amazona, aby zapewnić interfejs głosowy.

Microsoft Windows

Windows Phone to system operacyjny urządzenia mobilnego firmy Microsoft . W systemie Windows Phone 7.5 aplikacja głosowa jest niezależna od użytkownika i może być używana do: dzwonienia do kogoś z listy kontaktów, dzwonienia na dowolny numer telefonu, ponownego wybierania ostatniego numeru, wysyłania wiadomości tekstowej, dzwonienia na pocztę głosową, otwierania aplikacji, czytania spotkań , sprawdzaj stan telefonu i przeszukuj internet. Ponadto podczas rozmowy telefonicznej można również używać mowy, a podczas rozmowy telefonicznej możliwe są następujące czynności: naciśnięcie numeru, włączenie głośnika lub połączenie z kimś, co zawiesza bieżące połączenie.

Windows 10 wprowadza Cortanę , system sterowania głosowego, który zastępuje wcześniej używane sterowanie głosowe w telefonach z systemem Windows.

iOS

Firma Apple dodała sterowanie głosowe do swojej rodziny urządzeń iOS jako nową funkcję iPhone OS 3 . IPhone 4S , iPad 3 , iPad mini 1G , iPad Air , iPad Pro 1G , iPod Touch 5G i później, wszystkie pochodzą z bardziej zaawansowanego asystenta głosowego o nazwie Siri . Sterowanie głosowe można nadal włączyć w menu Ustawienia nowszych urządzeń. Siri to niezależna od użytkownika wbudowana funkcja rozpoznawania mowy, która umożliwia użytkownikowi wydawanie poleceń głosowych. Za pomocą Siri użytkownik może wydawać polecenia typu, wysłać SMS, sprawdzić pogodę, ustawić przypomnienie, znaleźć informacje, zaplanować spotkania, wysłać e-mail, znaleźć kontakt, ustawić alarm, uzyskać wskazówki dojazdu, śledzić stany magazynowe, ustaw timer i poproś o przykładowe zapytania głosowe. Ponadto Siri współpracuje z Bluetooth i słuchawkami przewodowymi.

Amazonka Alexa

W 2014 roku Amazon wprowadził inteligentne urządzenie domowe Alexa . Jego głównym przeznaczeniem był po prostu inteligentny głośnik, który pozwalał konsumentowi sterować urządzeniem za pomocą głosu. Ostatecznie przekształciło się w nowatorskie urządzenie, które miało możliwość sterowania sprzętem domowym za pomocą głosu. Teraz za pomocą Alexy można sterować prawie wszystkimi urządzeniami, w tym żarówkami i temperaturą. Pozwalając na sterowanie głosowe, Alexa może połączyć się z technologią inteligentnego domu, umożliwiając zablokowanie domu, kontrolę temperatury i aktywację różnych urządzeń. Ta forma sztucznej inteligencji pozwala komuś po prostu zadać mu pytanie, a w odpowiedzi Alexa szuka, znajduje i recytuje odpowiedź.

Rozpoznawanie mowy w samochodach

Wraz z rozwojem technologii samochodowej, do samochodów będzie dodawanych więcej funkcji, które najprawdopodobniej będą rozpraszać kierowcę. Polecenia głosowe dla samochodów, według CNET , powinny umożliwiać kierowcy wydawanie poleceń i nie rozpraszać się. CNET stwierdził, że Nuance sugerował, że w przyszłości stworzy oprogramowanie przypominające Siri, ale dla samochodów. Większość oprogramowania do rozpoznawania mowy na rynku w 2011 roku miała tylko około 50 do 60 poleceń głosowych, ale Ford Sync miał 10 000. Jednak CNET zasugerował, że nawet 10 000 poleceń głosowych to za mało, biorąc pod uwagę złożoność i różnorodność zadań, jakie użytkownik może chcieć wykonywać podczas jazdy. Polecenia głosowe dla samochodów różnią się od poleceń głosowych dla telefonów komórkowych i komputerów, ponieważ kierowca może używać tej funkcji do wyszukiwania pobliskich restauracji, benzyny, wskazówek dojazdu, warunków drogowych i lokalizacji najbliższego hotelu. Obecnie technologia pozwala kierowcy na wydawanie poleceń głosowych zarówno na przenośnym urządzeniu GPS jak Garmin, jak i systemie nawigacyjnym producenta samochodów.

Lista systemów poleceń głosowych dostarczanych przez producentów silników:

Wejście niewerbalne

Podczas gdy większość głosowych interfejsów użytkownika jest zaprojektowana tak, aby wspierać interakcję za pomocą mówionego ludzkiego języka, ostatnio przeprowadzono również badania w zakresie projektowania interfejsów, które wykorzystują niewerbalne ludzkie dźwięki jako dane wejściowe. W tych systemach użytkownik kontroluje interfejs, emitując dźwięki inne niż mowa, takie jak buczenie, gwizdanie lub dmuchanie do mikrofonu.

Jednym z takich przykładów niewerbalnego interfejsu użytkownika głosowego jest Blendie, interaktywna instalacja artystyczna stworzona przez Kelly Dobson. Element składał się z klasycznego blendera z lat 50., który został zmodernizowany, aby odpowiadał na wejście mikrofonowe. Aby sterować blenderem, użytkownik musi naśladować warczące mechaniczne dźwięki, które zazwyczaj wydaje blender: blender będzie się powoli obracał w odpowiedzi na niski pomruk użytkownika i zwiększał prędkość, gdy użytkownik wydaje wyższe dźwięki wokalne.

Innym przykładem jest VoiceDraw, system badawczy, który umożliwia cyfrowe rysowanie osobom o ograniczonych zdolnościach motorycznych. VoiceDraw umożliwia użytkownikom „malowanie” pociągnięć na cyfrowym płótnie poprzez modulowanie dźwięków samogłosek, które są mapowane zgodnie z kierunkiem pędzla. Modulowanie innych cech paralingwistycznych (np. głośności ich głosu) pozwala użytkownikowi kontrolować różne cechy rysunku, takie jak grubość pociągnięcia pędzla.

Inne podejścia obejmują przyjęcie niewerbalnych dźwięków w celu rozszerzenia interfejsów dotykowych (np. w telefonie komórkowym) w celu obsługi nowych rodzajów gestów, które nie byłyby możliwe przy użyciu samego palca.

Wyzwania projektowe

Interfejsy głosowe stwarzają wiele wyzwań związanych z użytecznością. W przeciwieństwie do graficznych interfejsów użytkownika (GUI) wciąż pojawiają się najlepsze praktyki projektowania interfejsu głosowego.

Wykrywalność

W przypadku interakcji opartej wyłącznie na dźwięku, głosowe interfejsy użytkownika mają zwykle niską wykrywalność : użytkownikom trudno jest zrozumieć zakres możliwości systemu. Aby system mógł przekazać to, co jest możliwe bez wizualnego wyświetlacza, musiałby wyliczyć dostępne opcje, które mogą stać się nużące lub niewykonalne. Niska wykrywalność często powoduje, że użytkownicy zgłaszają niepewność co do tego, co „może” im powiedzieć, lub rozbieżność w oczekiwaniach co do zakresu zrozumienia systemu.

Transkrypcja

Chociaż technologia rozpoznawania mowy znacznie się poprawiła w ostatnich latach, głosowe interfejsy użytkownika nadal cierpią z powodu błędów przetwarzania lub transkrypcji, w których mowa użytkownika nie jest poprawnie interpretowana. Błędy te są szczególnie powszechne, gdy w treści mowy używane jest słownictwo techniczne (np. terminologia medyczna) lub niekonwencjonalna pisownia, np. nazwa wykonawcy lub utworu.

Zrozumienie

Efektywne projektowanie systemu w celu maksymalizacji zrozumienia konwersacji pozostaje otwartym obszarem badań. Interfejsy użytkownika głosowe, które interpretują i zarządzanie stan konwersacji są trudne do zaprojektowania powodu wrodzonej trudności w integracji złożonych przetwarzania języka naturalnego zadania, takie jak rozdzielczość coreference , ujęcia nazwanego podmiotu , wyszukiwania informacji oraz zarządzania dialogowym . Większość dzisiejszych asystentów głosowych jest w stanie bardzo dobrze wykonywać pojedyncze polecenia, ale ma ograniczoną zdolność do zarządzania dialogiem wykraczającym poza wąskie zadanie lub kilka tur w rozmowie.

Przyszłe zastosowania

Urządzenia kieszonkowe, takie jak palmtopy lub telefony komórkowe , obecnie wykorzystują małe przyciski do wprowadzania danych przez użytkownika. Są one wbudowane w urządzenie lub stanowią część interfejsu ekranu dotykowego, takiego jak w przypadku aplikacji Apple iPod Touch i iPhone Siri. Nadmierne naciskanie przycisków na urządzeniach z tak małymi przyciskami może być żmudne i niedokładne, więc łatwy w użyciu, dokładny i niezawodny VUI byłby potencjalnie przełomem w łatwości ich użytkowania. Niemniej jednak taki VUI przyniósłby również korzyści użytkownikom laptopów i komputerów stacjonarnych, ponieważ rozwiązałby wiele problemów związanych obecnie z używaniem klawiatury i myszy , w tym urazy związane z powtarzalnymi obciążeniami, takie jak zespół cieśni nadgarstka i niska prędkość pisania na klawiaturze. część niedoświadczonych użytkowników klawiatury. Co więcej, używanie klawiatury zazwyczaj wiąże się z siedzeniem lub staniem nieruchomo przed podłączonym wyświetlaczem; z kolei VUI pozwoliłoby użytkownikowi na znacznie większą mobilność, ponieważ wprowadzanie mowy eliminuje potrzebę patrzenia na klawiaturę.

Takie zmiany mogą dosłownie zmienić oblicze obecnych maszyn i mieć daleko idące konsekwencje dla interakcji użytkowników z nimi. Urządzenia przenośne byłyby projektowane z większymi, łatwiejszymi do oglądania ekranami, ponieważ nie byłaby wymagana klawiatura. Urządzenia z ekranem dotykowym nie musiałyby już dzielić ekranu między treścią a klawiaturą ekranową, zapewniając w ten sposób pełnoekranowe wyświetlanie treści. Laptopy można by zasadniczo zmniejszyć o połowę, ponieważ połowa klawiatury zostałaby wyeliminowana, a wszystkie wewnętrzne elementy zostałyby zintegrowane za wyświetlaczem, co w efekcie dałoby prosty tablet . Komputery stacjonarne składałyby się z procesora i ekranu, oszczędzając miejsce zajmowane przez klawiaturę i eliminując przesuwane podpórki pod klawiaturę budowane pod powierzchnią biurka. Można by również wyeliminować piloty telewizyjne i klawiatury na dziesiątkach innych urządzeń, od kuchenek mikrofalowych po kserokopiarki.

Jednak, aby takie zmiany miały miejsce, należałoby przezwyciężyć wiele wyzwań. Po pierwsze, VUI musiałby być wystarczająco wyrafinowany, aby odróżnić dane wejściowe, takie jak polecenia, od konwersacji w tle; w przeciwnym razie zostaną zarejestrowane fałszywe dane wejściowe, a podłączone urządzenie będzie zachowywać się nieprawidłowo. Standardowy monit, taki jak słynny „Komputer!” wezwanie przez postacie w programach telewizyjnych i filmach science fiction, takich jak Star Trek , może aktywować VUI i przygotować go do odbioru dalszych informacji od tego samego mówcy. Można sobie wyobrazić, że VUI może również zawierać reprezentację podobną do ludzkiej: na przykład głos lub nawet postać na ekranie, która odpowiada (np. „Tak, Vamshi?”) i nadal komunikuje się z użytkownikiem w w celu wyjaśnienia otrzymanych danych wejściowych i zapewnienia dokładności.

Po drugie, VUI musiałby współpracować z wysoce zaawansowanym oprogramowaniem w celu dokładnego przetwarzania i znajdowania/odzyskiwania informacji lub wykonywania czynności zgodnie z preferencjami konkretnego użytkownika. Na przykład, jeśli Samanta woli informacje z konkretnej gazety i jeśli woli, aby były one streszczone w formie punktowej, może powiedzieć: „Komputer, znajdź mi informacje o powodzi w południowych Chinach zeszłej nocy”; w odpowiedzi VUI, który zna jej preferencje, „znajdzie” fakty o „zalaniu” w „południowych Chinach” z tego źródła, przekształca je w formę punktową i dostarcza jej na ekranie i/lub w formie głosowej, uzupełnij cytatem. Dlatego wymagane byłoby dokładne oprogramowanie do rozpoznawania mowy , wraz z pewnym stopniem sztucznej inteligencji ze strony maszyny powiązanej z VUI.

Implikacje dotyczące prywatności

Obawy dotyczące prywatności budzi fakt, że polecenia głosowe są dostępne dla dostawców głosowych interfejsów użytkownika w postaci niezaszyfrowanej, a zatem mogą być udostępniane stronom trzecim i przetwarzane w sposób nieautoryzowany lub nieoczekiwany. Poza treścią językową nagranej mowy, sposób wypowiedzi i cechy głosu użytkownika mogą pośrednio zawierać informacje o jego tożsamości biometrycznej, cechach osobowości, budowie ciała, stanie zdrowia fizycznego i psychicznego, płci, płci, nastrojach i emocjach, statusie społeczno-ekonomicznym i pochodzenie geograficzne.

Zobacz też

Bibliografia

Zewnętrzne linki