Huis audio Wat is het verschil tussen spraak naar tekst en chatbots?

Wat is het verschil tussen spraak naar tekst en chatbots?

Anonim

Q:

Wat is het verschil tussen spraak naar tekst en chatbots?

EEN:

De vele significante verschillen tussen spraak-naar-tekst-technologieën en chatbots maken deel uit van wat wordt onderzocht in de snelle evolutie van chatbot- en voicebot-projecten.

Een spraak-naar-teksttechnologie is gewoon een technologie die verbale spraak omzet in tekst op een digitale pagina. Dat is de volledige functie, maar het is niet een functie die eenvoudig te ontwerpen is. Om verbale spraak om te zetten in tekst, moet de technologie woorden en zinnen opsplitsen in individuele fonemen en ermee werken volgens complexe algoritmen om tekst te maken die accuraat is en representeert wat de spreker zei.

Chatbots zijn daarentegen technologieën die het doel bereiken om met een mens te communiceren. Er zijn twee soorten chatbots: tekstchatbots en voicebots. Tekstchatbots bestaan ​​al veel langer, omdat ze niet het spraak-naar-tekst-element nodig hebben dat voicebots gebruiken.

Het belangrijkste verschil tussen spraak-naar-tekst-technologieën en chatbots is de reikwijdte. Zoals gezegd, hoeft de spraak-naar-teksttechnologie alleen maar de verbale spraak te transcriberen. De chatbot daarentegen moet spraak in welke vorm dan ook maken, het begrijpen en antwoorden geven die de Turing-test proberen te doorstaan ​​- de test of een technologie een mens kan misleiden door te denken dat hij of zij is praten met een andere persoon.

Met dat in gedachten zijn chatbots veel eenvoudiger te maken dan voicebots. De chatbot neemt de tekst van de mens op en geeft een tekstreactie. Zelfs relatief eenvoudige chatbots hebben sinds eind jaren tachtig en begin jaren negentig interessante en plezierige resultaten voor de mens kunnen bieden.

De voicebot moet daarentegen verbale spraak opnemen, deze naar tekst converteren, op nauwkeurigheid controleren, een reactie produceren en die reactie van machinetaal omzetten in hoorbare spraak. Dit grote aantal redelijk belangrijke taken betekent dat de voicebot veel rekenkracht en veel ontwerp vereist om te bouwen.

Projecten zoals Siri, Cortana en Alexa tonen een deel van de voorhoede van voicebot-technologieën. Ze illustreren ook dat deze technologie nog in de kinderschoenen staat. Hoewel Alexa en andere technologieën verbaal kunnen reageren op menselijke spraak, zijn ze niet extreem capabel in de zin dat we associëren met verbale menselijke spraak in het algemeen. Met andere woorden, er is nogal wat beperking aan de antwoorden die deze technologieën kunnen bieden. De huidige generatie persoonlijke assistenten heeft zelfs een beperkt vermogen om echt spraak naar tekst te genereren, bijvoorbeeld om een ​​e-mail te transcriberen of iemand te helpen een essay te schrijven zonder zijn handen te gebruiken. Sommige van de specifieke spraak-naar-tekstprogramma's op de markt doen dit beter dan Siri of Cortana, waarschijnlijk vanwege de toewijzing van middelen. Er zijn echter tekenen dat de voortgang van de voicebot snel van start zal gaan - zoals het Lex-platform van Amazon dat een studioomgeving mogelijk maakt voor het bouwen van dit soort technologieën.

In een slim en leerzaam essay over dit onderwerp spreekt Tobias Goebel over het verschil tussen deze technologieën, en contrasteert het proces van "transcriberen", wat spraak naar tekst doet, met de taak van het begrijpen, wat chatbots geacht worden te doen.

"Hoewel het elimineren van de behoefte aan spraakherkenning het voor een chatbot gemakkelijker maakt, ligt de belangrijkste uitdaging om functionerende bots te bouwen in natuurlijk taalbegrip, " schrijft Goebel.

Goebel identificeert ook veel van de huidige spelers in de industrie:

De marktleider voor spraakherkenning is Nuance, die achter bekende systemen staat zoals Dragon NaturallySpeaking voor dicteren op een pc, die al sinds de jaren negentig bestaat, maar ook Siri: de spraakherkenning / transcriptietaak in de Apple cloud gebruikt Nuance-technologie achter de schermen. Anderen zijn LumenVox, Verbio of Interacties, maar spraakherkenning wordt nu ook aangeboden als een cloudservice via API's zoals Amazon, Google, Microsoft en IBM.

Naarmate chatbots zich ontwikkelen, wordt ervan uitgegaan dat hun begrip op een bepaald traject zal blijven toenemen - en er wordt ook grotendeels van uitgegaan dat meer bottechnologie zal overgaan van tekstinterfaces naar verbale interfaces, waarvoor extra rekenkracht nodig is.

Wat is het verschil tussen spraak naar tekst en chatbots?