Huis audio Hoor ik dode mensen? natuurlijke taaltechnologie laat stemmen uit het verleden en het heden tot leven komen

Hoor ik dode mensen? natuurlijke taaltechnologie laat stemmen uit het verleden en het heden tot leven komen

Inhoudsopgave:

Anonim

Tegenwoordig zijn de meeste computerstemmen passé. Je wordt waarschijnlijk niet al te enthousiast over cyborgs en robots als je de "droid" op je telefoon hoort die je helpt met een factuurbetaling of je vraagt ​​welke afdeling je wilt. Maar wat als u plotseling Kurt Cobain hoorde vragen om kaartinformatie? Of John F. Kennedy die je vertelt over de wonderen van vroeg stemmen? Of Elvis krijgt je naam en adres voordat ze inbreken in "een stuk, een stuk brandende liefde?"


Dit zou allemaal … nogal raar zijn, maar wat nog fascinerender is, is dat de technologie er eigenlijk al is. Nog geen tien jaar geleden waren we verbaasd over het vermogen van een computer om zelfs maar te praten. Nu staan ​​we op het punt om te worden gevloerd door vrije, door de computer gegenereerde stemmen die klinken als mensen die we kennen.

Grote veranderingen in NLP

Als u aandacht besteedt aan het gebied van natuurlijke taalverwerking (NLP), heeft u misschien gehoord over een aantal recente ontwikkelingen die verder gaan dan het soort ingeblikte virtuele assistent-stemmen die we nu horen in onze wereldwijde positioneringssystemen (GPS) en geautomatiseerde bedrijven telefoonlijnen.


Het begin van NLP vereiste heel wat onderzoek naar de algemene mechanica van menselijke spraak. Onderzoekers en ingenieurs moesten individuele fonetiek identificeren, ze in grotere algoritmen vouwen voor het genereren van zinnen en zinnen, en vervolgens proberen om alles op een metaniveau te beheren om iets te genereren dat echt klonk. Na verloop van tijd hebben de NLP-leiders dit onder de knie en begonnen ze geavanceerde algoritmen te bouwen om te begrijpen wat mensen zeggen. Door deze twee samen te voegen, bedachten bedrijven de stuurprogramma's voor de virtuele assistenten van vandaag en volledig digitale factureringsmedewerkers, wiens maniertjes - hoewel vervelend - nog steeds verbazingwekkend zijn als je stopt met nadenken over het werk dat hen is tegengekomen.


Nu gaan sommige bedrijven verder dan de generieke virtuele stem om een ​​specifieker gepersonaliseerd resultaat samen te stellen. Dit vereist het doornemen van het lexicon van een bepaalde persoon en het verzamelen van grote hoeveelheden unieke spraakvideo, en vervolgens dit archief toepassen op de complexe ritmes voor fonetiek, nadruk, cadans en alle andere kleine aanwijzingen die taalkundigen vaak groeperen onder de brede vlag van 'prosodie'.


Wat eruit komt is een stem die luisteraars beschouwen als 'eigendom' van een bepaalde persoon - iemand die ze kennen en waarmee ze hebben gesproken, of iemand wiens stem ze herkennen als gevolg van de roem van die persoon.


Van Elvis tot Martin Luther King, ieders stem kan nu op deze manier worden "gekloond" - op voorwaarde dat er een aanzienlijk vooraf opgenomen opname van hun spraak is. Door nog meer gedetailleerde analyse en manipulatie toe te passen op individuele kleine geluiden, kunnen bedrijven een virtuele kopie van iemands stem maken die veel op het echte geluid lijkt.

Spannende "Text to Voice" creaties op VivoText

VivoText is bijvoorbeeld een bedrijf dat een revolutie teweegbrengt in het gebruik van kunstmatige menselijke stemmen voor allerlei campagnes, van audioboeken tot interactieve spraakrespons (IVR). Bij VivoText werken onderzoeks- en productieteams aan processen die in theorie specifiek de stemmen van overleden beroemdheden, zoals Ol 'Blue Eyes zelf, kunnen repliceren.


"Om de stem van Frank Sinatra te klonen, zouden we eigenlijk zijn opgenomen nalatenschap doornemen", zegt Givohext Silbert, CEO van VivoText, die vertelt hoe dit soort technologie zou kunnen werken.


Op dit moment werkt VivoText aan het archiveren van de stemmen van degenen die nog bij ons zijn, zoals NPR-correspondent Neal Conan, die zich heeft aangemeld als een model voor dit soort IT-pioniersproject. Een promotievideo toont VivoText-werknemers die nauwgezet fonetische codemodules maken met behulp van de beschikbare spraakinvoer van Conan. Vervolgens maken ze de modellen voor tekst-naar-spraak (TTS) -hulpmiddelen die een dramatisch menselijk en gepersonifieerd resultaat oproepen.


Volgens Ben Feibleman, vice-president strategie en bedrijfsontwikkeling bij VivoText, werkt de computer op foneemniveau (met behulp van de kleinste unieke delen van spraak) om te voldoen aan een prosodisch model voor een individuele menselijke stem.


"Het weet hoe de stem spreekt, " zegt Feibleman, eraan toevoegend dat de computer door "eenheidsselectie" te gebruiken, een aantal stukken kiest om een ​​enkel kort woord samen te stellen, zoals waar het woord "vrijdag" vijf componenten krijgt die helpen ontwikkelen een bijzondere nadruk en tonaal resultaat.

Kunstmatige stem in marketing

Dus, hoe werkt dit in marketing? De producten van VivoText kunnen zeer nuttig zijn bij het maken van producten, zoals audioboeken, die een doelgroep kunnen bereiken. Hoeveel effectiever zou een Elvis-stem bijvoorbeeld zijn vergeleken met een van de generieke, deadpan, geautomatiseerde stemmen van vandaag als deze zou worden gebruikt om entertainmentgerelateerde producten te verkopen?


Of, hoe zit het in de politiek? Feibleman heeft gewerkt aan verschillende ideeën om projecten als deze te gebruiken om marketing te verbeteren voor bedrijven of andere partijen die effectievere berichten nodig hebben.


"Als u politici kent die zich kandidaat stellen voor de president, kunnen 10 miljoen swing-state kiezers een persoonlijk telefoontje krijgen van een kandidaat, hen bedanken voor hun steun en hen vertellen waar ze moeten gaan stemmen, het weer en alles erop en eraan nacht voor de verkiezingen, "zei Feibleman.

Je stem leeft op

Er is nog een voor de hand liggende toepassing op al deze technologie. Bedrijven in natuurlijke talen zoals VivoText zouden een persoonlijke service kunnen creëren die alle spraakgegevens van een klant zou uploaden naar een product waarmee die persoon "voor altijd" kon spreken.


Praktische implementatie zou waarschijnlijk een aantal vragen oproepen over hoe we gesproken stemmen horen en internaliseren. Wat is er bijvoorbeeld voor nodig om een ​​geluidsstream precies zo te laten klinken als iemand? Hoe goed moeten we een persoon kennen om een ​​bepaalde stem te herkennen? En interessant genoeg, wat gebeurt er als een natuurlijke taaldienst een grove karikatuur produceert in plaats van een dwingende nabootsing?


Resultaten evalueren, zegt Feibleman, hangt vaak af van de context. Hij zegt bijvoorbeeld dat kinderen meestal geen vragen stellen over wie er aan het woord is als ze naar een verhaal luisteren. Ze willen gewoon meer. Maar ook, veel volwassenen denken misschien niet na over wie er met hen praat, gezien een bepaald scenario, zoals een passieve uitzending of een telefoonbericht. Het is ook gemakkelijker om via de telefoon door een computer voor de gek te worden gehouden, omdat het gedempte geluid glitches of andere discrepanties tussen de computerresultaten en een menselijke stem kan maskeren.


"Het komt niet in je op om de authenticiteit van de stem te betwisten", zegt Feibleman.

In het jaar 2525

Naarmate bedrijven vooruitgaan in het ontwikkelen van producten en diensten en het beantwoorden van deze vragen, kunnen technologieën voor 'levende spraak' ons helpen om die convergentie van technologie en de menselijke geest te bereiken, die klassiek kunstmatige intelligentie (AI) wordt genoemd.


Als computers kunnen spreken zoals wij, kunnen ze andere gebruikers misleiden door te denken dat ze denken zoals wij, wat bijdraagt ​​aan het grotere principe van singulariteit, zoals John von Neumann, een technisch pionier uit de jaren 1950, geëvolueerd door schrijvers. en denkers zoals Ray Kurzweil. Kurzweil's boek uit 2005, "The Singularity Is Near, " windt sommigen op en maakt anderen bang. Kurzweil voorspelde dat "intelligentie" als een fenomeen tegen 2045 sterk ongrijpbaar zal worden uit het menselijk brein en zal migreren naar technologie, waardoor de lijnen tussen machines en hun menselijke meesters vervagen.


Onsterfelijk gemaakt in de tekst van "In the Year 2525" van Zager & Evans (niemand doet enge sci-fi ballads zoals deze jongens) …


In het jaar 4545

Je hebt je tanden niet nodig, niet nodig

jouw ogen

U zult niets vinden om op te kauwen

Niemand zal naar je kijken


In het jaar 5555

Je armen hangen slap langs je lichaam

Je benen hebben niets te doen

Een machine doet dat voor u


Zijn computerstemmen een stap in deze richting? Als een nieuwe manier om sommige functies van het menselijk lichaam te outsourcen (of vaker om ze te simuleren), is dit soort technologische vooruitgang een van de grootste - en waarschijnlijk ondergemelde - vorderingen op de horizon als we naar een unieke toekomst kijken . (over 'de singulariteit' in kunnen computers de menselijke geest imiteren?)

Hoor ik dode mensen? natuurlijke taaltechnologie laat stemmen uit het verleden en het heden tot leven komen