3

Dec 2014

LVCSR versus Fonetisch indexeren, spraakanalyse –

posted by Remco Witkamp Klantcontact audit met spraakanalyse

Voor spraakanalyse worden meerdere methodes gebruikt die fundamenteel verschillen. Welke spraakanalyse technologie en aanpak past het beste bij uw behoefte?

Methodes van spraakanalyse

In principe zijn er twee manieren om audio zodanig te structureren dat deze doorzoekbaar wordt. Zo is er de woordenboekmethode die woorden “herkent” middels een woordenlijst. Deze methode van spraakanalyse is gebaseerd op Large Vocabulary Continuous Speech Recognition (LVCSR). Het resultaat van deze methode is het herkennen van specifieke woorden (Key Word Spotting) of een transcriptie (Speech To Text). Het belangrijkste kenmerk van deze methode is de afhankelijkheid van een woordenlijst die van tevoren moet worden opgesteld.

Bij het herkennen van woorden wordt “language modeling” gedaan, waarbij ook wordt gekeken naar de waarschijnlijkheid dat woorden in bepaalde volgordes voorkomen. Als beperking van de woordenboekmethode geldt dat als een woord niet voorkomt in de woordenlijst dat deze niet kan worden herkend. Dit betekent dat een woordenlijst specifiek moet worden gemaakt voor de toepassing of zelfs organisatie om eigennamen, productnamen of jargon te kunnen herkennen. Zodra ontbrekende woorden zijn toegevoegd aan de woordenlijst dan dienen alle relevante audiobestanden opnieuw te worden verwerkt. Dit is tijdrovend en vergt veel processorcapaciteit.

Als tegenhanger is er de woordenboek-onafhankelijke methode, fonetisch indexeren. Met deze spraakanalyse methode worden de audiobestanden éénmalig geïndexeerd op basis van fonemen, de kleinste klankeenheden van een taal. Er wordt een tijdgebonden index van de audio aangemaakt met daarin de klanken van de uitgesproken woorden. Bijkomend voordeel is dat deze methode niet gevoelig is voor achtergrond geluid, taal, dialect of spreekwijze.

Bij het zoeken naar woorden wordt de index gescand o.b.v. het unieke profiel van gekoppelde fonemen. Op deze wijze kunnen gelijktijdig duizenden woorden worden gezocht en de exacte plek waar deze woorden (of eigenlijk combinaties van klanken) te vinden zijn. Er bestaat niet zoiets als een ontbrekend woord aangezien er naar klankcombinaties wordt gezocht. Alle woorden kunnen worden herkend, dus ook eigennamen, productnamen, jargon of straattaal.

Vragen die u zou moeten stellen…

Bij het bepalen welke methode van spraakanalyse het beste past bij uw organisatie kunt u deze vragen stellen:

• Wat is het doel van de spraakanalyse?

• Hoeveel verwerkingscapaciteit (aan daarmee gemoeid dus geld en tijd) is er nodig om de audio om te zetten tot doorzoekbare content?

• Hoeveel verwerkingscapaciteit is er nodig om woorden te vinden nadat de audio is verwerkt?

• Hoe vaak komt het voor dat er gezocht moet worden naar een woord dat niet in een woordenlijst voorkomt?

• Hoeveel tijd, energie en geld kost het om nieuwe woorden aan de woordenlijst toe te voegen?

• Hoe nauwkeurig zijn de beide methoden?

• Welke nauwkeurigheid is benodigd voor het doel?

• Hoe vaak komt het voor dat de oplossing niet kan vinden wat we zoeken?

• Hoe vaak vindt een oplossing iets dat we niet zochten?

• Hoeveel tijd en energie kost het om iets zinnigs te maken van het resultaat?

Dit geldt voor zowel als we weten waarnaar we zoeken en als we iets proberen te achterhalen maar niet precies weten wat.

Doelstelling spraakanalyse

De keuze voor de spraakanalyse methode en technologie is sterk afhankelijk van de toepassing. Waarvoor wilt u spraakanalyse gaan gebruiken? Met spraakanalyse kunt u gedragingen en intenties extraheren en kwantificeren, uit oogpunt van:

• Medewerker performance

• Klanttevredenheid

• Procesoptimalisatie en kostenreductie

• Sales / marketing en business intelligence

• Compliance wet- en regelgeving

Door de verkregen informatie te combineren met andere databronnen (CRM, ERP, ACD, WFM) wordt de basis gelegd voor predictive analytics (het voorspellen van klantgedrag) en real-time sturing.

Verwerkingscapaciteit van spraakanalyse
De woordenboekmethode is ongeveer dertig tot vijftig keer langzamer dan fonetisch indexeren. Deze vertraging is direct te vertalen naar de processorcapaciteit (servers) en dus investeringen benodigd voor het verwerken van eenzelfde hoeveelheid audio. Als tegenargument wordt veelal gesteld dat het resultaat van een transcriptie, tekst, sneller doorzoekbaar is. Uiteindelijk is dit minder relevant omdat bij een fonetische index miljoenen uren audio in een paar tellen kan worden doorzocht; dit is sneller dan u de output kunt verwerken.

Het toevoegen van woorden aan de woordenlijst bij de woordenboekmethode kan vaak alleen worden gedaan door getrainde specialisten die taalmodellen kunnen aanpassen. Tevens moet alle audio opnieuw worden verwerkt dus zult u de audiobestanden langer moeten bewaren. Dit alles is kostbaar en tijdrovend. Bij fonetisch indexeren wordt elk nieuw gezocht woord (klankcombinatie) binnen enkele seconden getoond zonder verdere verwerking.

Nauwkeurigheid van spraakanalyse

“Garbage in. Garbage out”… De waarde van spraakanalyse is afhankelijk van de nauwkeurigheid van het resultaat. De nauwkeurigheid van bestaat uit foutmarges op twee punten:

Precision: Meet het aantal “false positives” ofwel hoe vaak het resultaat fout is. Een voorbeeld: U zoekt naar “brie” maar u krijgt resultaten met het woord “drie”.

Recall: Meet het aantal keren dat een woord niet herkend wordt. Het woord “auto” komt acht keer voor in gesprek maar er worden slechts vier resultaten gemeld. De recall is dan 50%.

Precision en Recall beïnvloeden elkaar. Er wordt gesteld dat woordenboek afhankelijke oplossingen een betere Precision hebben. Hierbij wordt echter voorbij gegaan aan het feit dat deze inleveren op Recall.

Er zijn significante verschillen in nauwkeurigheid tussen de woordenboekmethode en fonetisch indexeren. Deze hebben te maken met de manier van zoeken. Met de woordenboekmethode wordt een woordenlijst verwerkt. Na verwerking bestaat het resultaat uit een transcriptie, platte tekst. Welke woorden moeten worden herkend en de verhouding tussen Precision en Recall ligt dan vast en kan niet meer worden aangepast. Ontbreekt een woord in de woordenlijst dan zal deze ook niet in de transcriptie voorkomen en dus niet vindbaar zijn.

Daarnaast is er het grote aantal fout herkende woorden in transcripties voor woorden die niet in de woordenlijst voorkomen. Zonder verdere bewerking zal ongeveer de helft van de woorden overeenkomen met wat er in het gesprek is gezegd. Deze beperking maakt dat Key Word Spotting populair is; hierbij wordt slechts een beperkte woordenlijst (key words) toegepast zodat de Precision zeer hoog is met een lage Recall waarde.

Bij fonetisch indexeren kunnen drempelwaardes voor Precision en Recall worden aangepast naar het doel van de spraakanalyse toepassing. Als spraakanalyse wordt toegepast uit compliancy oogpunt dan is een hoge Recall waarde gewenst en bent u best bereid een groter aantal false positives (lagere Precision) te accepteren. Als u specifiek zoekt naar exacte woorden dan wenst u zo weinig mogelijk false positives, dus een hogere Precision. Bij fonetisch indexeren kunnen drempelwaardes over Precision en Recall worden aangepast.

Als u een aantal gesprekken wilt zoeken waar specifieke woorden in voorkomen, dan kan een oplossing op basis van de woordenboekmethode interessant zijn. Hiermee kunt u gerichter zoeken dan willekeurig opnames beluisteren. Bij toepassing uit oogpunt van coaching of kwaliteitsmonitoring helpt het u bij het vinden van relevante opnames mits de woorden in de woordenlijst staan.

Maar als u prestaties en ontwikkeling van prestaties wilt meten dan schiet de woordenboekmethode te kort. In het kader van empirische analyse – het meten, kwantificeren en vergelijken van resultaten – is het van belang te kunnen tellen hoe vaak iets in de audio voor komt.

Een goede Recall is daardoor van essentieel belang en juist daarin zit de tekortkoming van woordenboekafhankelijke systemen.

Je weet niet wat je niet weet

Met fonetisch indexeren wordt een organisatie in staat gesteld onbekende informatie te achterhalen. Zoekvragen (queries) kunnen op vele manieren worden opgesteld en afgezet tegen de fonetische index. Hierdoor kunnen Word Clouds, trends (stijgers en dalers) en kwantitatieve data betreffende onderwerpen worden aangemaakt. Nieuwe woorden en zinnen kunnen automatisch worden verzameld vanuit websites, nieuwsmedia, Social Media (Twitter, Facebook, fora) om te worden vergeleken met de fonetische index.

Woordenboekafhankelijke oplossingen zullen nooit iets tonen dat niet in het woordenlijst staat. Het aanpassen van de woordenlijst en het opnieuw verwerken van alle audiobestanden is tijdrovend, kostbaar en per definitie te laat.

Gezien het grote aantal false positives en lage recall waardes van woordenboek oplossingen is het lastig om hiermee onbekende informatie boven water te krijgen.

Bewijs het maar…

Om aan te tonen welke spraakanalyse methode het beste past is er geen krachtiger bewijs dan een echte test. Geef potentiële leverancier audiobestanden (100.000 gesprekken moet voldoende zijn), geef ze een week de tijd en laat ze de business case aantonen.