Spraak naar tekst

Samen met een zestigtal studenten van de opleidingen Journalistiek en Media & Entertainment Business aan Thomas More Hogeschool in Mechelen namen we zeven speech-to-text tools onder de loep. Speech-to-text tools zijn applicaties die automatische transcriptie en/of ondertiteling ondersteunen voor audio- of videocontent. Op die manier ondersteunen ze het hergebruik van audio- en videomateriaal, bv. wanneer je een video wil herwerken naar een artikel. De geteste tools waren Amberscript, Audext, Descript, Happy Scribe, Sonix, Trint en Voice to Script.

Aanpak

De studenten waren verdeeld over 26 groepen. Ze kregen de opdracht om met 1 of 2 speech-to-test tools aan de slag te gaan binnen hun mediaprojectvakken. Na afloop van de opdracht vroegen we hen om de tools te evalueren op hun nut en gebruiksvriendelijkheid. De tools werden allemaal getest in de gratis versie. Feedback die wees op de beperkingen omwille van die gratis versie hebben we daarom buiten beschouwing gelaten.

Gebruiksgemak als troef

De relatieve eenvoud waarmee men aan de slag kan met deze tools wordt in het algemeen aangehaald als het grootste voordeel van dit soort tools. Elke online tool probeert zich zo laagdrempelig mogelijk op te stellen door makkelijke ‘onboarding’, duidelijke instructies, eenvoudige menu’s en heldere tutorials. Alle tools worden op dat vlak grotendeels positief geëvalueerd. Enkel Descript en Trint worden op dat vlak wat lager ingeschat. Descript is in tegenstelling tot de andere apps geen pure cloud-based service, en vergt dus een download en installatie voor men kan starten. Beide apps vroegen van de gebruikers ook nog relatief veel manueel werk. Bij Trint waren de ervaringen wisselend, en vonden enkele groepen de tool minder intuïtief.

Functionaliteit als differentiërende factor

Er zijn bepaalde functionaliteiten die als ‘must haves’ zijn en bij de gebruikers het meest doorwegen zoals de kwaliteit van de basistekst en de mogelijkheden voor ondertiteling.

Wat de kwaliteit van de output betreft, is er niet echt een opvallende winnaar. Sowieso is het noodzakelijk de transcriptie achteraf te controleren en aan te passen, maar sommige tools geven een betere basis om van te vertrekken dan anderen. Sonix, Happy Scribe, Audext en Voice-to-Script worden op dat vlak beter onthaald dan Trint en Amberscript. Als dan toch moet geredigeerd worden, dan speelt ook mee hoe dit aanpaswerk wordt ondersteund.

Wat de ondertiteling betreft vinden studenten het een minpunt wanneer tools niet toelaten om de ondertitels direct te integreren in de video’s en achteraf moeten worden toegevoegd. Dat is het geval bij Audext, Sonix en Voice to Script (noot: de premium en enterprise versie van Sonix laten wel toe ondertitels direct aan de video toe te voegen). Hoewel Amberscript geïntegreerde ondertiteling toelaat, moet gezegd dat sommige studenten hier niet in slaagden.

Verder worden een aantal features als ‘nice-to-have’ beschouwd, met name samenwerkingsmogelijkheden (vb. Happy Scribe) en ondersteuning voor manuele toepassingen zoals het aanduiden van moeilijk verstaanbare woorden (vb. Voice to Script) of het automatisch weglaten van stopwoorden (vb. Happy Scribe).

Match tussen tool en context is key

In de evaluaties van studenten valt op dat je bij de keuze van tools best aandachtig de context van de contentcreatie in overweging neemt. 

Eén aspect daarbij is de taal waarin wordt gesproken. Het is op dat vlak belangrijk om te noteren dat transcriptietools veelal gericht zijn op Nederlands en niet op het Vlaams. Naarmate de spreektaal verder afwijkt van de standaardtaal vermindert de accuraatheid van de getranscribeerde output. En dat geldt ook voor het Engels. Vaak werden de studenten geconfronteerd met geïnterviewden die Engels als tweede taal hebben of zeer informeel Engels spreken en merken ze dat de tools het daar moeilijker mee hebben.

Tot slot is ook de aard van de opdracht van belang. De studenten hebben de tools getest met het oog op contentcreatie voor sociale media. Het gaat dus meestal om korte videofragmenten of reels die men wenste te ondertitelen. Studenten vonden het bronmateriaal vaak te kort om de moeite te nemen om ze door de software te jagen. De tijdswinst is dan te beperkt in vergelijking met manuele transcriptie, omdat je de output alsnog manueel moet aanpassen.

Proberen is leren

Het belangrijkste inzicht dat uit de testen voortvloeit is dat er best wat gebruiksvriendelijke text-to-speech tools voorhanden zijn, die een degelijke basistekst kunnen afleveren en je ondersteunen bij het redigeerwerk. Wil je dat de tools je effectief tijd besparen,moet je wel op voorhand goed inschatten wat de context is van de opdracht en het doel van de output. Zijn er bepaalde vormvoorwaarden aan de output verbonden? Gaat het over lange of kortere stukken qua bronmateriaal? Wat is het niveau van de maker wat het gebruik van tools betreft? Hoe gevoelig is het bronmateriaal? Het is zaak om voor jezelf uit te maken welke tools jouw doelen het beste dienen en passen bij de opdracht.  

https://www.voicetoscript.com/start/nl

ToolOnboardingOndertitelingEditorTeamworkBetaalmodel
AmberscriptSign upGeïntegreerdJaNeenDuurtijd/Abonnement
AudextSign upBestandJaNeenDuurtijd/Abonnement
DescriptDownloadGeïntegreerdJa+Abonnement
Happy ScribeSign upGeïntegreerdJa+Duurtijd
SonixSign upGeïntegreerdJa+Duurtijd/Abonnement
TrintSign upBestandJa++Abonnement
Voice-to-ScriptSign upBestandNeenNeenDuurtijd
Deze tabel geeft je een beknopt overzicht van de geteste spraak-naar-tekst tools en hun eigenschappen.