Toolwijzer: Tekst naar video

In het steeds veranderende digitale landschap van vandaag is video-inhoud snel een integraal onderdeel geworden van een succesvolle marketing- of contentstrategie. Tekst-naar-video tools beloven snel en eenvoudig geschreven materiaal om te zetten naar boeiende video, maar het is belangrijk om te beseffen dat de kwaliteit van de video’s sterk afhankelijk kan zijn van de tool die je gebruikt, de manier waarop je de tool gebruikt en het bronmateriaal waarvan je vertrekt. Tekst-naar-video tools zijn er in vele soorten en maten, en er is geen one-size-fits-all oplossing.

Door de snelle vooruitgang van artificiële intelligentie ontwikkelt de tekst-naar-video-industrie zich bovendien razendsnel. Nieuwe tools worden voortdurend ontwikkeld en bestaande tools worden regelmatig bijgewerkt met nieuwe functies en verbeteringen. In deze blog post zullen we daarom de belangrijkste kernfunctionaliteiten van tekst-naar-video tools bespreken en duiden hoe verschillende aanbieders ze implementeren. Daarnaast verzamelden we ook alle tools die we zijn tegenkomen in aanloop van de pilootprojecten op deze Wakelet. Op deze manier kan u een weloverwogen beslissing nemen op basis van de specifieke behoeften en doelen van uw organisatie.

Kernfunctionaliteiten

Soorten tekst-naar-video tools​

Er zijn grofweg drie verschillende typen tekst-naar-video tools beschikbaar: tekst-naar-video, tekst-naar-animatie en synthetische avatars. Ondanks de verschillende benaderingen hebben deze tools allemaal dezelfde basisbelofte: geschreven bronmateriaal omvormen tot video op een manier die sneller en goedkoper is dan een traditionele videoproductie.

Text-naar-video proces

De meeste tekst-naar-video tools werken op een vergelijkbare manier. De gebruiker levert het bronmateriaal (tekst, artikel of blogpost) en de tool zal dit via kunstmatige intelligentie herwerken tot een script of scenario, bestaande uit een reeks scènes met een titel en een korte paragraaf bodytekst. Voor elke scène wordt vervolgens een bijpassende stock-video gekozen en worden tekstanimaties, scènetransities, achtergrondmuziek en eventueel een voice-over toegevoegd. Daarna kan je als gebruiker aanpassingen doorvoeren om het project vervolgens te exporteren in verschillende formaten.

Tekst-naar-animatie werkt op een vergelijkbare manier als tekst-naar-video, maar in plaats van stock-beelden worden grafische en getekende elementen en karakters gebruikt voor de animaties. De kleuren van deze elementen kunnen vaak worden aangepast, maar de tekenstijl en uitstraling kan een beperking vormen voor de inzetbaarheid voor binnen de context van een merk.

Synthetische avatar tools maken gebruik van een talking-head personage dat de geschreven tekst via tekst-naar-spraak zal voorlezen. Het personage zelf is een realistische 3D-animatie van een presentator op een achtergrond of presentatie-slide. De kwaliteit van dit soort video hangt voor een groot deel af van de output van de tekst-naar-spraak. Dit kan een beperking vormen als er bijvoorbeeld geen Vlaamse stemmen beschikbaar zijn, of als specifieke termen of leenwoorden niet correct worden uitgesproken.

Als gevolg van de snelle ontwikkelingen op het gebied van generatieve technologieën is er een nieuw soort tekst-naar-video categorie in aantocht: de generatieve tekst-naar-video tool. Omdat ze momenteel nog in ontwikkeling zijn gaan we hier nog niet te diep op in. Deze nieuwe functionaliteiten zullen hoogstwaarschijnlijk worden geïntegreerd in het aanbod van tekst-naar-video tools.

Content Importeren

Een belangrijk aspect van tekst-naar-video tools is hoe ze omgaan met bronmateriaal. Bijna alle tools geven je de keuze om op twee manieren te starten: je kunt zelf een script schrijven, een tekst plakken of je kunt een link plaatsen naar een artikel of blogpost. In het laatste geval worden titels, subtitels en highlights uit de originele tekst overgenomen, wat het proces van het maken van een script kan versnellen en vergemakkelijken. Voor organisaties die meerdere content-types produceren is het interessant om verder te kijken dan enkel de tekst-naar-video functionaliteit. Dedicated tekst-naar-video tools, zoals Lumen5, bieden bijvoorbeeld alleen de mogelijkheid om te vertrekken vanuit tekstuele content. Bij meer algemene hergebruiktools, zoals Pictory, Wave of Designs.ai, kun je daarnaast ook statische beelden en langere video’s herwerken of aanmaken. Door te kiezen voor een tool die het beste past bij het soort bronmateriaal dat je wilt gebruiken, kun je ervoor zorgen dat je een hoogwaardige video produceert die de aandacht van je doelgroep trekt en hen betrokken houdt bij de inhoud.

Automatische samenvatting

Een belangrijk onderdeel van het proces van tekst-naar-video is het samenvatten van de originele tekst. Het is immers belangrijk om de inhoud van de tekst op een aantrekkelijke manier te presenteren, wat betekent dat de tekst meestal drastisch moet worden ingekort. De meeste tekst-naar-video tools bieden een automatische samenvattingsfunctie, waarbij flarden tekst en titels uit de brontekst worden geplukt om zo een script / scenario te creëren voor de verschillende “scenes” in de video. Helaas ondersteunt nagenoeg geen enkele tool officieel het Nederlands bij het samenvatten, toch slagen ze er meestal wel in om titels, highlights en structuur te herkennen in een Nederlands webartikel of blogpost.

Het is dus belangrijk op te merken dat dus geen enkele tool momenteel een pasklare oplossing biedt die in elke situatie een goed resultaat oplevert. Zelfs de beste resultaten waren niet meer dan startpunt dat nog herwerkt en ingekort moest worden. Aangezien andere functies afhankelijke zijn van deze tekst is het essentieel om te overwegen hoe goed de taal van de oorspronkelijke tekst ondersteunt en welke mate van controle je hebt over de samenvatting. Bij InVideo waren de gekozen standaard veel te lang voor een video. Wave gaf dan weer een vorm van controle via de keuzen tussen lange, middellange of lange teksten.

Beeldkeuze

Zodra de brontekst is uitgewerkt tot een “script”, zal een tekst-naar-video tool voor elke scène in het script een rechtenvrije afbeelding of video selecteren. Het aanbod van deze stockbeelden is bij de meeste aanbieders vergelijkbaar, omdat zij gebruik maken van dezelfde databanken zoals Storyblocks, Pexels en Pixabay. Helaas geven de tools geen inzicht in waarom een bepaald beeld is gekozen en niet een ander. Gelukkig heb je wel de vrijheid om een ander beeld te selecteren.

Deze black-box aanpak vormt echter het grootste struikelblok bij het gebruik van tekst-naar-video tools. Hoewel onze initiële tests lieten zien dat de meeste tools prima keuzes maken in beelden, zelfs bij Nederlandse teksten, kwamen we er tijdens pilootprojecten op de Flair-redactie achter dat de tools soms volledig de mist in gingen. Dit komt omdat de stockbeelden zijn getagd met Engelse sleutelwoorden. Woorden met een vergelijkbare schrijfwijze in het Nederlands en Engels, zoals romantiek, nostalgie of baby, leverden schijnbaar toch de juiste resultaten op. Dit komt doordat de tools deze termen toevallig correct hebben opgepikt. In werkelijkheid is de ondersteuning van de Nederlandse taal in de meeste tools dus niet optimaal. Het is bovendien ook essentieel om stockbeelden te kiezen die goed passen bij jouw specifieke doel, sfeer doelgroep van het verhaal. Helaas biedt geen enkele tool hier een geschikte oplossing voor.

Ook niet onbelangrijk is de kostprijs van de stockbeelden. De meeste tools bieden een ruim assortiment aan inbegrepen stockbeelden en hebben daarnaast ook premium beelden beschikbaar in duurdere pakketten.

Audiokeuze

Hoewel er weinig differentiatie is in het aanbod van Audio tussen de verschillende tekst-naar-video tools, zijn er wel kleine verschillen vooral in de manier van zoeken. Standaard voegen alle tools achtergrondmuziek toe aan de video, maar je kunt dan zelf zoeken naar alternatieven in een stock-databank. Hoewel deze altijd zijn inbegrepen in de maandprijs, is het aanbod meestal niet enorm groot en zal dit ook niet altijd aansluiten bij trends op muziek gedreven platformen zoals TikTok of Instagram. Het zoeken gebeurt meestal op basis van tracknaam en sfeer, maar sommige tools bieden ook meerdere filtermethoden aan, zoals genre, lengte, doel of contentcategorie. Naast muziek biedt InVideo een reeks geluidseffecten aan die je kunt toevoegen aan je video. Dit kan handig zijn als je bijvoorbeeld een animatievideo maakt en je bepaalde bewegingen wilt benadrukken met een geluidseffect. Het is dus belangrijk om te kijken welke audio-opties beschikbaar zijn en welke tool het beste aansluit bij de gewenste stijl en sfeer van de video.

Creatieproces

Het grootste verschil tussen verschillende tekst-naar-video tools ligt in de bewerkingsmogelijkheden nadat een filmpje is samengesteld. Aan de ene kant heb je tools zoals Lumen5 waarbij er weinig opties zijn om buiten de lijntjes te kleuren van het gekozen template, maar waarbij je achteraf nog eenvoudig kunt wisselen tussen andere templates, lay-outs of beeldverhoudingen. Dit maakt het ook mogelijk voor een totale leek om toch een professioneel ogend resultaat neer te zetten.

Aan de andere kant staan tools zoals Wave en InVideo die een volledige tijdslijns-editor aanbieden en veel meer creatieve vrijheid geven. Bij deze tools is de tekst-naar-video functionaliteit meer een importeer-module boven op een volwaardige video-editor. Als je de video achteraf nog wilt bewerken, inkorten of herschalen, dan moet je hier meer manueel werk voor verrichten. Het is dus een afweging tussen snelheid en flexibiliteit. Het is belangrijk om de bewerkingsmogelijkheden van een tool af te wegen tegen de gewenste workflow en het eindresultaat dat je voor ogen hebt.

Tekst-naar-video van snelheid naar flexibiliteit

Schermverhouding

Een belangrijk voordeel van tekst-naar-video tools is het automatisch kunnen herschalen van een video zonder extra werk. Zolang de scènes binnen een standaard kader blijven, zoals een achtergrondbeeld, titel en subtitel, kun je redelijk eenvoudig herschalen met elke tool. De meeste tools bieden vier veelgebruikte verhoudingen: landscape (16:9), square (1:1), vertical (9:16) en story (4:5).

Het is echter belangrijk om op te merken dat bij sommige tools, zoals inVideo, je eerst een duplicaat moet maken van het projectbestand voordat je aanpassingen kunt doen aan het formaat. Dit kan veel extra werk met zich meebrengen als je later nog wijzigingen moet aanbrengen in je campagne. Daarom is het van belang om de tool te kiezen die het best past bij jouw specifieke gebruikssituatie en platformen die je wilt bespelen. Het is ook belangrijk om te kijken naar welke afgeleiden je na de productie nog wilt maken en welke tool hierin voorziet.

Templates

De betekenis en toepassing van templates in tekst-naar-video tools kan variëren. Bij de meeste tools, zoals Pictory en Lumen5, zijn templates een reeks voorgeprogrammeerde stijlen die de kleuren, lettertypen, animaties en vormgeving van de video bepalen. Binnen een template is het vaak mogelijk om minimale aanpassingen uit te voeren, zoals de tekstverankering of het animatietype. Het gebruik van dergelijke templates is een gemakkelijke manier om snel een afgewerkte video te produceren zonder grafische vaardigheden. Echter zijn er wel beperkingen als je iets wilt maken dat afwijkt van de standaard stijlen.

Bij Wave zijn templates daarentegen vooraf samengestelde composities met een specifiek doel, zoals thema’s, contenttypes, sectoren, doelen of platforms. Bij Wave is er een uitgebreide database aan templates beschikbaar voor alle mogelijke toepassingen en platformen. Elke template bestaat uit een combinatie van scènes met tekst, animaties en grafische elementen en je hebt volledige vrijheid om deze naar wens aan te passen en toe te voegen wat je wilt (vormen, kaders, teksten, smileys, animaties, geluiden, etc.). Het is echter niet mogelijk om een bestaand project of scène automatisch in een nieuw jasje te steken door simpelweg een nieuwe template toe te voegen. Wel kun je een nieuwe template vooraan of achteraan in jouw project toevoegen en zo verschillende templates met elkaar combineren.

Het gebruik van templates kan de productietijd van de video verminderen en kan ook helpen om consistentie te behouden in de vormgeving van de video’s die worden geproduceerd. Het is belangrijk om een tool te kiezen die templates biedt die passen bij de doelen en de merkidentiteit van jouw organisatie.

Branded Assets

Elk merk heeft zijn eigen unieke identiteit en als contentmaker wil je deze identiteit graag weerspiegelen in de content die je produceert. Elementen zoals het logo, kleurengebruik, lettertype, beeldafwerking, iconen en patronen zijn hierbij van groot belang.

Het is daarom belangrijk om een tekst-naar-video tool te kiezen die ofwel de mogelijkheid biedt om deze merkelementen eenvoudig te integreren in de geproduceerde video’s, ofwel templates bevat die aansluiten bij jouw merkidentiteit.

Bij Lumen5 zijn de templates vaak voorzien van geanimeerde details die moeilijk te combineren zijn met eigen merkelementen. Voor grote enterpriseklanten biedt Lumen5 daarom de mogelijkheid om een custom template te ontwerpen voor hun organisatie. Bij Pictory zijn de templates zeer minimalistisch en kan je enkel eigen kleurstijlen en logo toevoegen. Hierdoor zullen ze zelden botsen of concurreren met de merkeigen elementen. Bovendien heb je ook de mogelijkheid om een vooraf opgenomen intro- of outroclip te uploaden.

Wave gaat een stap verder en biedt de mogelijkheid om zelf een eigen brandkit aan te maken. Hierbij kun je merkelementen zoals logo’s, watermerken, kleuren en lettertypes uploaden en integreren in de gegenereerde video’s. Dit geeft je volledige controle over de merkidentiteit in de video’s die je produceert.

Voice Over

Bij de meeste tekst-naar-video tools is het mogelijk om een voice-over toe te voegen aan de gegenereerde video. Dit kan een grote impact hebben op de effectiviteit van de video en de boodschap die wordt overgebracht. Hierbij zijn doorgaans drie mogelijkheden beschikbaar: het uploaden van een audiobestand, het zelf opnemen van een voice-over via de microfoon van het apparaat of het genereren van een voice-over via tekst-naar-spraak technologie.

Helaas bleek uit tests dat geen enkele geteste tool een kwalitatief goede voice-over met een Vlaamse stem kon leveren. Bij Designs.ai was er zelfs helemaal geen Nederlandse stem beschikbaar, maar was het wel verplicht om een voice-over te genereren omdat de duur van de scène afhankelijk was van de gesproken tekst.

Dit laat ruimte voor nieuwe spelers zoals Fliki om een antwoord te bieden met Nederlandse en zelfs Vlaamse tekst-naar-spraak stemmen. Helaas was deze tool nog niet beschikbaar om te testen in aanloop van de pilot, maar het biedt wel hoop voor de toekomstige ontwikkeling van voice-over mogelijkheden in tekst-naar-video tools.

Output formaten

De meeste tekst-naar-video tools bieden de mogelijkheid om de video te exporteren als één geheel of als aparte bestanden voor elke afzonderlijke scène. Dit is handig om de video’s als teaser te gebruiken of druppelsgewijs te publiceren op sociale media.

Maar er zijn ook tekst-naar-video tools die nog verder gaan in het exporteren van de video. Pictory is hier een goed voorbeeld van. Pictory biedt namelijk de mogelijkheid om een Excel-bestand te exporteren met elke clip als een afzonderlijke social media-post. Dit Excel-bestand bevat de titel van de post, hashtags en de geplande datum voor publicatie. Deze bestanden kunnen dan direct worden geëxporteerd naar social media management tools zoals Hootsuite.

Wave is een andere tool die extra functies biedt bij het exporteren van de video. Wave laat gebruikers bijvoorbeeld afgeleide modaliteiten maken zoals gifs en stilstaande afbeeldingen. Dit kan handig zijn voor gebruikers die de video op verschillende platforms willen delen of voor verschillende doeleinden willen gebruiken.

De mogelijkheden van deze tekst-naar-video tools laten zien dat er veel meer mogelijk is dan alleen het genereren van de video zelf. Door extra functies toe te voegen zoals het exporteren van social media posts en afgeleide bestanden, wordt het voor gebruikers nog makkelijker om de gegenereerde video’s te integreren in hun contentstrategie.

Betaalmodellen

Bijna alle tekst-naar-video tools volgen het software-as-a-service model, waarbij gebruikers een maandelijkse kostprijs betalen voor het gebruik van de tool. Deze maandelijkse kostprijs kan variëren, afhankelijk van het gekozen plan, of dit nu voor individuele gebruikers, kleine teams of volledige organisaties is. Naast deze basisplannen bieden veel tekst-naar-video tools ook premium accounts aan. Deze premium accounts bevatten vaak meer stockassets, de mogelijkheid om langere video’s te genereren en extra functies te ontgrendelen.

De kosten voor individuele gebruikers variëren meestal tussen de 20 en 30 euro per maand, met een maandelijkse betaling. Voor teamaccounts is dit bedrag doorgaans hoger en ligt het tussen de 50 en 60 euro per maand. Bijna alle tools bieden ook een gratis account aan met beperkte mogelijkheden, waarbij er een vast watermerk op de gegenereerde video’s wordt geplaatst.

Over het algemeen bieden tekst-naar-video tools de mogelijkheid om de kosten te verlagen door een jaar vooruit te betalen. Dit kan aanzienlijk goedkoper zijn dan het betalen van de maandelijkse kosten. Het is ook een goed idee om te controleren of er eventuele kortingen beschikbaar zijn voordat u zich aanmeldt voor een tekst-naar-video tool. Veel tools bieden bijvoorbeeld grote kortingen aan tijdens speciale evenementen zoals Black Friday of Cyber Monday. Een andere manier om op de hoogte te blijven van aanbiedingen en kortingen is door je in te schrijven voor de nieuwsbrief van de tool die u gebruikt of overweegt te gebruiken. De meeste tools sturen bijna maandelijks nieuwsbrieven naar hun abonnees met informatie over nieuwe functies, updates en speciale aanbiedingen.

Samenwerking

Het is opvallend dat in de meeste tekst-naar-video tools weinig tot geen specifieke functionaliteiten zijn ingebouwd die de samenwerking tussen teamleden bevorderen of ondersteunen. Meestal kun je slechts een preview link delen naar je project waarop anderen kunnen meekijken, maar verder zijn er weinig opties om echt samen te werken.

Echter, er zijn uitzonderingen, zoals Wave. Wat Wave uniek maakt is dat het werknemers in staat stelt om samen te werken aan een project. Met Wave kun je namelijk andere teamleden uitnodigen om samen aan hetzelfde project te werken. Door samen te werken in Wave kunnen teamleden direct feedback geven en wijzigingen doorvoeren, wat de efficiëntie van het proces vergroot en de kwaliteit van het eindproduct verbetert. Dit is een waardevolle toevoeging aan de functionaliteiten van tekst-naar-video tools en kan de manier waarop teams samenwerken aan videocontent veranderen.

Generatieve Functies

Hoewel de huidige generatie tekst-naar-video tools indrukwekkende resultaten kan leveren, zullen deze tools naar verwachting snel achterhaald aanvoelen door de opkomst van nieuwe technologieën. Nieuwe generatieve AI-modellen, die in staat zijn om volledig nieuwe video’s te genereren op basis van de brontekst, hebben het potentieel om een nieuwe norm te stellen voor wat er mogelijk is met tekst-naar-video tools. Het is slechts een kwestie van tijd voordat deze technologieën de markt zullen veranderen en dat kan betekenen dat de huidige tools snel zullen verouderen.

 

Aankondiging InVideo AI

InVideo is één van de eerste spelers op de markt die heeft aangekondigd dat zij dergelijke modellen zullen gaan integreren in hun tool. Dit is een veelbelovende ontwikkeling die de deur opent naar een geheel nieuwe manier van het maken van video’s met tekst. In de nabije toekomst kan het zelfs zo zijn dat de betekenis van het woord “tekst-naar-video” zal veranderen om meer te verwijzen naar dit soort generatieve modellen.

Deze ontwikkelingen hebben de potentie om de creatieve mogelijkheden van tekst-naar-video tools te vergroten en om de productie van video’s sneller en efficiënter te maken.

Conclusie

Met al deze informatie in gedachten heb je nu een goed beeld van de verschillende aspecten en mogelijkheden van tekst-naar-video tools. Een belangrijk struikelblok bij het gebruik van tekst-naar-video tools voor Nederlandstalige content is nog steeds de beperkte ondersteuning voor het samenvatten van teksten, het kiezen van beelden en het maken van tekst-naar-spraak voice-overs. Maar er is hoop: de opkomst van nieuwe generatieve AI-modellen zoals GPT-3 zal aanbieders waarschijnlijk in staat stellen om hier op korte termijn verbeteringen in aan te brengen.

Het is echter belangrijk om te benadrukken dat ondanks de toenemende mogelijkheden en efficiëntie van tekst-naar-video tools, menselijke creativiteit en inzicht nog steeds essentieel zijn om een kwalitatieve en effectieve video te produceren. Geen volautomatische contentproductiemachines dus en zeker geen vervanging voor het menselijke aspect van contentcreatie. Wel bieden de verschillende beschikbare tools makers met diverse achtergronden en vaardigheden de mogelijkheid om op een laagdrempelige manier hun eigen visuele verhaal te creëren.

We hopen dat deze samenvatting van de belangrijkste kenmerken van tekst-naar-video tools u zal helpen bij het maken van een weloverwogen keuze of tekst-naar-video tools een meerwaarde kunnen bieden voor uw organisatie, en hoe u de juiste tool kunt selecteren.