Lingua
Richiedi una demo

Speech recognition: perché è cruciale oggi?

La presenza dei video nelle strategie di marketing non è una novità, ma un’esigenza che non si può ignorare, considerate le modalità di fruizione dei contenuti preferite dagli utenti.

La grande crescita nell’impiego di questo contenuto dall’elevata efficacia e dai molti scopi, però, porta con sé sfide da non sottovalutare per i marketers, come ad esempio la necessità di creare i sottotitoli. Sottotitolare un video, infatti, è un aspetto cruciale per massimizzare l’audience che fruisce del contenuto ma può comportare costi importanti.

Da questo punto di vista, le tecnologie di speech recognition possono offrire un supporto prezioso per generare sottotitoli automatici, ancor più se integrate ad una soluzione di Digital Asset Management.

La continua crescita dei video e il loro ruolo chiave nel marketing

Innanzitutto, capiamo perché i video sono così importanti e quindi perché sistemi dotati di funzionalità di speech recognition possono fare la differenza per le aziende.

Stando alle statistiche, il 99% delle strategie di marketing include contenuti di tipo video1 di qualunque sorta (promozionali, corporate, tutorial, webinar) e destinati ai canali più vari (siti web, e-commerce, social media, campagne pubblicitarie online o offline).

Si tratta di una scelta tutt’altro che casuale: nel 2021 YouTube è stato il secondo sito più visitato al mondo2 e ogni mese conta più di 2 miliardi di utenti attivi3. Peraltro, l’84% dei consumatori ha ammesso di essere spinto all’acquisto dopo aver visto un video esplicativo di un prodotto o un servizio4.

Questo tipo di contenuti non spopola solo sul canale di clip per eccellenza, Youtube. Infatti, i video rivestono un ruolo sempre più centrale sui social di maggiore tendenza (Instagram e Tik Tok su tutti) e le piattaforme di live streaming (come Twitch) sono in grande ascesa. Secondo il 59% dei marketers intervistati in uno studio di DataBox5, inoltre, i post sponsorizzati su Facebook che contengono video generano performance migliori rispetto alle immagini.

Anche all’interno delle organizzazioni il cammino è piuttosto tracciato. Le attività delle aziende, dalle riunioni quotidiane ai corsi di formazione periodici, avvengono sempre più in modalità digitale, con la comodità – tra le altre – di poter registrare ogni scambio informativo, al fine di renderlo disponibile in un secondo momento. La crescita esponenziale del numero di video in circolazione, però, ha portato con sé alcune sfide importanti per le imprese, rispetto alle quali la gestione dello spazio di archiviazione è solo la punta dell’iceberg.

1 The State of Video Marketing, 2020, Wyzowl.
2 Top Websites Ranking, 2021, Similarweb.
3 YouTube Press, 2021, YouTube.
4 What Video Marketers Should Know in 2021, According to Wyzowl Resarch, 2021, HubSpot.
5 Video vs Images in Facebook Ads, 2021, DataBox.

L’importanza dei sottotitoli automatici: processi efficienti e massima accessibilità

Chi si occupa di produzione di video sa bene che una delle principali voci di costo è relativa alla creazione dei sottotitoli. Sottotitolare anche solo un’ora di video può generare costi ingenti che, secondo una stima di Affde6, sono pari a circa 165 dollari. D’altronde, le attività legate alla sottotitolazione sono molteplici: dalla trascrizione alla sincronizzazione, passando per le varie revisioni di qualità e le eventuali traduzioni. I sottotitoli, tuttavia, sono un elemento imprescindibile, per vari motivi. In particolare, perché:

  • un filmato sottotitolato è accessibile ai non udenti o alle persone con problemi di udito
  • grazie a sottotitoli multilingua, è possibile ampliare il pubblico che fruisce del contenuto
  • i sottotitoli rendono ricercabili i contenuti del video attraverso parole chiave, esattamente come un documento o questo articolo
  • sottotitolare un video è sempre consigliabile per renderlo fruibile a chiunque, in qualsiasi momento o situazione, anche agli utenti che non possono o non intendono attivare l’audio.
speech recognition esempio visivo

I sottotitoli, in altre parole, migliorano a 360° la qualità di fruizione di un video ma, come anticipato, crearli manualmente impatta parecchio sull’operatività. La tecnologia, però, offre un prezioso aiuto da questo punto di vista. In particolare l’intelligenza artificiale, grazie allo speech recognition, con generazione automatica di sottotitoli.

Quanto costa fare i sottotitoli in house?, 2019, Affde.

Speech recognition: definizione e rapido stato dell’arte, da Audrey a Siri

Lo speech recognition (in italiano riconoscimento vocale, chiamato anche Automatic Speech Recognition, in breve ASR) è il processo mediante il quale una o più voci umane vengono riconosciute ed elaborate da un sistema informatico. Questa tecnologia si basa sull’elaborazione del linguaggio naturale (NLP, Natural Language Processing), branca dell’intelligenza artificiale.

Le tecnologie di ASR sono diventate pop nel 2011 con Siri, l’assistente vocale di iPhone 4S ma, a dispetto di quello che si potrebbe essere portati a pensare, il riconoscimento vocale trova le sue radici nel secolo scorso.

Il primo sistema di speech recognition, infatti, risale al 1952 ed è stato creato all’interno dei Bell Laboratories, negli USA. Il suo nome era Audrey, ispirato alle iniziali delle parole Automatic Digit Recognition. Il dispositivo era completamente analogico e consentiva solamente di riconoscere le cifre da 0 a 9.

Nel tempo il riconoscimento vocale ha compiuto passi da gigante e, 70 anni dopo Audrey, le tecnologie di speech recognition offrono livelli di precisione sempre più elevati e funzionalità ad innovazione crescente. Secondo gli analisti il mercato dello speech recognition è in grande fermento; si prevede che entro il 2026 il volume d’affari relativo a queste applicazioni supererà i 27 miliardi di dollari7.

A Market Harness: Speech Recognition Artificial Intelligence (AI), 2021, Forbes.

L’AI al servizio dei marketers e dei loro video

Oggi i sistemi di riconoscimento vocale sono sempre più presenti nella nostra quotidianità.

Google Assistant, Siri, Alexa e Cortana possono essere attivati con la nostra stessa voce per chiedere al navigatore il percorso da seguire in macchina, lanciare la nostra playlist musicale preferita o guidarci mentre prepariamo un piatto in cucina.

L’intelligenza artificiale, però, supporta anche i processi all’interno delle organizzazioni.

Ad esempio, nel comparto delle vendite, lo speech recognition può supportare l’assistenza clienti nel trascrivere le telefonate in ingresso, mentre in quello della sicurezza informatica consente di rafforzare i protocolli di autenticazione.

Il sensibile incremento del numero di video in circolazione, destinati tanto al supporto della comunicazione di brand quanto alla promozione di nuovi prodotti e servizi, richiede (e richiederà sempre più) che questa tecnologia sia resa accessibile anche a figure che si occupano di marketing e di produzione di contenuti.

Grazie allo speech recognition i marketers evitano di sostenere ingenti costi di sottotitolazione, possono dedicare il proprio tempo alla creazione di un maggior numero di video e realizzare produzioni di qualità più elevata. Inoltre, la tecnologia oggi garantisce sottotitolazioni dall’elevata affidabilità, anche in modalità multilingua, estendendo la potenziale audience di ogni clip. Benefici imprescindibili per una strategia di creazione di contenuti di successo.

L’importanza di avere una visione digitale d’insieme

In estrema sintesi, quindi, le tecnologie di riconoscimento vocale liberano le aziende da attività manuali e ripetitive, permettendo loro di dedicare tempo alla creazione di un numero maggiore di video, con un livello qualitativo più elevato.

I filmati popolano i canali digitali dei brand, che li utilizzano per raccontare la propria storia, promuovere la propria offerta e spiegare il funzionamento di prodotti e servizi. Gli obiettivi di qualsiasi filmato, però, possono essere raggiunti solo se si porta a compimento in modo efficiente il processo di distribuzione e fruizione da parte degli utenti a cui esso è destinato.

Da questo punto di vista, è fondamentale che le funzionalità di speech recognition per la generazione di sottotitoli automatici siano integrate alla piattaforma utilizzata per gestire e distribuire i propri contenuti su tutti i canali, come ad esempio un sistema di Digital Asset Management (DAM). Si tratta di software in grado di gestire in modo centralizzato la creazione e la gestione di numerose tipologie di contenuti, dai più classici documenti alle immagini, oltre ovviamente ai video.

Solamente i DAM più tecnologicamente avanzati includono funzionalità di intelligenza artificiale come lo speech recognition e la generazione di sottotitoli automatici. Per sfruttare a pieno le potenzialità di questo strumento, è però fondamentale valutare la sua adozione nel contesto di un sistema che si occupi anche della distribuzione dei contenuti. Uno strumento come la generazione automatica dei sottotitoli, infatti, è davvero funzionale solo se in grado di offrire a marketers e creators un valido aiuto nello snellire i processi, ridurre i costi e ottimizzare i tempi di lavorazione dei contenuti.

Uno stesso filmato, infatti, può essere distribuito sul sito aziendale, sull’e-commerce proprietario o all’interno di vari marketplace: tutti canali che spesso richiedono file dalle specifiche tecniche differenti. Uno strumento di Digital Asset Management che si occupa della distribuzione dei contenuti video in modo diretto e centralizzato è in grado di utilizzare lo stesso contenuto su tutti i touchpoint, senza crearne diverse copie e ottimizzandone la pubblicazione a seconda del canale di destinazione.

Quando un DAM di questo tipo è dotato anche di una tecnologia di speech recognition, ecco che anche la generazione dei sottotitoli viene ottimizzata al massimo: sarà infatti sufficiente sottotitolare ogni video una sola volta, a prescindere dal numero dei canali di pubblicazione.

In assenza di una soluzione come quella appena descritta, l’attività di sottotitolazione dovrebbe invece essere replicata per ogni singolo touchpoint, anche se di fatto il contenuto è il medesimo.

Ecco perché la visione d’insieme del processo di creazione, gestione e distribuzione dell’asset digitale è fondamentale, perché riesce ad integrare il potere dell’innovazione tecnologica alle esigenze operative e strategiche dei marketers più virtuosi, lungo tutto il ciclo di vita di ogni contenuto, video inclusi.

Vuoi ricevere contenuti come questo una volta al mese?

Mettiti in viaggio verso NORTH insieme a oltre 4.500 esseri umani. Con la nostra newsletter riceverai ogni trenta giorni dati, trend e approfondimenti sul mondo del DAM, del PIM e non solo.

Iscriviti alla newsletter di THRON