Passa ai contenuti principali

Windows 8.1: Text to Speech, SSML e i marker

Nel precedente post abbiamo parlato di Text to Spech e abbiamo accennato alla possibilità di utilizzare un file nel formato SSML (http://www.w3.org/TR/speech-synthesis/) grazie al metodo SpeakSsmlFromUriAsync della classe SpeechSynthesizer:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSource(stream, stream.ContentType)
    MediaElement.Play()
End Function

La funzione LoadSSMLFile() si occupa di leggere il file dal disco e restituire la stringa del contenuto.

Tra le molteplici funzionalità offerte dal formato SSML c’è quella di poter inserire, all’interno del file XML, dei marcatori (marker) che possono essere segnalati l nostro codice e che ci permettono di sincronizzare l’interfaccia in maniera opportuna.

Immaginiamo, ad esempio, un libro per bambini in cui la storia, raccontata dalla voce del tablet, viene affiancata con delle immagini. Queste immagini possono essere sincronizzate, appunto, utilizzando dei marker.

Il file SSML potrebbe essere del tipo:

<?xml version="1.0"?>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
                   http://www.w3.org/TR/speech-synthesis/synthesis.xsd">
  <mark name="Primo disegno"/>
    <p>C'era una volta</p>
  <mark name="Secondo disegno"/>
    <p>in un regno lontano lontano</p>
  .
  .
  .
  <mark name="Fine"/>
  <p>E vissero tutti felici e contenti</p>
</speak>

Poichè è il MediaElement ad occuparsi dell’esecuzione dello stream di text to speech, è il MediaElement a segnalare il raggiungimento dei marker.

In particolare ci basterà gestire l’evento merkerReached dello stesso MediaElement e agire di conseguenza sull’interfaccia.

Private Sub MediaElement_MarkerReached(sender As Object,
                                       e As TimelineMarkerRoutedEventArgs) Handles MediaElement.MarkerReached
    ' Possiamo gestir ela visualizzazione delle immagini
    ' in base alla propriet Marker dell'argomento e
End Sub

Tutto molto semplice……se funzionasse!!!

Il problema è che, pur gestendo lo stream del Text to Speech i marker (la collezione Markers della classe SpeechSynthesisStream è valorizzata correttamente), questi non sono compatibili con quelli gestiti dal MediaElement.
Non si sa se tale scelta sia voluta o sia un bug che verrà corretto, in ogni caso, per poter gestire i marker nel MediaElement siamo costretti a crearli a partire dal quelli dello stream del Text to Speech.

La cosa più semplice è creare un extension method che gestisce il tutto:

Imports Windows.Media.SpeechSynthesis

Public Module MediaElementExtensions

    <Extension()>
    Public Sub SetSpeechSynthesisSource(control As MediaElement, stream As SpeechSynthesisStream)
        If control Is Nothing Then Throw New NullReferenceException("MediaElement")
        control.SetSource(stream, stream.ContentType)
        If stream.Markers IsNot Nothing Then
            For index = 0 To stream.Markers.Count() - 1
                Dim marker = stream.Markers(index)
                control.Markers.Add(New TimelineMarker() With {.Text = marker.Text,
                                                               .Time = marker.Time,
                                                               .Type = marker.MediaMarkerType})
            Next
        End If
    End Sub
End Module

In sostanza, impostiamo la sorgente del MediaElement in modo “convenzionale” e, successivamente, scorriamo i marker dello stream generato dallo SpeechSynthesizer e per ognuno di questi creiamo un marker gestibile dal MediaElement (TimelineMarker) e lo aggiungiamo alla collezione Markers.

In questo modo, possiamo scrivere:

Public Async Function PlaySSML() As Task
    Dim synth = New SpeechSynthesizer()
    Dim ssmlString = Await LoadSSMLFile("SSML.xml")
    Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
    MediaElement.SetSpeechSynthesisSource(stream)
    MediaElement.Play()
End Function

 

Commenti

Massimiliano ha detto…
Come posso far pronunciare una domanda del tipo "Come stai ?" ?

Nel senso che dalle prove fatte, il carattere ? non viene preso in considerazione...

Grazie
Massimo Bonanni ha detto…
Onestamente non ho provato, in Windows 8.1, ad utilizzare frasi interrogative in Italiano perche' non essendo disponibile il language pack (e la relativa voce) non riuscirei a capire se la pronuncia e' corretta o meno.
Da quello che mi risulta, il formato SSML supporta le interrogative. E' da vedere se l'implementazione attualmente presente su Windows 8.1 fa altrettanto con tutte le funzionalita' esposte dal SSML.
Un modo alternativo che mi viene in mente per ottenere frasi interrogative e' utilizzando il tag e lavorando sul pitch cercando di ottenere l'intonazione della domanda.

Post popolari in questo blog

VB.NET : Aggregare stringhe con LINQ

Tip facile facile, ma a qualcuno potrebbe servire. Supponiamo di avere una lista di stringhe (magari come risultato di una query LINQ) e di voler ottenere una stringa con la concatenazione delle stesse: Dim list = CreateList() Dim concatStr = (From s In list _ Select s).Aggregate( Function (currentString, nextString) currentString + nextString) MessageBox.Show(concatStr) Il metodo CreateList non ci interessa, in questo momento, ma crea una lista di oggetti String. Protected Function CreateList() As IEnumerable( Of String ) Dim list As String () = {" stringa1 ", " stringa2 ", " stringa3 ", " stringa4 ", " stringa5 "} Return list.AsEnumerable() End Function Questo metodo potrebbe restituire una qualsiasi lista di oggetti di cui, nella select successiva recuperiamo solo stringhe. La stessa tecnica è utilizzabile per concatenare stringhe inserendovi un carattere separatore Dim list = CreateList() Dim

VB.NET: SplashScreen con effetto fade-in

In questo post vorrei proporvi un modo per realizzare una splash screen per le nostre applicazioni Windows Form che appare progressivamente con un effetto fade. Supponiamo di avere il nostro progetto VB.NET in una soluzione Visual Studio 2008 in cui abbiamo il sorgente della nostra applicazione Windows Form. Inseriamo una splash screen utilizzando il menù Progetto->Aggiungi Nuovo Elemento e selezionando il tipo di elemento “Schermata Iniziale” A questo punto Visual Studio creerà, automaticamente, la schermata iniziale che possiamo personalizzare graficamente come vogliamo. Per poter fare in modo che questa finestra appaia nel momento in cui avviamo l’applicazione, è necessario aprire le proprietà del progetto e impostare la maschera di avvio: In questo modo, all’avvio dell’applicazione, la schermata appare immediatamente e scompare un attimo prima della visualizzazione della finestra dell’applicazione. Possiamo far apparire la schermata iniziale con un ef

VB.NET: Convertire un file DOC in RTF e PDF con office interop

In questo post vorrei proporvi del codice per poter convertire un file .doc in un file .rtf oppure .pdf utilizzando le API di interoperabilità di Office. Creeremo una classe, DocConverter, che esporrà le due funzionalità sopra citate. Cominciamo con il prevedere un attributo privato della classe che rappresenterà l’applicazione Word che utilizzeremo per la conversione. Creeremo l’istanza dell’attributo privato all’interno del costruttore della classe: Public Sub New () If Not CreateWordApp() Then Throw New ApplicationException(" Assembly di interoperabilità con Office non trovato! ") End If End Sub Private _wordApp As Word.ApplicationClass Protected Function CreateWordApp() As Boolean Dim retval = True Try _wordApp = New Word.ApplicationClass() _wordApp.Visible = False Catch ex As System.Exception _wordApp = Nothing retval = False End Try Return retval End Function La conve