Nel precedente post abbiamo parlato di Text to Spech e abbiamo accennato alla possibilità di utilizzare un file nel formato SSML (http://www.w3.org/TR/speech-synthesis/) grazie al metodo SpeakSsmlFromUriAsync della classe SpeechSynthesizer:
Dim synth = New SpeechSynthesizer()
Dim ssmlString = Await LoadSSMLFile("SSML.xml")
Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
MediaElement.SetSource(stream, stream.ContentType)
MediaElement.Play()
End Function
La funzione LoadSSMLFile() si occupa di leggere il file dal disco e restituire la stringa del contenuto.
Tra le molteplici funzionalità offerte dal formato SSML c’è quella di poter inserire, all’interno del file XML, dei marcatori (marker) che possono essere segnalati l nostro codice e che ci permettono di sincronizzare l’interfaccia in maniera opportuna.
Immaginiamo, ad esempio, un libro per bambini in cui la storia, raccontata dalla voce del tablet, viene affiancata con delle immagini. Queste immagini possono essere sincronizzate, appunto, utilizzando dei marker.
Il file SSML potrebbe essere del tipo:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
http://www.w3.org/TR/speech-synthesis/synthesis.xsd">
<mark name="Primo disegno"/>
<p>C'era una volta</p>
<mark name="Secondo disegno"/>
<p>in un regno lontano lontano</p>
.
.
.
<mark name="Fine"/>
<p>E vissero tutti felici e contenti</p>
</speak>
Poichè è il MediaElement ad occuparsi dell’esecuzione dello stream di text to speech, è il MediaElement a segnalare il raggiungimento dei marker.
In particolare ci basterà gestire l’evento merkerReached dello stesso MediaElement e agire di conseguenza sull’interfaccia.
e As TimelineMarkerRoutedEventArgs) Handles MediaElement.MarkerReached
' Possiamo gestir ela visualizzazione delle immagini
' in base alla propriet Marker dell'argomento e
End Sub
Tutto molto semplice……se funzionasse!!!
Il problema è che, pur gestendo lo stream del Text to Speech i marker (la collezione Markers della classe SpeechSynthesisStream è valorizzata correttamente), questi non sono compatibili con quelli gestiti dal MediaElement.
Non si sa se tale scelta sia voluta o sia un bug che verrà corretto, in ogni caso, per poter gestire i marker nel MediaElement siamo costretti a crearli a partire dal quelli dello stream del Text to Speech.
La cosa più semplice è creare un extension method che gestisce il tutto:
Public Module MediaElementExtensions
<Extension()>
Public Sub SetSpeechSynthesisSource(control As MediaElement, stream As SpeechSynthesisStream)
If control Is Nothing Then Throw New NullReferenceException("MediaElement")
control.SetSource(stream, stream.ContentType)
If stream.Markers IsNot Nothing Then
For index = 0 To stream.Markers.Count() - 1
Dim marker = stream.Markers(index)
control.Markers.Add(New TimelineMarker() With {.Text = marker.Text,
.Time = marker.Time,
.Type = marker.MediaMarkerType})
Next
End If
End Sub
End Module
In sostanza, impostiamo la sorgente del MediaElement in modo “convenzionale” e, successivamente, scorriamo i marker dello stream generato dallo SpeechSynthesizer e per ognuno di questi creiamo un marker gestibile dal MediaElement (TimelineMarker) e lo aggiungiamo alla collezione Markers.
In questo modo, possiamo scrivere:
Dim synth = New SpeechSynthesizer()
Dim ssmlString = Await LoadSSMLFile("SSML.xml")
Dim stream = Await synth.SynthesizeSsmlToStreamAsync(ssmlString)
MediaElement.SetSpeechSynthesisSource(stream)
MediaElement.Play()
End Function
Commenti
Nel senso che dalle prove fatte, il carattere ? non viene preso in considerazione...
Grazie
Da quello che mi risulta, il formato SSML supporta le interrogative. E' da vedere se l'implementazione attualmente presente su Windows 8.1 fa altrettanto con tutte le funzionalita' esposte dal SSML.
Un modo alternativo che mi viene in mente per ottenere frasi interrogative e' utilizzando il tag e lavorando sul pitch cercando di ottenere l'intonazione della domanda.