Les codecs VLC et VLR et l'Emotion

Prise en Compte de l'Emotion

L'objectif de ce document est de décrire comment on peut utiliser les codecs VLC et VLR pour prendre en compte l'émotion.
Pour plus d'informations sur les codecs VLC et VLR, voir aux adresses suivantes:
   Algorithmes
   Page d'Accueil

La version Codebook et la version Codebook Unilatérale seront particulièrement utilisées.
Pour plus d'informations sur ces versions, voir aux adresses suivantes:
   Version Codebook
   Version Codebook Unilatérale

On dispose de plusieurs bases de données situées en local ou sur des serveurs distants. Chaque base de données représente un codebook complet. Il y a un seul type d'émotion par base de données.
Les communications se font avec les codecs VLC et VLR, y compris avec une version codebook. Pour chaque trame, les recherches de similitude dans les bases se font avec des vecteurs: les vecteurs des magnitudes et les vecteurs des positions. Les vecteurs des magnitudes représentent le timbre tandis que les vecteurs des positions représentent les fréquences.
A la réception d'une trame, on envoie une requête de recherche de similitude aux bases de données.
Pour chaque type de vecteur, la réponse peut être une valeur discrète (il existe un vecteur voisin dans la base, ou il n'existe aucun vecteur voisin dans la base), ou être une valeur flottante (un réel indiquant la distance séparant le vecteur du plus proche vecteur se trouvant dans la base).
Un ensemble de plusieurs réponses est envoyé à un classificateur pour décider du type d'émotion. Le classificateur a été entraîné auparavant avec les données des bases.



On peut utiliser plusieurs bases de données situées en local ou sur des serveurs distants pour ajouter de l'émotion à des générateurs de voix. Le projet Tacotron 2 (architecture réseau de neurones) génère des voix de synthèse quasiment identiques à des voix réelles, en établissant des correspondances entre des caractères inclus dans les spectrogrammes à l'échelle de Mel et des signaux du domaine temporel.
Pour plus d'informations sur le projet Tacotron 2, voir à l'adresse suivante:
   Tacotron 2

Les vecteurs des magnitudes et les vecteurs des positions des codecs VLC et VLR peuvent servir à créer de tels spectrogrammes. Il suffit de changer de base pour changer de type d'émotion. Les versions basses qualité des codecs VLC et VLR peuvent être aussi améliorées à l'écoute en ajoutant ces méthodes de synthèse, l'autre méthode étant d'utiliser directement les trames du domaine temporel ayant servi à générer les bases.



L'émotion se lit aussi sur le visage. Les caméras des smartphones peuvent transmettre les photos du visage, donc peuvent transmettre l'émotion. Nos codecs ont été mis au point pour l'audio mais peuvent être aussi utilisés pour les images. On considère les images comme un ensemble de lignes (horizontales ou verticales). On effectue des FFT sur chaque ligne (horizontalement ou verticalement), puis des FFT sur chaque ligne du résultat (verticalement ou horizontalement) pour se retrouver dans l'espace k (après quelques autres petites modifications).
L'essentiel des informations se retrouvent au centre de l'espace k. Une ligne de l'espace k passant par le centre contient un bout d'information de l'ensemble de l'image. Les algorithmes de VLC et VLR peuvent être appliqués à chacune des lignes de l'espace k, notamment à une ligne centrale. Comme en audio, on peut générer des bases de données permettant d'identifier le type d'émotion à partir des images du visage. Généralement, on fait des traitements préliminaires sur l'image pour qu'il ne reste que les bords: on supprime les points de faible contraste et on ne garde que les contours.

En utilisant les propriétés de FFT, on peut avoir des bases de données ayant une triple invariance (translation, rotation et changement d'échelle):
- Dans l'espace k, les magnitudes sont invariantes après de simples translations.
- Une rotation de l'image correspond à une rotation des points de l'espace k. Pour l'invariance en rotation, il suffit de mettre dans la base un maximum de lignes Li passant par le centre et faisant un angle Ai avec l'axe horizontal ou vertical.
- In faut considérer un maximum d'échelles différentes pour assurer l'invariance au changement d'échelle.



Notes

- On peut utiliser d'autres codecs pour communiquer s'ils ne déforment pas trop les fréquences et les magnitudes, car les recherches de similitude sont basées sur les magnitudes des points ou des pics locaux. On peut citer le PCM (WAVE), la loi Mu (Mu-Law) ou la loi A (A-Law), et l'ADPCM. Après décompression, on travaille avec les codecs VLC et VLR. Certains paramètres doivent rester identiques avec ceux utilisés pour la génération des bases de données (fréquence d'échantillonnage, nombre de bits par échantillon, taille des tampons FFT, nombre de points de l'avant plan, nombre de bandes de l'arrière plan, ...).


- Si on recherche un vecteur existant dans une base de données même énorme, on le retrouve très vite. Si on réutilise des échantillons ayant servi à générer les bases, on doit facilement trouver le type d'émotion sans aucune erreur, même avec un classificateur simple.


- Avec la recherche vocale, on s'adresse à des serveurs qui sont des machines distantes. Ces méthodes peuvent être utilisées par ces serveurs pour être sensibles à l'émotion et affiner les résultats.



- De même les chatbots peuvent utiliser ces méthodes pour être sensibles à l'émotion et affiner les réponses.


- Dans le domaine médical, les données brutes issues de l'IRM (Imagerie par Résonance Magnétique) ne sont pas des pixels mais des lignes de l'espace k. En utilisant l'intelligence artificielle et ces méthodes, on peut se contenter de générer uniquement quelques lignes pour suivre l'évolution d'une maladie et diminuer la durée des analyses.


- Dans le domaine médical, le principe de la tomodensitométrie (TDM) repose sur le théorème de Radon (1917) qui décrit comment il est possible de reconstruire la géométrie bidimensionnelle d'un objet à partir d'une série de projections mesurées tout autour de celui-ci. La transformée de Fourier d’une projection correspond à une ligne de la transformée de Fourier de l’image qui passe par l’origine et fait un angle A avec l’axe des abscisses (théorème de la coupe centrale).
La TDM utilise les rayons X. De temps en temps, on peut se contenter de quelques coupes transversales pour suivre l'évolution d'une maladie et diminuer les doses de rayon X.