Projet vlrMemos

vlrMemos, Mémos Audio, Qualité de la Voix et Son Positionnel 3D

vlrMemos est une application pour enregistrer des mémos vocaux ou audio et pour mesurer la qualité de la voix. L'application pourra calculer et afficher en temps réel des paramètres acoustiques comme le LTAS (Spectre Moyen à Long Terme, Long-Term Average Spectrum en Anglais) et le HPR (Rapport de Puissance Hautes Fréquences, High-Frequency Power Ratio en Anglais).
Lors de la lecture des enregistrements, un paramètre avancé, le CPPS (Pic de Proéminence Cepstral Lissé ou Smoothed Cepstral Peak Prominence en Anglais), qui est une mesure fiable de la dysphonie, sera également calculé et affiché.
Durant les restitutions sonores, avant la décompression, des filtres FIR (Filtre à Réponse Impulsionnelle Finie, Finite Impulse Response en Anglais) générés à partir d'audiogrammes normalisés et non normalisés, seront appliqués aux canaux dans le domaine de Fourier (convolutions rapides), pour des sorties audio hautement optimisées et sur mesure.
L'application sera disponible pour les ordinateurs, les tablettes, les smartphones, les montres et les objets connectés.
Elle pourra utiliser un codec audio (méthode de compression et de décompression audio) très rapide, de grande qualité, basé sur FFT (Transformation de Fourier Rapide, Fast Fourier Transform en Anglais)
Ce codec est quasi sans perte en énergie: l'énergie d'une trame non compressée est presque aussi égale à celle de la trame compressée.
Ce codec peut fournir l'audio en 3D. Durant les restitutions sonores, avant la décompression, des filtres HRTF (Fonction de Transfert Relative à la Tête, Head-Related Transfer Function en Anglais) génériques ou personnalisés sont appliqués aux canaux dans le domaine de Fourier (opérations très rapides), pour un son positionnel 3D de grande qualité.
L'application va être compatible avec les sons du corps, les signaux physiologiques et les données de variabilité.
En utilisant cette application, on pourra:
- Détecter des anomales dans la voix.
- Suivre l'efficacité d'un traitement de la voix.
- Suivre les progrès réalisés lors d'un entraînement de la voix ou lors d'une rééducation vocale.
- Enregistrer et analyser les sons de battements de coeur et les sons pulmonaires.
- Enregistrer et analyser les signaux physiologiques.
- En option, effectuer la sonification des signaux physiologiques et des données de variabilité.
- En option, envoyer les valeurs moyennes de certains paramètres sous forme de codes d'intensité et / ou de couleur (notifications lumineuses) à des ampoules connectées ou à des ponts d'ampoules connectées.

Les Paramètres:

- Le LTAS: Spectre Moyenné à Long Terme. Ce paramètre permet de mesurer la qualité de la voix. Il fournit une mesure objective de l'évaluation de cette qualité qui dépend habituellement de la perception auditive.
- Le HPR: Rapport de Puissance Hautes Fréquences. Ce paramètre permet la détection de voix soufflées. Il compare la proportion de l'énergie acoustique dans les hautes fréquences à la proportion de l'énergie dans les basses fréquences.
- Le CPPS: Pic de Proéminence Cepstral Lissé. Ce paramètre permet d'estimer la sévérité de la dysphonie. C'est un bon prédicteur et une mesure fiable de la dysphonie.

Le Format du Fichier:

La sauvegarde des données en mémoire ou sur disque pourra être au format WAVE classique (compressé ou non compressé). On proposera par défaut le codec VLC HQ 48 et le format WAVE compressé.

Les Codecs Audio:

- Codec VLC HQ 48:

Codec audio très rapide et de grande qualité, utilisant FFT. Les enregistrements seront au format WAVE compressé. Ils contiendront directement les valeurs codées des fréquences (positions), magnitudes et phases. Le codec utilisant le domaine des fréquences et FFT, pendant les lectures, il n'y a plus besoin de refaire FFT pour recalculer les paramètres acoustiques si on utilise le format WAVE compressé. Avec le format WAVE non compressé, il faut refaire FFT.
Il faut noter que la version actuelle du codec est quasi sans perte en énergie: l'énergie d'une trame non compressée est presque aussi égale à celle de la trame compressée. Il n'y pas de notion de psycho-acoustique, tous les points peuvent être pris en compte. Il n'y pas de notion de trames similaires, notion utile pour les communications.
Il faut noter aussi que l'utilisation de la compression permet d'avoir besoin de moins de mémoire, de limiter la taille des données à transférer et d'économiser l'espace de stockage. Sans compression, avec un canal, 16 bits et 48 kHz de fréquence d'échantillonnage, une seconde de voix occupe 0,768 Mbits (méga bits), 30 secondes occupent 23,040 MBits, une minute occupe 46,080 Mbits et 5 minutes occupent 230,400 Mbits. Avec compression par le codec VLC HQ 48 à 64000 bps, une seconde de voix occupe 0,064 Mbits (méga bits), 30 secondes occupent 1,92 MBits, une minute occupe 3,84 Mbits et 5 minutes occupent 19,2 Mbits. Ce codec va supporter le multicanal (en option).
On trouvera plus d'informations sur ce codec aux adresses suivantes:

Algorithmes
VLB

- Codec VLC HQ 16:

Pour prendre en compte les sons du corps (très basses fréquences) et les durées d'enregistrement très longues, une fréquence d'échantillonnage moins élevée (16 kHZ et moins au lieu de 48 kHz) sera utilisée.
Le codec VLC HQ 16 supportera en outre le multicanal (en option), pour la transmission des données du genre ECG (ElectroCardioGramme). Des données telles que l'EEG (ElectroEncéphaloGramme) ou l'EMG (ElectroMyoGramme) seront supportées. Les données des formes d'ondes de la pression sanguine artérielle (ABP ou Arterial Blood Pressure en Anglais) et les données des formes d'ondes de la pléthysmographie (à partir de l'oxymétrie pulsée appelée aussi l'oxymétrie de pouls) vont être également supportées. Enfin, les données des formes d'ondes de la glycémie vont être supportées. Le multicanal sera compatible avec l'Interface Audio USB 2.0.
Le nombre de trames par seconde est de 31,25 environ pour l'audio. Il sera aux alentours de 0,5 à 2,0 trames par seconde pour les signaux physiologiques. On trouvera plus d'informations sur la prise en compte des données de l'ECG et l'utilisation de ce codec pour la télésurveillance médicale à l'adresse suivante:

Télésurveillance Médicale

- Codecs VLC 3D 48 et VLC HQ 3D 48:

Ces codecs vont être compatibles avec l'audio positionnel 3D. Les filtres HRTF (Fonction de Transfert Relative à la Tête, Head-Related Transfer Function en Anglais), personnalisables, seront appliqués aux sorties en mono, stéréo ou multicanal. Les filtres HRTF personnalisés sont utiles non seulement pour les effets audio 3D, mais aussi comme aides auditives pour les malentendants.
Il faut noter une propriété intéressante qu'on ne retrouve dans aucun autre codec audio non FFT: les trames compressées étant directement dans le domaine de Fourier, il n'est pas nécessaire d'effectuer de transformation FFT afin d'appliquer les filtres HRTF.

Filtres FIR Personnalisés:

Possibilité de charger des filtres FIR (Filtre à Réponse Impulsionnelle Finie, Finite Impulse Response en Anglais) personnalisés pour tous les codecs et toutes les fréquences d'échantillonnage. Ceci est utile pour des sorties audio personnalisées et des corrections auditives. Les filtres sont générés à partir de fichiers texte contenant la sensibilité relative de chaque oreille à différentes fréquences (comme les données d'audiogramme). La longueur des filtres FIR pourra aller jusqu'à 1536 échantillons pour un seul canal avec une fréquence d'échantillonnage de 48 kHz. Les filtres FIR sont appliqués dans le domaine de Fourier (convolutions rapides).

Données de Variabilité:

On s'intéresse à des données comme les variations du rythme cardiaque en fonction du temps ou les variations de la pression artérielle systolique en fonction du temps. Ces données permettent de calculer la variabilité de la fréquence cardiaque ou de la pression artérielle. Il y a typiquement 60 à 100 échantillons par seconde, donc 5 minutes de données occupent un tampon de 300 à 500 échantillons. On émettra des tampons contenant 1024 échantillons. D'autres types de données peuvent être considérés.
Les données en entrée seront sous forme de lignes au format texte CSV (temps, donnée).
Si il y a N canaux, les lignes seront sous la forme:
- (temp1,donnée1,temps2, donnée2,...,tempsN,donnéeN).
La fréquence d'échantillonnage (minimum) après interpolation sera:
- fréquence d'échantillonnage = (nombre total d'échantillons / temps total).
Le nombre (minimum) de trames par seconde sera:
- trames par seconde = (fréquence d'échantillonnage / 1024).
Des fréquences d'échantillonnage très basses ou très élevées ne sont pas des problèmes avec nos codecs.
Les enregistrements seront des fichiers WAVE compressés ou non compressés selon l’option de sauvegarde. Au lieu d'afficher le LTAS ou le HPR, nous allons afficher l'énergie spectrale pour les basses fréquences (LF), l'énergie spectrale pour les hautes fréquences (HF) ainsi que le rapport LF/HF.

Sonification:

La sonification concerne les signaux physiologiques et les données de variabilité. Durant les enregistrements ou les lectures, par défaut, il n'y a pas de son pour ces signaux ou ces données, mais des affichages des valeurs des paramètres pour un canal ou pour la moyenne des canaux.
En option, nous allons générer un son par canal (le multicanal sera possible), à l'aide d'un algorithme de sonification de bonne qualité. Nous allons utiliser la sonification par mapping spectral (Spectral Mapping Sonification en Anglais).
La sonification par mapping spectral permet de surveiller toutes les fréquences ou une bande précise de fréquences.
Des études récentes ont montré, par exemple, qu'on pouvait entendre la différence entre un rythme cardiaque normal et un rythme cardiaque anormal grâce à la sonification des signaux de l'ECG.
Plus d'informations sur la sonification des données avec vlrMemos à l'adresse suivante:

Sonification des Données avec vlrMemos

Envoyer et Partager:

Il n'est pas prévu dans l'immédiat d'avoir des fonctions d'envoi et de partage des fichiers créés par vlrMemos. On pourra se servir des applications de messagerie permettant d'envoyer des fichiers (WhatsApp, Skype, ...).
On pourra lire les fichiers WAVE (non compressés ou compressés avec vlrMemos) dans les répertoires accessibles en lecture. En utilisant vlrMemos en lecture, on pourra utiliser des filtres FIR et HTRF personnalisés. En utilisant les codecs VLC, on pourra utiliser plus efficacement ces filtres, car il n'y aura pas besoin de se placer dans le domaine de Fourier.

Systèmes d'Exploitation:

Nous allons considérer les systèmes d'exploitation suivants:
- Windows.
- Android et Android Wear.
- iOS (iPhone, iPad) et watchOS (Apple Watch).
vlrMemos va comporter quelques parties propriétaires, principalement l'interface graphique. La librairie PJSIP, tous les codecs VLC et VLR ainsi que d'autres librairies sont Open Source. Les librairies Open Source seront liées statiquement ou dynamiquement aux modules propriétaires. Les codes sources de toutes les librairies Open Source seront publiques.
On trouvera plus d'informations sur la librairie PJSIP l'adresse suivante:

PJSIP

Utilité:

Les paramètres acoustiques calculés et affichés permettront de mesurer la qualité de la voix en vue de:
- détecter des anomalies dans la voix;
- suivre l'efficacité d'un traitement de la voix;
- suivre les progrès réalisés lors d'un entraînement de la voix ou lors d'une rééducation vocale.
Nous signalerons en rouge les données en dessous des seuils considérés comme pouvant être pathologiques.
Pour certaines professions (comme les conférenciers, les coaches, les enseignants, les animateurs et les chanteurs par exemple), la qualité de la voix est fondamentale.
Pour les fumeurs, la détection d'une anomalie persistante de la voix peut permettre la détection précoce d'une maladie grave comme le cancer du poumon.
L'intérêt de la variabilité de la fréquence cardiaque (VFC) a été démontré dans l'analyse de la récupération des sportifs. La VFC est un excellent indicateur de niveau de santé général et un facteur prédictif de l'hypertension. Un diminution de l'énergie spectrale signale un risque d'évènements cardiaques.
La mesure de la dysphonie permet la détection et le suivi efficace de la maladie de Parkinson.
La maladie d'Alzheimer est caractérisée entre autres choses par le ralentissement de l'EEG (l'ElectroEncéphalogramme), c'est-à-dire une élévation de la puissance des magnitudes dans les basses fréquences. A partir des signaux issus de l'EEG, le rapport de puissance permet de quantifier cette anomalie.
Pour terminer, on peut signaler que l'analyse spectrale de puissance des signaux de l'EEG est l'outil le plus utilisé dans la recherche sur le sommeil.
On trouvera plus d'informations sur le projet vlrMemos aux adresses suivantes:

vlrPhone
vlrMemos
Page d'Ecoute
Audio Positionnel 3D

Notes Finales:

- Prochaines Versions:
Cette description concerne la première version (V1) de vlrMemos (vlrMemos Light V1 et vlrMemos Full V1). Beaucoup d'autres fonctionalités sont prévues pour les prochaines versions. Voir la page d'accueuil du projet vlrMemos pour plus d'informations.
On peut citer (pour vlrMemos Light et Full):
   - Le support GPU (Support du Processeur Graphique, Graphics Processing Unit en Anglais): nos codecs sont basés sur FFT, donc peuvent être accélérés avec le support du GPU, pour une consommation très faible de batterie.
   - W64: nous allons proposer le format W64 (Sony Pictures Digital Wave 64 en Anglais), avec des échantillons compressés ou non compressés. Ce format supporte des fichiers de plus de 4 Go.
   - D'aures paramètres (le Jitter, le Shimmer, le HNR, ...).
Les prochaines versions vont être gratuites pour les participants.

- Options:
Le multicanal, la sonification et les notifications aux ampoules connectées seront implémentés seulement dans vlrMemos Full V1. A noter que le mode stéréo (deux canaux) sera inclus dans vlrMemos Light V1.

- Utilisation des Fonds:
Une partie des fonds recoltés sera utilisée pour acheter et envoyer les contreparties promises. Une autre partie servira à acheter le matériel de test.

- Brevets:
Les méthodes de nos codecs sont brevetées en France (INPI) et sont à l'étude aux USA (USPTO). Plus exactement, la demande de brevet US est dans un état d'abandon non volontaire. Nous allons tenter de la faire revivre en cas de succès de la levée de fonds.

- Interfaces de l'Application:

Boutons Lecture, Enregistrement, Paramètres, Paramètres Avancés et Informations.

Boutons Pause et Arrêt.

Choix des Paramètres.

Récompenses:

- Ecouteurs et Casques:
Ecouteurs de bonne qualité.
Casques de bonne qualité.
Pas d'écouteurs ou de casques révolutionnaires ou uniques, mais personnalisables, de bonne qualité et surtout, par défaut, vlrMemos va inclure leurs réponses en fréquence complètes et détaillées. En les utilisant avec vlrMemos, leurs réponses en fréquence perçues vont être très plates.

- Logiciels et Applications vlrMemos:
Logiciels Windows.
Applications Android (Android, Android Wear).
Applications iOS (iPhone, iPad) et applications watchOS (Apple Watch).
Tous les logiciels et applications (Light V1) seront terminés avant le 30 Juin 2016.
Tous les logiciels et applications (Full V1) seront terminés avant le 30 Septembre 2016.

- Ecouteurs:
Ecouteurs de bonne qualité, réponses en fréquence perçues plates avec vlrMemos. Livraison Gratuite.
Inclus: Logiciels et Applications (Light V1).

- Contributeur:
Qualité de Contributeur. Liens vers les sites web des contributeurs. Crédits et liens dans une page liée à la page web de l'application, dans la section des contributeurs. Donner un nom et une adresse de page web.
Inclus: Logiciels et Applications (Light V1).
Inclus: Ecouteurs et Casque. Livraison Gratuite.

- Options:
vlrMemos avec les options suivantes:
   - Multicanal.
   - Sonification des signaux physiologiques et des données de variabilité.
   - Notifications aux ampoules connectées.
Inclus: Logiciels et Applications (Light V1).
Inclus: Ecouteurs et Casque. Livraison Gratuite.
Inclus: Qualité de Contributeur (liens).

- Sponsor I:
Qualité de Sponsor I. Liens vers les sites web des sponsors. Logos, crédits et liens dans une page liée à la page web de l'application, dans la section des sponsors. Donner un logo, un nom et une adresse de page web.
Inclus: Logiciels et Applications (Light V1).
Inclus: Options (Full V1).
Inclus: Ecouteurs et Casque. Livraison Gratuite.

- Sponsor II:
Qualité de Sponsor II. Logos, crédits et liens dans les applications (dès que disponibles), dans la section des sponsors. Liens vers les sites web des sponsors. Logos, crédits et liens dans une page liée à la page web de l'application, dans la section des sponsors. Donner un logo, un nom et une adresse de page web.
Inclus: Logiciels et Applications (Light V1).
Inclus: Options (Full V1).
Inclus: Ecouteurs et Casque. Livraison Gratuite.

- Sponsor III:
Qualité de Sponsor III. Logos, crédits et liens dans les applications (dès que disponibles), dans la section des sponsors. Liens vers les sites web des sponsors. Logos, crédits et liens dans une page liée à la page web de l'application, dans la section des sponsors. Donner un logo, un nom et une adresse de page web.
Droits d'utiliser tous les codecs audio inclus dans vlrMemos. Ces droits sont limités à une compagnie et un produit, ou à une compagnie et un logiciel, ou à une compagnie et un service.
Inclus: Logiciels et Applications (Light V1).
Inclus: Options (Full V1).
Inclus: Ecouteurs et Casque. Livraison Gratuite.