Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

Attention, une faille de sécurité dans bash a récemment été rapportée, il est recommandé de mettre à jour son système (plus de détails) *** mise à jour 12/10/2014 ***

#1 Le 11/08/2010, à 22:38

temps

[résolu] CMU Sphinx reconnaissance vocale

Bonjour,
Aujourd'hui sphinx s'installe directement à l'aide de synaptic, nous trouvons ce projet ici :
http://www.speech.cs.cmu.edu/
Mais je n'arrive pas à trouver un tutoriel qui explique comment l'utiliser, est-ce qu'une personne connait l'adresse d'un tutoriel ou peut m'indiquer comment faire ?
Mon but est de l'utiliser pour traduire des fichiers sons enregistrés avec audacity en fichiers textes de manière à pouvoir l'intégrer dans ce projet http://www.constructeur-exo.com/ qui plus tard j'espère deviendra un paquet Ubuntu. "le comparateur en mode texte étant déja créé"
cordialement

Dernière modification par temps (Le 04/05/2013, à 10:39)


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#2 Le 12/08/2010, à 18:04

wanaga

Re : [résolu] CMU Sphinx reconnaissance vocale

je ne comprends pas exactement ce que tu veux faire ! Peut tu detailler un peu plus stp ?

Hors ligne

#3 Le 12/08/2010, à 23:30

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
J'ai pu remarquer aux RMLL de Bordeaux qu'il n'existait pas d'outil de création de système interactif. Je ne considère pas les QCM car ceux-ci poussent à imaginer un monde limité donc abrutissent les utilisateurs.
J'ai donc décidé de lancer le projet et j'ai essayé de convaincre la semaine passé au sein de l'association Montpel'libre , mais les disponibilités n'étaient pas au rendez-vous.
Par facilité, j'ai envoyé quelques lignes sur un serveur OVH de 250 Go que j'ai acheté pour l'occasion. Ces quelques lignes permettent de laisser entrevoir le projet final.
Je pense qu'avant fin septembre celui-ci sera clos.
Objectif : un paquet Ubuntu et une config Ubuntu dédiée à l'enseignement (apprentissage et test d'examen).
Le seul obstacle que je pouvais rencontrer était le comparateur et je l'ai surmonté en moins d'une heure, le reste du projet c'est des ajustements, des explications, des détails dans les scripts de manière à ce que le projet puisse évoluer plus tard au main d'autres intervenants. Je sais qu'il existe plusieurs algorithmes qui permettent de passer du mp3 en mode texte, ceci va rendre l'analyse et la comparaison des réponses audio possible, c'est ici que j'en suis, et c'est la raison de mon post ici dans la rubrique qui se rapproche le plus de l'analyse vocale.
Le projet est OpenSource orienté vers Ubuntu.
Son objectif final est d'avoir des examens soit en auto-correction soit interactif avec mise en mémoire des réponses après identification.
Cordialement


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#4 Le 01/11/2010, à 08:14

CHABIN0

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
as tu trouver finalement comment fonction sphynx ?

Hors ligne

#5 Le 11/11/2010, à 14:06

l@in

Re : [résolu] CMU Sphinx reconnaissance vocale

je cherche a comprendre moi aussi comment s'utilise la librairie sphinx !

Hors ligne

#6 Le 13/11/2010, à 20:14

kenjiu2002

Re : [résolu] CMU Sphinx reconnaissance vocale

Salut, j'ai ouvert un post sur un sujet assez similaire et je cherche moi aussi des infos sur sphinx. Voici l'adresse du post:
http://forum.ubuntu-fr.org/viewtopic.php?id=424912
Le sujet de ce fil tourne autour de la reconnaissance sonore dans un premier temps, et de la reconnaissance et de la synthèse vocale dans un deuxième temps, le tout dans l'optique de se libérer au maximum de l'ordinateur. Pouvoir entendre la lecture d'un article tout en faisant autre chose, ou lancer une radio en prononcant un "raccourci sonore". Les applications sont un peu différentes des vôtres, mais nous avons besoin des mêmes technologies.

Dernière modification par kenjiu2002 (Le 13/11/2010, à 20:21)

Hors ligne

#7 Le 21/11/2010, à 11:26

laverdure

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
J'ai installé sphinx mais je ne trouve pas la commande ( que de soit via le terminal ou via le mode graphique )
Quelqu'un pourrait m'aider ?
Merci

Hors ligne

#8 Le 21/11/2010, à 11:58

Tomzz

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
J'ai moi aussi installé Sphinx et je n'ai toujours pas résolu son énigme, j'ai peur de ne faire dévorer big_smile


Y a t'il un Œdipe pamis vos wink.

Hors ligne

#9 Le 21/11/2010, à 18:39

kenjiu2002

Re : [résolu] CMU Sphinx reconnaissance vocale

Tomzz a écrit :

Bonjour,
J'ai moi aussi installé Sphinx et je n'ai toujours pas résolu son énigme, j'ai peur de ne faire dévorer big_smile


Y a t'il un Œdipe pamis vos wink.

Excellent lol

Hors ligne

#10 Le 22/11/2010, à 08:03

l@in

Re : [résolu] CMU Sphinx reconnaissance vocale

laverdure a écrit :

Bonjour,
J'ai installé sphinx mais je ne trouve pas la commande ( que de soit via le terminal ou via le mode graphique )
Quelqu'un pourrait m'aider ?
Merci

sphnix n'est pas un logiciel c'est une librairie !

Hors ligne

#11 Le 11/12/2010, à 00:33

Phil_l

Re : [résolu] CMU Sphinx reconnaissance vocale

Qui a essayé simon ?
cela à l'air pas mal mais il manque le modèle acoustique en français

Hors ligne

#12 Le 13/12/2010, à 01:40

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

De mon coté, j'avance. j'avance doucement car en parallèle je suis obligé de faire des scripts et des scripts sur les nouveaux matériels exotiques qui ne s'arrêtent pas de sortir et que je dois installer. J'ai un script en bash sans reconnaissance vocale ici http://www.constructeur-exo.com/gkri.tar.gz  , j'ai deja des exemples ici http://www.constructeur-exo.com/zone-finale/exemple/ , et nous avons le projet Projet Shtooka ici http://swac-collections.org/index.php , j'étudie actuellement le java pour l'audio, peut-être à la fin des vacances de noel, j'aurai quelque chose sous la main.
Cordialement


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#13 Le 26/12/2010, à 14:50

ikthus

Re : [résolu] CMU Sphinx reconnaissance vocale

J'up un peu pour esperer qu'on verra en 2011 de vraies avancées sur la reconnaissance vocale.

A quand un transcripteur de conversation de style IM-IRC

<Jean> Ceci est la solution pour les personnes sourdes pour suivre et participer à une discution de groupe.
<Marc> En effet ce logiciel reconnait la voix de chaques discuteurs et retranscrit ses paroles à l'écran.
<Jean> Voilà !

En solution libre évidement, 2011 ?

Dernière modification par ikthus (Le 26/12/2010, à 14:51)


Je ne serais jamais l'esclave de votre société - Assassin

Hors ligne

#14 Le 12/03/2011, à 14:19

benjannm

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour

j'ai installé sphinx3 j'ai utilisé sphinx-align pour effectué l'alitement forcé.
tous fonctionnent très bien j'ai obtenue les fichiers résulta et j'aborde la phase d'analyse sauf que j'ai rien trouvé sur dans la documentation de sphinx sur le mode fonctionnement et comment les scores de l'alignement sont affecté est ce que il y a une normalisation par rapport à la longueur des signaux ???
comme vous voyer beaucoup de questions big_smile
aidez moi SVP si quelqu'un sait ou je peut trouvé des repenses donné moi les lien
merci a tous smile

Hors ligne

#15 Le 14/03/2011, à 13:23

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
Depuis longtemps maintenant j'ai abandonné les systèmes existant car il ne m'ont pas donné satisfaction. J'ai essayé plusieurs langages, j'arrive enfin à faire de la reconnaissance vocale, mais pour cela j'ai du créer mon propre format audio " abadie.jo" au debut il était sous bash, mais maintenant il est entèrement écrit en langage C. La première version que j'ai faite était parfaite quand le timbre du son était claire, mais devenait plus lourde dès que les variations étaient porteuses de "trémolo". J'ai donc créer une nouvelle version qui filtre les inutiles pendant la modélisation, et aussi j'ai amélioré le lecteur du fichier abadie.jo
Il ne me reste plus qu'à créer un exécutable qui crée automatiquement des sons puis lui mettre en mémoire des mots entiers. l'avantage d'avoir le format audio sous forme de fichier modélisé "abadie.jo" c'est que ce sont des fichiers son très léger, l'inconvénient est le traitement des données, il faudrai plus tard que j'arrive à faire commencé à lire le fichier alors qu'il n'est pas encore entièrement démodélisé.
J'ai mis ce week-end quelques vidéos sur la première version ici http://www.youtube.com/user/9temps#p/u/11/gzSXBsGr4vE

Dernière modification par temps (Le 14/03/2011, à 13:37)


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#16 Le 14/03/2011, à 14:27

markos_le_malos

Re : [résolu] CMU Sphinx reconnaissance vocale

+1 interessé par tout ça, je vais suivre le fil de discussion

et bravo pour le taf


The Ubuntu Counter Project - user number # 25857

Hors ligne

#17 Le 14/03/2011, à 18:42

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Si le commentaire de markos est pour moi, merci.
Actuellement la deuxième version est presque au point mais pas encore tout à fait. La principale différente entre la première et deuxième version, c'est que dans la deuxième version il y a deux sens de plus pour indiquer quand la variation reste dans la partie supérieur ou inférieur. Pour donner l'amortie j'ai intégré dans ces deux sens supplémentaires sens 5 et sens 6 la fonction retard mais je ne suis pas sure que ce soit une bonne idée suite à mes tests, il faudrait peut-être mieux rester sur un système qui marche en créant une ligne médiane virtuelle qui viendrai se mettre au niveau de l'onde. Et en plus j'aurai eu moins de mal à écrire ça que de vouloir me faire plaisir en intégrant une fonction retard.
Au fait une fois que j'aurai un modélisateur et un player totalement fonctionnel avec la reconnaissance vocale et aussi la possibilité de lire les textes pour les mal voyant, je voudrais qu'il soit gratuit pour tout le monde linux, mais la gratuité réservée au monde linux. Pour les autres systèmes, je voudrais que mon logiciel me rapporte un peu d'argent, c'est pour ça que même si je dis comment il fonctionne, j'ai arrêté de donner les sources sur le forum. Est-ce que quelqu'un à une idée de comment faire pour arriver à faire cela : Gratuit sous linux, payant pour les autres O.S. ?
Bien sur ceux qui veulent un fichier binaire (modelisateur + player) de la première version pour tester en respectant la condition de ne pas  divulguer (une signature numérique par mail me suffit), il suffit de m'indiquer leur nom après /home/ pour que je modifie le fichier source à leur attention et je leur mets en téléchargement sur un de mes site web. Quand les sons sont pures, avec une traversé de la médiane pour chaque onde, cette version marche super bien, d'ailleur la version pour les mal voyant sera faite la dessus car nous avons des fichiers ultra léger, idéal.  Avec cette version il suffit de créer une bibliothèque pour avoir la version mal voyant, et même pourrait à elle seule suffire à la reconnaissance vocale, le fichier texte abadie.jo pouvant facilement être soumis à un comparateur en bash ou en langage C, il n'y a qu'à identifier.
La nouvelle version est en fait un moyen de transformer n'importe quel fichier son, parole ou musique en format ultra-léger, et aussi de créer un nouvel instrument de musique qui pourra intégrer de la voix comme des sons qui n'existent pas encore.
Cordialement

Dernière modification par temps (Le 14/03/2011, à 19:07)


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#18 Le 28/03/2011, à 09:23

fanfantasy7

Re : [résolu] CMU Sphinx reconnaissance vocale

je cherche un logiciel qui écris ce que l'on dit à haute voix
temps, est-ce bien de cela que tu parle ?
si oui je veux bien tester ton programme
merci


Fanfantasy7
pc fixe : Ubuntu 10.04 LTS - Lucid, athlon XP 2600+ 756Mo Nvidia GeForce 6200 512Mo
pc portable : HS

Hors ligne

#19 Le 28/03/2011, à 10:10

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour fanfantasy7,
Oui quand le logiciel sera terminé, il permettra d'écrire ce qui est entendu, de dire ce qui est vue, de dire ce qui est écrit en terme classique ou en phonétique simplifié.
Pour l'instant je n'ai créé que les outils qui vont me permettre de créer cela, et encore il faut que j'améliore le modéliseur. J'ai pris contact avec shtooka en leur demandant l'autorisation d'utiliser leur base audio afin de construire la mienne


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#20 Le 28/03/2011, à 19:06

fanfantasy7

Re : [résolu] CMU Sphinx reconnaissance vocale

ok
merci de votre réponse


Fanfantasy7
pc fixe : Ubuntu 10.04 LTS - Lucid, athlon XP 2600+ 756Mo Nvidia GeForce 6200 512Mo
pc portable : HS

Hors ligne

#21 Le 02/04/2011, à 16:19

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
J'ai fini la deuxième version du projet http://www.constructeur-exo.com/legere/ pour les binaires, et ici http://www.constructeur-exo.com/ dans l'onglet analyseur de courbe pour les sources.
Je viens de commencer la troisième version du projet qui remplace le fichier abadie.jo en ASCII par un fichier en binaire ce qui va permettre d'aller beaucoup plus vite et bien que le projet possède déja des fichiers beaucoup plus léger que du mp3 sans perte de qualité, cela va encore plus alléger le poids. De plus j'ajoute au lecteur soit openAL soit FMOD de manière à jouer le fichier audio créer.
A cette occasion, bien que je conserve la licence limité CC, je suis à la recherche de partenaires pour faire avancer ce projet.
Il y a deux sens de compétences possibles, pour les simples utilisateurs, il suffit d'installer le lecteur de la version 2, et d'une manière empirique de découvrir les lois des sons, qui permettent de créer les sons A, Ba, ...  en d'autres mots les fichiers abadie.jo les plus légers possibles.
Pour les autres, les programmeurs linux en C ou C++ une aide à la réalisation de la troisième version, sachant que les noms seront associés au projet qui restera gratuit sous linux non commercial.
Cordialement


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#22 Le 06/04/2011, à 16:43

l@in

Re : [résolu] CMU Sphinx reconnaissance vocale

je n'est pas tout  compris mais je te soutient  big_smile

Hors ligne

#23 Le 07/04/2011, à 11:29

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

l@in a écrit :

je n'est pas tout  compris mais je te soutient  big_smile

Je vais le dire en d'autres mots, contrairement aux croyances, la caractéristique de la voix humaine n'est pas une histoire de fréquence, mais une histoire de variations entre fronts montants et aussi entre fronts descendants. Les deux premières versions que j'ai mise en ligne le démontrent et ne sont la que pour expliquer le fonctionnement des sons.
L'amplitude importe peu, tout est dans cet assemblement de fronts, la quatrième valeur le jo, a une limite basse et haute elle n'est que la pour donner la forme de la variation et peu etre déduite au tractopelle pas besoin de pince à épiler, on varit juste un peu le timbre.
Si j'utilise 8 sens c'est que j'ai du adapté la présentation au format aiff, et même avec aiff pour avoir un son cristalin 4 sens suffisent. Dans la réalité comme écrit plus haut, il n'y a que deux sens qui correspondent au front montant et au front descendant.

Le fait d'utiliser opelAL, va pouvoir me permettre de créer directement des fichiers ".jo" en binaire "plus léger et plus rapide au traitement que des fichiers en ASCII. En plus openAL va permettre de jouer ces fichiers binaires. Il nous restera encore à créer une bibliothèque de son de base utilisée dans le langage français.
Amicalement


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

#24 Le 22/06/2012, à 02:29

wanaga

Re : [résolu] CMU Sphinx reconnaissance vocale

Ton travail est très interessant ! Ou en est ton projet à l'heure actuelle ?

Hors ligne

#25 Le 22/06/2012, à 05:42

temps

Re : [résolu] CMU Sphinx reconnaissance vocale

Bonjour,
Le projet avance, mais nous avons effectué, il y a deux mois un grand virage, quand j'ai découvert que les technologies utilisées actuellement dans les cartes sons déformaient les formes de front que je créais à l'aide des soft.
L'équipe est composée de deux personnes.
Nous travaillons actuellement sur le hard suite au fait que le soft a atteint les limites du matériel.
Nous avons fini de réalisé avant hier le proto de la carte audio que j'ai conçu, et testé en réel avec succès, je suis actuellement sous kicad de manière à tirer un circuit imprimé pour y poser les composants (moins de 10 euros).
En d'autres mots, le passage du soft au hard n'est pas un choix, mais plutot une obligation, car même si j'arrive avec mon format audio adn à modéliser les voyelles avec quelques octets, surprise selon le fabricant de carte audio le même code ne donne pas la même voyelle car selon les filtres de la carte les "volumes entre les deux fronts" varies et le son "i" devient un son "o", presque toutes les consonnes sont quand à elles toujours beaucoup plus légère que les voyelles donc posent moins de difficultés.
En d'autres mots encore, oui, j'ai identifié les lois physiques et les effets physiologiques des sons, je peux les modéliser avec quelques octets, mais je n'ai pas développé d'application car il y a un grave problème d'incohérences avec le hard qui se trouve actuellement sur le marché.
Pour plus de détails, nous pouvons dire que les cartes audio actuelles sont comme ces ampoules au néon qui font perdre la vue.
Nos yeux sont des capteurs qui recherchent des informations sur une palette de formes que peut prendre la lumière, pour consommer moins d'énergie les sachant ont créés des lampes néons qui n'éclairent qu'une toute petite partie de ces formes. D'ou les yeux forcent dans le noir à la recherche des autres formes et s'abiment, nous rendant aveugle. Pour l'audio les mêmes sachant sont visiblement aussi passé par la.
Cordialement

Dernière modification par temps (Le 22/06/2012, à 07:36)


Parce que l'USB bootable est le support des systèmes experts,
Parce que l'USB bootable contient sa propre image au démarrage.
L'USB bootable permet de créer un monde à la dimension de son imagination

Hors ligne

Haut de page ↑