[projet] raccourcis sonores: exécuter des commandes grâce à des sons

kenjiu2002 · Le 15/11/2010, à 18:35

sharkgua a écrit :

Ne serais t-il pas plus facile de modifier directement des logiciels existants ? (tel que gnome voice control ) ?

Il est parfois plus simple de recommencer à zéro notre propre programme que de tenter de le modifier. Alors le programme d'un autre... À mon sens la première étape est de recenser toutes les techniques existant afin de pouvoir faire les meilleurs choix techniques en toute connaissance de cause. Une fois ces choix techniques effectués, il s'agira de faire des choix logiques, concernant le programme même. Une fois le "logigramme" établi, il sera temps de s'attaquer aux fonctions et au code principal. C'est la partie la plus amusante. Mais pour l'instant, nous en sommes à la partie la plus rébarbative mais qui va nous permettre d'apprendre beaucoup de choses: la documentation.

Dernière modification par kenjiu2002 (Le 15/11/2010, à 18:50)

kenjiu2002 · Le 15/11/2010, à 18:49

Une question qui me vient à l'esprit: j'ai cru lire dans la doc de sphinx qu'il utilise tout un faisceau de paramètres pour la reconnaissance vocale. Ne pourrions-nous pas envisager un paramètre unique de reconnaissance de son quel qu'il soit ? Ce module ne pourrait-il pas ensuite servir de base à n'importe quel logiciel de reconnaissance vocale (1) soucieux d'économiser du temps et du CPU ? Les sons fréquemment entendus ne pourraient-ils pas être nommés et répertoriés dans une liste allant des sons comme le claquement de doigts à des sons "linguistiques" de n'importe quelle langue qu'ils soient ?
.
(1) c'est la question: y a t-il un module de reconnaissance de son de base pour sphinx que nous pourrions récupérer pour nous amuser un peu avec ?

Dernière modification par kenjiu2002 (Le 15/11/2010, à 20:33)

sharkgua · Le 15/11/2010, à 19:25

kenjiu2002 a écrit :

La petite vidéo en anglais sur gnome-voice-control n'est pas du tout convaincante. On peut sans doute faire beaucoup mieux. A priori on a le choix entre se servir d'une solution existante (sphinx), ce qui présente un gain de temps d'un côté, mais aussi des contraintes, ou bien concevoir nous-même nos propres outils de reconnaissance.

Bonne idée mais il faut être vachement bon en prog pour reussir cette exploit !
créer des algorythmes pour que tel son soit le même que tel autre son il faut être (je pense) vachement doué Oo

kenjiu2002 · Le 15/11/2010, à 20:30

sharkgua a écrit :

Bonne idée mais il faut être vachement bon en prog pour reussir cette exploit !
créer des algorythmes pour que tel son soit le même que tel autre son il faut être (je pense) vachement doué Oo

Oui c'est sur... bon nous, on est peut-être pas doués à ce point, mais on est nombreux et bénévoles, c'est un avantage. Et puis je me dis une chose simple, mais qui n'est pas facile à expliquer: c'est que les logiciels de reconnaissance vocale ont pour but premier de retranscrire des mots-audio en mots-texte, alors que notre objectif premier à nous est plutôt de controler le PC avec un minimum d'efforts, un minimum d'énervement et un maximum d'efficacité (cf la vidéo de gnome-voice-control). La reconnaissance de mots est bien plus lourde et plus complexe que la simple comparaison de deux échantillons sonores (dans le but d'établir un taux de correspondance) même si c'est un peu plus compliqué que cela.
.
J'ajouterais que finalement, la partie la plus intéressante est précisément le fonctionnement de cet "algorythme". J'ai quelques vagues idées sur le sujet. Je pars de la courbe sonore telle qu'on peut la contempler dans un logiciel de son, et je me pose des questions. Car ce qui n'apparaît pas au premier abord sur cette courbe, c'est sa profondeur. En zoomant, on se rend compte que des ondes plus courtes se superposent aux ondes plus longues. Et plus on zoome, plus les détails apparaissent. Cette profondeur du son m'intrigue un peu. Si on voulait créer un algorythme de reconnaissance, et si on décidait par exemple de ne retenir que les maxima et les minima de l'onde sonore, à quelle échelle devrait-on se situer ? Et sur quelle durée devrions nous agir ? Où sont les timbres des sons ? Où est l'environnement acoustique de la pièce ou du lieu ? Où se trouve la différence entre le même mot prononcé par deux personnes différentes physiquement sur la courbe ? Ce ne sont que de simples interrogations pour l'instant, mais j'ai bon espoir qu'il existe une méthode simple de détection. Peut-être est-ce déja le cas dans le programme de sphinx. Je ne sais pas, je suis encore dans la phase de documentation.
.
A propos des courbes sonores, je voudrais ajouter une dernière réflexion. Étant audiophile et donc concerné par la certaine perte de qualité liée au passage de l'analogique au numérique, j'ai été ravi d'apprendre que le mp3 - laissons à part la problématique des formats propriétaires - encode les sons sous forme d'équations. Au lieu de retenir un ensemble de points de coordonnées X et Y, on retient une courbe de telle amplitude et telle fréquence dont l'intensité varie dans un laps de temps déterminé. Je trouve ça très bien, parce que à l'instar des images vectorielles-vs-bitmap, on peut toujours recalculer les points en fonction de la définition disponible. J'ai donc un autre rêve tout aussi fou que celui-ci qui serait la conversion directe depuis l'analogique vers un format numérique mais sans passer par une numérisation classique en forme d'escalier. On devrait pouvoir, avec le matériel adéquat, encoder directement un vinyl dans un format numérique entièrement constitué d'équations, avec une qualité qui devrait friser avec la qualité de profondeur "infinie" de l'analogique, chose que le numérique de type "bitmap" n'arrivera jamais à faire aussi bien, et fera toujours de façon beaucoup plus lourde et beaucoup moins naturelle. Un son est une onde. Une onde est une courbe. Une courbe est une équation. Il est donc plus logique d'enregistrer une équation qu'un ensemble de points. La qualité du vinyl dans nos PC, et peut-être même au delà... les équations complexes de Miles Davis dans nos diffuseurs... Mais laissons là ces rêveries et revenons à nos moutons. Cette réflexion servait juste à introduire l'idée des équations correspondant aux sons.
.
Une théorie veut que tout signal complexe comme celui d'une onde sonore puisse être décomposé en une somme de sinusoïdes simples (cf les transformées de Fourier). Ce qu'il nous faudrait, toujours dans l'idée d'un système simple pour commander le PC par la voix, c'est trouver la façon de faire qui demande le moins de ressources possibles, mais qui garantit bien entendu le minimum de résultats attendus. Je pense qu'il faut "filtrer directement la source". Le son doit couler à travers notre programme et en coulant, il doit modifier des variables au passage. Variables qui dans certaines conditions déclencherons le passage à 1 d'autres variables, en conséquence de quoi les commandes correspondantes seront exécutées. Pas compliqué, si ? Et bien sur ça n'empêche pas d'expérimenter aussi du côté de sphinx. En jouant sur les deux côtés (à plusieurs) on devrait obtenir des résultats plus ou moins rapides, en fonction du taux de participation au projet. Venez nombreux.
.

Dernière modification par kenjiu2002 (Le 16/11/2010, à 17:51)

l@in · Le 16/11/2010, à 08:06

je crois que tu a mal compris la différence entre gnome voice controleur ^^

sphinx est une librairie gnome voice controleur est un logiciel quiutilise la librairie sphinx mais ne l'exloite pas a fond

une librairie c'est un peu comme des commande predefinie en programation il y a different languague est pour eviter de tout ecrire en chifre binaire il y a des commande et ses commande sont regrouper en librairie
comme "stdio.h" et "stdlib.h" qui te permet d'ecrire les principale fonction printf scanf etc..

l@in · Le 16/11/2010, à 08:18

Les sons fréquemment entendus ne pourraient-ils pas être nommés et répertoriés dans une liste allant des sons comme le claquement de doigts à des sons "linguistiques" de n'importe quelle langue qu'ils soient ?
.

si j'ai bien compri c'est a sa que sert le modeldir (repertoire de model) comme l'exemple dans cette page :
http://cmusphinx.sourceforge.net/wiki/t … cketsphinx
d'ailleur sur internet j'avais vue un site repertoriant plein de model de sons je en sais plus ou

par exemple ici on a aparement le model tortue (turtle.DMP

#include <pocketsphinx.h>


int
main(int argc, char *argv[])
{
        ps_decoder_t *ps;
        cmd_ln_t *config;

        config = cmd_ln_init(NULL, ps_args(), TRUE,
                             "-hmm", MODELDIR "/hmm/en_US/hub4wsj_sc_8k",
                             "-lm", MODELDIR "/lm/en/turtle.DMP",
                             "-dict", MODELDIR "/lm/en/turtle.dic",
                             NULL);
        if (config == NULL)
                return 1;

        return 0;
}

Dernière modification par l@in (Le 16/11/2010, à 08:19)

kenjiu2002 · Le 16/11/2010, à 17:45

Tu as tout à fait raison. J'ignorais que gnome-voice-control était basé sur sphinx. Ce qui est logique finalement puisque des librairies pour la reconnaissance vocale, il n'y en a pas 50 sur ubuntu.
.
Ok donc apparemment, ce code fait appel au fichier hub4wsj_sc_8k qui est surement un fichier son enregistré en 8k/sec. Sphinx ferait-il systématiquement appel à des fichiers son pour les comparer au son du micro ? Je suis un peu étonné. Et en même temps pas du tout. Parce que si gnome-voice-control est basé sur sphinx, et si il semble tellement lent sur la petite video, c'est peut-être à cause de sphinx. C'est peut-être sphinx qui est lent. Si il doit comparer pleins d'échantillons sonores au moindre bruit capté par le micro, ça ne m'étonne pas que c'est lent. Les tests de sphinx nous le diront.
.
Je suis étonné car pourquoi ne pas utiliser une signature du signal plutôt que le signal lui-même ? Par "signature" j'entends une réécriture des modèles de sons dans un format qui serait certes inécoutable mais qui permettrait de déterminer rapidement le taux de correspondance. Pour expliquer l'idée j'avais pris l'exemple de ne retenir que les minima et les maxima de la courbe sonore, mais ce n'est que la première idée qui m'est venue. On pourrait préférer enregistrer le son sous forme d'équations, par exemple. En tout cas 8k c'est trop, et en même temps pas assez. C'est trop lourd à traiter et la qualité de correspondance n'est pas suffisante. On le voit dans la vidéo, le gars doit souvent répéter. Bon, je parle beaucoup mais je ne lis pas beaucoup et je ne teste pas beaucoup. Heureusement que tu es là, l@in. N'hésite pas à coller les infos que tu trouves interressantes, et merci !
.
[édit] si je comprends bien sphinx agit en trois temps. D'abord il repère les sons dans sa base de modèles, et ensuite peut-être qu'il met bout à bout les retranscriptions phonétiques correspondant aux sons pour enfin retrouver les mots correspondants dans son dictionnaire. Simple supposition. Si ça se passe comme ça, alors peut-être que nous pourrions envisager d'enregistrer nos propres modèles de sons (voir même effacer tous ceux de sphinx). Resterait alors à déclencher à partir de là l'exécution des commandes souhaitées, car nous n'avons pas besoin de retranscrire quoi que ce soit donc pas besoin de phonétique ni de dictionnaire. Lecture.
.

Dernière modification par kenjiu2002 (Le 17/11/2010, à 06:11)

sharkgua · Le 16/11/2010, à 19:32

Sphinx a énormément de fichiers de "voix" (230mo pour la VF) (lien) donc en n'en utilisant que tres peut (10mo max) le logiciel serais beaucoup plus rapide. Pour cela il faudras mettre les mains dans le code source de Sphinx.
Le mieux (ce que ne fais pas, je crois, gnome voice controler (que j'ai tester et qui n'es pas si nul que cela)) serais d'avoir qu'un seul logiciel qui reunisse basse de donnée ET reconnaisance vocal :
Gnome-voice-controler : Mots de l'utilisateur ---> analyse GVC ---> comparation avec sphinx ---> resultat
Logiciel x : Mots de l'utilisateur ---> analyse logiciel ---> resultat
Il serais beaucoup plus rapide et consommerais moins de resources (normalement) car un seul logiciel tournerais et non pas deux.

kenjiu2002 · Le 16/11/2010, à 19:49

Intéressant. Il faudrait que j'en apprenne d'avantage sur la détection de sphinx. À quoi correspondent les modèles au juste ? à des phonèmes ? à des syllabes ? En fonction des réponses, on pourra choisir d'agir au niveau de la détection des modèles comme évoqué précédemment, au niveau des retranscriptions phonétiques (ou de ce qui doit y ressembler), ou au niveau du dictionnaire, ce qui à priori serait le plus simple (et le plus lourd comme souvent). Qu'en est-il de la license de sphinx ? C'est du pur open ou pas ? J'avoue que je m'y perd un peu. Avons-nous le droit de le modifier et de l'utiliser librement (et à vie) ?

sharkgua · Le 16/11/2010, à 20:18

kenjiu2002 a écrit :

Qu'en est-il de la license de sphinx ? C'est du pur open ou pas ? J'avoue que je m'y perd un peu. Avons-nous le droit de le modifier et de l'utiliser librement (et à vie) ?

D'apres le fichier d'installation de sphinx :
Installation Instructions
*************************

Copyright (C) 1994, 1995, 1996, 1999, 2000, 2001, 2002, 2004, 2005,
2006, 2007, 2008, 2009 Free Software Foundation, Inc.

Copying and distribution of this file, with or without modification,
are permitted in any medium without royalty provided the copyright
notice and this notice are preserved. This file is offered as-is,
without warranty of any kind.

Donc en gros : modifiez, on vous en encourage

kenjiu2002 · Le 16/11/2010, à 21:35

Super, bonne nouvelle.
Bon, le mieux finalement, c'est peut-être encore d'écrire un nouveau code source en se servant de la librairie sphinx, et en a la modifiant si nécessaire (en redécoupant certaines fonctions). Il faudrait s'interresser aux fonctions disponibles et voir comment on peut les utiliser au mieux dans notre contexte.

winniemiel05 · Le 16/11/2010, à 21:37

Il y a pas mal d'idées sur le brainstrom à ce propos. C'est vrai que je jusque là Canonical et les devs Ubuntu ne semblent pas avoir porter grand interet au brainstrom, mais ils ont promis de regarder chaque moi l'idée la plus populaire (je crois ). reste à réussir à en rendre une populaire..... telle que http://brainstorm.ubuntu.com/idea/19064/

kenjiu2002 · Le 16/11/2010, à 22:30

Merci pour l'info. Je viens de soumettre notre idée là-bas avec un lien vers ici et vis versa:
.

.
N'hésitez pas à vous créer un compte pour pouvoir voter, c'est vite fait.
.

Dernière modification par kenjiu2002 (Le 17/11/2010, à 00:29)

kenjiu2002 · Le 16/11/2010, à 23:26

Sur le Brainstorm, il est fait mention de simon, un programme allemand pour controler tout par la voix. C'est au départ prévu pour les personnes handicapées. Une solution de plus à tester:
.
http://simon-listens.org/index.php?id=128&L=1
http://sourceforge.net/projects/speech2text/
http://kde-apps.org/content/show.php/si … tent=73815
.

Dernière modification par kenjiu2002 (Le 17/11/2010, à 00:30)

kenjiu2002 · Le 17/11/2010, à 04:36

Une chose qui serait sympa et qui sera probablement envisagée tôt ou tard (j'en parle tant que j'y pense) c'est un système permettant d'utiliser les raccourcis sonores et la reconnaissance vocale dans un environnement bruyant. Il s'agira dans le cas du bruit ambiant (TV, conversations, voitures, etc) d'isoler la voix de l'utilisateur de ce bruit ambiant, et dans le cas du son produit par le PC lui-même, de soustraire directement le signal de sortie du serveur de son au signal d'entrée du micro, à l'instar du système de réduction de bruit développé si je ne m'abuse par Sennheiser.
.
Ce système repose sur le principe qui veut que deux ondes identiques en opposition de phase s'annulent. Dans le cas des casques Sennheiser, il suffit dés lors de capter le son ambiant grâce a des micros, de l'inverser, et de l'ajouter au son envoyé dans les écouteurs. Autrement dit, vous êtes dans le train où dans n'importe quel lieu bruyant et vous n'entendez que votre musique grâce à votre casque, qui en plus d'être insonorisé, annule le bruit ambiant.
.
Dans notre cas c'est pareil, sauf que c'est différent. On prend le signal de sortie de notre serveur de son, on le pondère au passage en fonction du rapport entre le volume de sortie et le "volume" de la voix de l'utilisateur, on l'égalise éventuellement en fonction du types de diffuseurs (portables, enceintes de bureau, home cinéma, etc) pour ensuite l'inverser, puis l'ajouter au signal capté par le microphone, et enfin analyser le signal résultant à l'aide de notre programme de reconnaissance de sons. Ceci devrait faciliter grandement la reconnaissance en milieu hostile (je voulais dire bruyant) et augmenter l'efficacité globale du système. La différence avec le système Sennheiser, c'est que nous, il faut quand même que l'ordinateur entende ce qu'on lui dit. C'est même le but...
.
Concernant le bruit ambiant (cf les discussions potentielles dans la pièce, avec potentiellement tous les mots de la langue française, dont ceux que nous n'aurons pas manqué d'utiliser dans nos "raccourcis sonores") l'isolement de la voix de l'utilisateur peut se révéler très utile. La technique devrait selon moi rester la même, à savoir: la comparaison de deux empreintes sonores avec plus ou moins de précision. Peut-être peut-on arriver à isoler le timbre de la voix, c'est une des questions que j'ai soulevé précédemment. À creuser. Mais on peut aussi envisager un autre système encore, dérivé lui aussi de celui de Sennheiser, explications:
.
On prend les bruits ambiants à caractère répétitif ou durable (bruit du ventilateur de l'ordinateur portable qui se répercute dans le micro par vibrations, bruits de travaux dans la rue, bruit métallique du compresseur d'un vieux frigo, bruit d'un téléphone qui sonne, etc) et on les "prolonge", après quoi on les inverse et en on les ajoute au signal du microphone comme précédemment, ceci afin d'améliorer encore la détection et de pouvoir plus facilement se servir du microphone intégré aux portables ou de tout autre microphone omnidirectionnel (c'est comme ça qu'on dit ?) et de ne pas avoir à porter de microphone sur soi. Mais tout ceci est un peu prématuré. C'est juste une note pour plus tard.
.
Maintenant que j'y pense: un paquet qui fonctionnerait comme le système de Sennheiser, et dont les vertus seraient les mêmes, ça aussi ça serait pas mal. Ça serait valable à l'aéroport avec le casque sur les oreilles... mais ça serait aussi valable quand on travaille à un bureau avec le casque sur les oreilles... L'idéal restant quand même les casques intégrant nativement ce système, dans la mesure où les micros sont - je suppose - situés idéalement au niveau des oreilles... logique. Mais ça vaudrait peut-être la peine de tester ça avec le simple micro intégré d'un ordinateur portable et bien sur avec celui d'un casque-micro. Il y a fort à parier que l'utilisation d'un serveur de son rapide comme par exemple jack associé à un noyau en temps réel (configuration de type studio) soient des conditions nécessaires au bon fonctionnement du système. Elles sont en tout cas profitables.
.
Ce qui me paraît souhaitable, dans la mesure où les programmes sont faits par des humains et pour des humains, c'est que ces programmes "calquent" le fonctionnement des humains. Dans le contexte qui est le notre, il s'agirait (j'ai "presque" envie de dire "il suffirait") de calquer la mécanique humaine d'écoute et de reconnaissance de sons. A fortiori pour la reconnaissance vocale, domaine dans lequel viennent s'ajouter des problématiques d'ordre linguistique que nous n'avons pas nous, dans le cadre de la reconnaissance de sons. Mais je laisse de côté la reconnaissance vocale pour l'instant sinon on ne va pas s'en sortir. Revenons à nos fonctions.
.
[édit] il est naturellement possible et même relativement probable que sphinx utilise des techniques similaires afin d'améliorer la qualité de la reconnaissance. Je l'ignore.
.

Dernière modification par kenjiu2002 (Le 17/11/2010, à 08:00)

fourchu · Le 20/11/2010, à 14:07

oh fan kenjiu2002 tu t'es étalé

faut que je relise le thread a tete reposée

moi je dois pouvoir se programmer ca je pense, sous réserve de s'appuyer sur une lib puissante et qui marche bien (sphinx?)
en gros ce ne serait jms qu'enrober des morceaux de lib existantes, ca me parait jouable. je verrai plutot un language de script bien foutu, genre le bon équilibre entre le coté interprété de bash et la galère compilée de C. pourquoi pas ruby ou python, en général on va plus vite avec cette approche, ruby m'a plusieurs fois agréablement surpris.

cela dit, il me rester bcp de lecture à faire sur le sujet avant d'envisager le moindre bout de code.

et déjà, au risque de faire le lourd :

There is currently no open-source equivalent of proprietary speech recognition software [...] for GNU/Linux. However, there are several incomplete, open-source projects and solutions that could be used to attain some elements of speech recognition in the free operating system.

source: http://en.wikipedia.org/wiki/Speech_rec … n_in_Linux

Donc là ca calme direct.
J'avais testé dragon didacte sur windows 98 en début des années 2000. C'était pas terrible mais déjà en francais j'avais à peu pres 90 à 95% de reconnaissance acceptable. mais bon, je tapais trop vite pour que ce soit vraiment interessant (je passais mon temps à corriger)
et c'était y'a 10 ans.

si wikipedia annonce direct que y'a pas grand chose de très avancé coté open source, c'est pas pour rien. clairement le niveau des algo mis en jeu n'est pas du tout à la portée du 1er venu. Ca demanderait des années de boulot pour de bons programmeurs couplés à des chercheurs. Donc déjà moi en ce qui me concerne, y'a pas moyen de plonger dans un plan comme ca.

apres bon, si le niveau des projets open source est suffisament avancé pour reconnaitre un
"Gerard active commande bleue"
==> hop ca lance telle ligne de commande

ca par contre, ca me parait gérable

faut que je creuse un peu quoi

kenjiu2002 · Le 20/11/2010, à 16:17

Salut, et merci beaucoup pour ton enthousiasme. La lecture à tête reposée du thread t'en dira un peu plus, et je crois que ça va te plaire (j'espère).
Ruby ou Python, c'est exactement ce à quoi je pensais. Bonne lecture.

Dernière modification par kenjiu2002 (Le 20/11/2010, à 16:18)

l@in · Le 20/11/2010, à 20:20

sauf que sphinx n'est disponible que sur java et C, et puis c'est pas dur a compiler !

kenjiu2002 · Le 21/11/2010, à 06:36

Ah oui là, forcément... Je n'y pensais plus. Ceci dit ça n'empêche pas d'écrire un truc en python en plus de faire des essais avec sphinx. On peut peut-être repiquer les algos de sphinx, enfin du moins ceux de base ? Ou s'en inspirer pour en écrire un nouveau encore plus basique ? (qui ne tienne pas compte de la langue, mais des sons)

kenjiu2002 · Le 21/11/2010, à 08:07

Une petite vidéo sympa du logiciel "Simon" (le gars est sous windows):
http://www.youtube.com/watch?v=x_9ImaiO … re=related
Bon, c'est pas mal, la reconnaissance vocale fonctionne plutôt bien, mais ça reste un chouilla lent à mon goût (un peu moins que gnome-voice-control dirait-on) sauf qu'à première vue, le fonctionnement est assez verrouillé... Je préfèrerais cent fois associer mes propres commandes que celles qu'on voit là, mais peut-être qu'on peut changer, soit. C'est en tout cas très bien pour les gens ayant des difficultés particulières d'accessibilité, notamment le truc de pouvoir cliquer où on veut avec la voix en sélectionnant des zones.
.
Et voici une vidéo d'un gars qui bidouille avec sphinx et max-msp. Pour ceux qui ne connaitraient pas max-msp, c'est un genre d'interface de développement qui permet de faire plein de trucs à condition de suivre la formation de deux semaines sinon on pige rien. Je connais quelqu'un qui l'utilise pour faire de la musique qu'il "module" grâce à 2 joysticks. Ici, on dirait bien que le gars "lance des commandes" grâce à sphinx. Bref, qu'est-ce qu'on retrouve comme par hasard dans la vidéo ? Une spéciale dédicace à Blade Runner ! Comme quoi il n'y a pas que moi que cette scène a marqué:
http://www.youtube.com/watch?v=W-vAKtdvGhA

Dernière modification par kenjiu2002 (Le 22/11/2010, à 23:45)

l@in · Le 21/11/2010, à 10:00

ba si tu cherche un bon truc sur window il y a dragon naturaly speaking un truc comme sa ^^

kenjiu2002 · Le 21/11/2010, à 19:03

Et pourquoi c'est y que je chercherais un truc sur Windows ? C'est vrai que dragon à l'air d'être une référence pour windows, mais, au risque de me répéter, dans l'idée de vouloir commander le PC par la voix, il me paraît indispensable de pouvoir paramétrer nos commandes personnelles, et comme celles-ci sont vouées à rester en nombre relativement limité, contrairement aux mots de la langue qui eux sont beaucoup plus nombreux, nous gagnons à nous "contenter" d'une simple reconnaissance d'échantillons sonores, et à nous "débarrasser" de tout ce qui sert à reconnaître des mots. Dans cette idée, effectivement, on parle d'un programme qui n'existe pas encore (du moins pas à ma connaissance) mais qui serait beaucoup plus simple que tous ces softs complexes de reconnaissance vocale, dont le cahier des charges exige de permettre la retranscription des mots.

Dernière modification par kenjiu2002 (Le 22/11/2010, à 23:48)

sharkgua · Le 24/11/2010, à 09:34

Une autre video de sphinx (legerement deffirente de ce que nous cherchons) mais j'ai pas pu resister :
http://www.youtube.com/user/yankeyan#p/ … Q59dXOo63o
Donc que faisont nous ? on réedite sphinx ou on se crée une nouvelle base sonore ?

fabgad · Le 24/11/2010, à 19:47

Alors moi je suis totalement partant !
Bon par contre en ce moment j'ai la flemme de dev (surtout en python ^^), mais si il y a besoin de testeur aucun soucis (bon on se redis dans 2ans lol).
Sinon pour info de mémoire on peut le faire dans DNS d'enregistrer des commandes, je vais vérifier si j'arrive a remettre windows debout (pk la il est mort ) puis je vous retiendrais au courant.

totof1169 · Le 10/12/2010, à 15:17

je suis interresse aussi ,mais j ai un gros bug sur ma carte son et pas de microphone utilisable ,donc pas de reconnaissance vocale

j avais deja teste quelques solution il y a quelques temps mais rien de vraiment bon
par contre ,mon idees serait de coupler la reconnaissance avec la synthese vocale ,pour avoir une meilleure interraction
http://forum.ubuntu-fr.org/viewtopic.php?id=108430 ,pour la synthese vocale ,ca fonctionne bien
je demande au pc si j ai recu un mail et il me repond !!!!!

quelqu un a t il une experience avec androide ? google a une api pour androide mais je ne sais pas si c est libre ,et surtout si c est tranposable sur une distro linux ,

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#26 Le 15/11/2010, à 18:35

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#27 Le 15/11/2010, à 18:49

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#28 Le 15/11/2010, à 19:25

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#29 Le 15/11/2010, à 20:30

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#30 Le 16/11/2010, à 08:06

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#31 Le 16/11/2010, à 08:18

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#32 Le 16/11/2010, à 17:45

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#33 Le 16/11/2010, à 19:32

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#34 Le 16/11/2010, à 19:49

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#35 Le 16/11/2010, à 20:18

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#36 Le 16/11/2010, à 21:35

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#37 Le 16/11/2010, à 21:37

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#38 Le 16/11/2010, à 22:30

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#39 Le 16/11/2010, à 23:26

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#40 Le 17/11/2010, à 04:36

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#41 Le 20/11/2010, à 14:07

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#42 Le 20/11/2010, à 16:17

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#43 Le 20/11/2010, à 20:20

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#44 Le 21/11/2010, à 06:36

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#45 Le 21/11/2010, à 08:07

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#46 Le 21/11/2010, à 10:00

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#47 Le 21/11/2010, à 19:03

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#48 Le 24/11/2010, à 09:34

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#49 Le 24/11/2010, à 19:47

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

#50 Le 10/12/2010, à 15:17

Re : [projet] raccourcis sonores: exécuter des commandes grâce à des sons

Pied de page des forums