L’original en anglais peut se lire à :
http://googlesystem.blogspot.com/2007/….html
La photo de Marissa Mayer provient de Wikipedia : http://en.wikipedia.org/MM
Celle de Peter Norvig est extraite de son site : http://norvig.com/bio.html
Lors d’un entretien très intéressant du mois d’octobre 2007, la Vice-Présidente de Google, Marissa Mayer, reconnut que créer des algorithmes est parfois nettement moins intéressant que d’avoir accès à de grandes quantités de données.
“A l’heure actuelle Google est très fort en terme de mots clefs et cela entraîne, selon nous, des limites que les moteurs de recherche seront capables de dépasser avec le temps. Les gens devront être à même de poser des questions et nous devrions comprendre leur signification, ou bien encore ils devront avoir la possibilité d’exprimer des demandes sur un niveau conceptuel. Il y a énormément de questions liées aux concepts, non pas à propos des mots présents dans une page mais plutôt des questions du genre “de quoi s’agit-il?” Beaucoup d’utilisateurs se tourneront vers l’internet sémantique pour répondre à de telles demandes. Ce que nous constatons en réalité c’est qu’avec beaucoup de données, vous arrivez à donner un sens intelligible aux choses même si ce n’est que la recherche exhaustive (NDT : “through brute force dans le texte anglais) qui vous amène à ce sens.
Lorsque vous tapez “GM” dans Google, nous savons que cela veut dire “General Motors”. Si vous tapez “nourriture GM” (NDT : “GM Foods”), nous répondons par des liens sur la “nourriture génétiquement modifiée”. En fait nous traitons tellement d’information, nous disposons de tellement d’éléments contextuels, comme des acronymes, par exemple que tout à coup le moteur de recherche semble doté d’intelligence parce qu’il est arrivé au stade de la compréhension sémantique. En réalité ce n’est pas le cas. C’est tout simplement dû à une recherche exhaustive (par force brute). Ceci dit, je pense que le meilleur algorithme pour une recherche est celui qui combine le calcul informatique “par force brute” avec la capacité pointue à globaliser les choses, auxquels viendrait s’ajouter la qualité du facteur humain”.
Marissa Mayer reconnut que la raison principale pour Google d’avoir ouvert le service 411 gratuit c’est d’obtenir énormément de données de façon à alimenter les algorithmes de reconnaissance vocale.
“Vous avez sans doute entendu parler de notre service d’assistance téléphonique : 1-800-GOOG-411. Il n’est pas encore prouvé que ce service 411 gratuit est une affaire profitable ou non. Pour ma part, je suis un tantinet sceptique. Nous avons en fait lancé ce service afin de créer une base de données de modèles de voix différentes, que nous pourrons utiliser à de nombreuses fins y compris pour les recherches de vidéo.
Nos spécialistes en reconnaissance vocale disent qu’ils ont besoin de nombreux phonèmes pour pouvoir construire un modèle fiable de reconnaissance vocale. Le phonème est une syllabe prononcée par la voix d’une personne particulière avec une intonation qui lui est propre. C’est pourquoi nous devons disposer de la voix de nombreuses personnes, prononçant des phrases variées afin d’en tirer un modèle cohérent et solide. Notre numéro 1-800-GOOG-411 sert donc à collecter beaucoup d’échantillons de voix de façon à pouvoir comprendre avec une grande justesse les voix d’un appel téléphonique ou d’une vidéo”.
Peter Norvig, directeur de la recherche chez Google semble approuver cela : “J’ai toujours cru (du moins au cours des 15 dernières années) que la meilleure façon de mieux comprend
re un texte, c’est à partir de statistiques plutôt qu’à travers des grammaires et des lexiques. L’approche statistique est moins onéreuse, plus rapide, plus robuste, plus facile à insérer au niveau international et plus efficace à ce jour. Google utilise les statistiques dans le cadre de ses machines à traduire, des réponses aux questions, de la vérification orthographique, etc. comme vous pouvez le voir dans cette vidéo. Cette vidéo montre aussi que plus vous disposez de données, meilleure sera la performance de votre algorithme d’intelligence artificielle, même si ce n’est pas le meilleur.”
Peter Norvig explique que Google a développé sa propre technologie de reconnaissance vocale pour la raison suivante : “Nous voulions disposer d’une technologie vocale qui pouvait servir d’interface pour les téléphones et également pour indexer des textes audio. Nous avons examiné la technologie existante et avons ainsi décidé de créer la nôtre. Nous avons conclu qu’au vu des données et des énormes ressources de calculs automatisés qui sont les nôtres, nous pouvions faire progresser ce domaine. En fait tout ce que nous créons, nous le faisons dans les règles de l’art et nous avons les infrastructures de calculs automatisés capables d’améliorer encore le système. Au fur et à mesure que les interactions avec les utilisateurs et le téléchargement de vidéos nous fournissent toujours plus de données, notre système va aller en s’améliorant puisque, avec le temps, les données donnent naissance aux algorithmes.”
Google a une position privilégiée en ayant accès à de grandes quantités de données, ce qui peut contribuer à l’amélioration d’autres services.