Recherche Google à I/O 2023
Google Search at I/O 2023.
Publié par James Manyika, SVP Google Recherche et Technologie & Société, et Jeff Dean, Scientifique en Chef, Google DeepMind et Google Research
Le mercredi 10 mai a été une journée passionnante pour la communauté de recherche de Google alors que nous avons observé les résultats de mois et d’années de notre travail fondamental et appliqué être annoncés sur la scène de Google I/O. Avec le rythme rapide des annonces sur scène, il peut être difficile de transmettre l’effort substantiel et les innovations uniques qui sous-tendent les technologies que nous avons présentées. Ainsi, aujourd’hui, nous sommes heureux de révéler plus d’informations sur les efforts de recherche derrière certaines des nombreuses annonces convaincantes de l’I/O de cette année.
PaLM 2
Notre modèle de langage large de prochaine génération (LLM), PaLM 2, est construit sur des avancées en matière de mise à l’échelle optimale de calcul, de réglage fin d’instruction à grande échelle et de mélange amélioré de données. En affinant et en réglant les instructions du modèle pour différentes fins, nous avons pu intégrer des capacités de pointe dans plus de 25 produits et fonctionnalités Google, où il aide déjà à informer, assister et ravir les utilisateurs. Par exemple:
- Bard est une expérimentation précoce qui vous permet de collaborer avec une IA générative et qui aide à stimuler la productivité, accélérer les idées et alimenter la curiosité. Il s’appuie sur des avancées en matière d’efficacité de l’apprentissage profond et utilise l’apprentissage par renforcement à partir des commentaires humains pour fournir des réponses plus pertinentes et augmenter la capacité du modèle à suivre les instructions. Bard est désormais disponible dans 180 pays, où les utilisateurs peuvent interagir avec lui en anglais, japonais et coréen, et grâce aux capacités multilingues offertes par PaLM 2, la prise en charge de 40 langues arrive bientôt.
- Avec Search Generative Experience, nous retirons plus de travail de la recherche, de sorte que vous pourrez comprendre un sujet plus rapidement, découvrir de nouveaux points de vue et des idées, et accomplir plus facilement les tâches. Dans le cadre de cette expérimentation, vous verrez un instantané alimenté par l’IA des informations clés à considérer, avec des liens pour approfondir.
- MakerSuite est un environnement de prototypage facile à utiliser pour l’API PaLM, alimenté par PaLM 2. En fait, l’engagement des utilisateurs internes avec les prototypes précoces de MakerSuite a accéléré le développement de notre modèle PaLM 2 lui-même. MakerSuite est issu de recherches axées sur les outils de mise en évidence, ou des outils explicitement conçus pour personnaliser et contrôler les LLM. Cette ligne de recherche comprend PromptMaker (précurseur de MakerSuite), et AI Chains et PromptChainer (l’un des premiers efforts de recherche démontrant l’utilité du chaînage LLM).
- Le projet Tailwind a également utilisé des prototypes de recherche précoces de MakerSuite pour développer des fonctionnalités aidant les écrivains et les chercheurs à explorer des idées et à améliorer leur prose. Son prototype de cahier axé sur l’IA utilisait PaLM 2 pour permettre aux utilisateurs de poser des questions sur le modèle ancré dans les documents qu’ils définissent.
- Codey est une version de PaLM 2 affinée sur le code source pour fonctionner en tant qu’assistant développeur. Il prend en charge un large éventail de fonctionnalités Code AI, notamment les complétions de code, l’explication de code, la correction de bogues, la migration de code source, les explications d’erreur, et plus encore. Codey est disponible via notre programme de testeurs de confiance via les IDE (Colab, Android Studio, Duet AI for Cloud, Firebase) et via une API destinée aux tiers.
Peut-être encore plus excitant pour les développeurs, nous avons ouvert les APIs PaLM & MakerSuite pour offrir à la communauté des opportunités d’innover en utilisant cette technologie révolutionnaire.
- Grands modèles de séquence pour les activités de développement de logiciels
- Des chercheurs ‘scindent’ les phonons pour avancer vers un nouveau type d’ordinateur quantique.
- Un capteur d’alcool mobile porté au poignet pourrait stimuler la recherche sur la consommation d’alcool.
![]() |
PaLM 2 dispose de capacités de codage avancées qui lui permettent de trouver des erreurs de code et de faire des suggestions dans un certain nombre de langues différentes. |
Imagen
Notre famille de modèles de génération et d’édition d’images Imagen repose sur les avancées des modèles de langage basés sur les grands transformateurs et des modèles de diffusion. Cette famille de modèles est intégrée dans plusieurs produits Google, notamment :
- La génération d’images dans Google Slides et le fond d’écran IA génératif d’Android sont alimentés par nos fonctionnalités de génération de texte en image.
- Vertex AI de Google Cloud permet la génération d’images, l’édition d’images, l’agrandissement d’images et le réglage fin pour aider les clients professionnels à répondre à leurs besoins commerciaux.
- I/O Flip, une version numérique d’un jeu de cartes classique, présente des mascottes de développeurs Google sur des cartes entièrement générées par IA. Ce jeu a mis en évidence une technique de réglage fin appelée DreamBooth pour adapter des modèles de génération d’images pré-entraînés. En utilisant seulement quelques images en entrée pour le réglage fin, elle permet aux utilisateurs de générer des images personnalisées en quelques minutes. Avec DreamBooth, les utilisateurs peuvent synthétiser un sujet dans diverses scènes, positions, vues et conditions d’éclairage qui n’apparaissent pas dans les images de référence. ——————————————————————————————————————————————————————————————————————————————————————————–
I/O Flip présente des jeux de cartes personnalisés conçus avec DreamBooth. ——————————————————————————————————————————————————————————————————————————————————————————–
Phenaki
Phenaki, le modèle de génération de texte en vidéo basé sur les transformateurs de Google, a été présenté dans la pré-émission d’I/O. Phenaki est un modèle qui peut synthétiser des vidéos réalistes à partir de séquences de prompts textuels en tirant parti de deux composants principaux : un modèle encodeur-décodeur qui compresse les vidéos en plongées discrètes et un modèle de transformateur qui traduit les plongées textuelles en jetons vidéo.
![]() |
![]() |
ARCore et l’API sémantique de scène
Parmi les nouvelles fonctionnalités d’ARCore annoncées par l’équipe AR à I/O, l’API sémantique de scène peut reconnaître la sémantique pixel par pixel dans une scène extérieure. Cela aide les utilisateurs à créer des expériences AR personnalisées en fonction des caractéristiques de la zone environnante. Cette API est alimentée par le modèle de segmentation sémantique extérieure, exploitant nos travaux récents autour de l’architecture DeepLab et d’un ensemble de données de compréhension de scènes extérieures égocentriques. La dernière version d’ARCore inclut également un modèle de profondeur monoculaire amélioré qui offre une plus grande précision dans les scènes extérieures.
![]() |
L’API de sémantique de scène utilise un modèle de segmentation sémantique basé sur DeepLab pour fournir des étiquettes précises de pixels dans une scène extérieure. |
Chirp
Chirp est la famille de modèles de parole universelle de pointe de Google, formée sur 12 millions d’heures de parole pour permettre la reconnaissance automatique de la parole (ASR) pour plus de 100 langues. Les modèles peuvent effectuer l’ASR sur des langues sous-dotées, telles que l’amharique, le cebuano et l’assamais, en plus des langues largement parlées comme l’anglais et le mandarin. Chirp est capable de couvrir une telle variété de langues en tirant parti de l’apprentissage auto-supervisé sur un ensemble de données multilingue non étiqueté avec un affinage sur un ensemble de données étiquetées plus petit. Chirp est désormais disponible dans l’API Google Cloud Speech-to-Text, permettant aux utilisateurs d’effectuer une inférence sur le modèle via une interface simple. Vous pouvez commencer avec Chirp ici.
MusicLM
À l’I/O, nous avons lancé MusicLM, un modèle de texte en musique qui génère 20 secondes de musique à partir d’une indication de texte. Vous pouvez l’essayer vous-même sur AI Test Kitchen, ou le voir en vedette pendant la pré-émission de l’I/O, où le musicien électronique et compositeur Dan Deacon a utilisé MusicLM dans sa performance.
MusicLM, qui se compose de modèles alimentés par AudioLM et MuLAN, peut créer de la musique (à partir de texte, de chant, d’images ou de vidéos) et des accompagnements musicaux pour le chant. AudioLM génère de l’audio de haute qualité avec une cohérence à long terme. Il mappe l’audio sur une séquence de jetons discrets et lance la génération audio comme une tâche de modélisation de la langue. Pour synthétiser des sorties plus longues efficacement, il a utilisé une approche novatrice que nous avons développée appelée SoundStorm.
Doublage de traducteur universel
Nos efforts de doublage exploitent des dizaines de technologies d’IA pour traduire la gamme complète de contenus vidéo, rendant les vidéos accessibles aux publics du monde entier. Ces technologies ont été utilisées pour doubler des vidéos dans une variété de produits et de types de contenu, y compris du contenu éducatif, des campagnes publicitaires et du contenu créateur, avec plus à venir. Nous utilisons la technologie de l’apprentissage profond pour atteindre la préservation de la voix et le raccordement des lèvres et permettre une traduction vidéo de haute qualité. Nous avons construit ce produit pour inclure une vérification humaine de la qualité, des vérifications de sécurité pour aider à prévenir les abus, et nous le rendons accessible uniquement aux partenaires autorisés.
L’IA pour le bien-être social mondial
Nous appliquons nos technologies d’IA pour résoudre certains des plus grands défis mondiaux, tels que l’atténuation du changement climatique, l’adaptation à une planète en réchauffement et l’amélioration de la santé et du bien-être humains. Par exemple :
- Les ingénieurs de la circulation utilisent nos recommandations Green Light pour réduire les arrêts et redémarrages aux intersections et améliorer le flux de la circulation dans les villes de Bangalore à Rio de Janeiro et de Hambourg. Green Light modélise chaque intersection, analyse les modèles de trafic pour développer des recommandations qui rendent les feux de circulation plus efficaces – par exemple, en synchronisant mieux le timing entre les feux adjacents ou en ajustant le temps de “feu vert” pour une rue et une direction données.
- Nous avons également étendu la couverture mondiale sur le Flood Hub à 80 pays, dans le cadre de nos efforts de prédiction des inondations fluviales et d’alerte des personnes sur le point d’être impactées avant que la catastrophe ne frappe. Nos efforts de prévision des inondations reposent sur des modèles hydrologiques informés par des observations satellitaires, des prévisions météorologiques et des mesures in-situ.
Technologies pour des applications d’apprentissage automatique inclusives et équitables
Avec notre investissement continu dans les technologies d’IA, nous mettons l’accent sur le développement responsable de l’IA dans le but de rendre nos modèles et outils utiles et impactants tout en garantissant l’équité, la sécurité et l’alignement avec nos Principes d’IA. Certains de ces efforts ont été mis en avant lors de l’événement I/O, notamment :
- La publication du jeu de données Monk Skin Tone Examples (MST-E) pour aider les praticiens à mieux comprendre l’échelle MST et à former des annotateurs humains pour des annotations de tonalité de peau plus cohérentes, inclusives et significatives. Vous pouvez en savoir plus sur cette initiative et d’autres développements sur notre site Web. Il s’agit d’une avancée par rapport à la publication en open source de l’échelle de tonalité de peau Monk Skin Tone (MST) que nous avons lancée l’année dernière pour permettre aux développeurs de créer des produits plus inclusifs et mieux représenter leurs utilisateurs divers.
- Un nouveau concours Kaggle (ouvert jusqu’au 10 août) dans lequel la communauté de l’apprentissage automatique est chargée de créer un modèle capable d’identifier rapidement et avec précision la dactylologie de la langue des signes américaine (ASL) – où chaque lettre d’un mot est épelée en ASL rapidement en utilisant une seule main, plutôt que les signes spécifiques pour des mots entiers – et de la traduire en texte écrit. Découvrez-en davantage sur le concours de dactylologie ASL, qui présente une chanson de Sean Forbes, un musicien et rappeur sourd. Nous avons également présenté lors de l’événement I/O l’algorithme gagnant du concours de l’année précédente qui alimente PopSign, une application d’apprentissage de l’ASL pour les parents d’enfants sourds ou malentendants créée par Georgia Tech et le Rochester Institute of Technology (RIT).
Construire l’avenir de l’IA ensemble
Il est inspirant de faire partie d’une communauté de tant d’individus talentueux qui sont à la pointe du développement de technologies de pointe, d’approches d’IA responsables et d’expériences utilisateur passionnantes. Nous sommes en plein milieu d’une période de changement incroyable et transformateur pour l’IA. Restez à l’écoute pour plus de mises à jour sur les façons dont la communauté de Google Research explore audacieusement les frontières de ces technologies et les utilise de manière responsable pour bénéficier à la vie des gens dans le monde entier. Nous espérons que vous êtes aussi enthousiaste que nous à propos de l’avenir des technologies d’IA et nous vous invitons à vous engager avec nos équipes via les références, sites et outils que nous avons mis en évidence ici.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles