Organiser les données non structurées

Organize unstructured data

Les bases de données vectorielles sont efficaces pour effectuer des recherches de similarité, elles sont évolutives et flexibles, mais les vecteurs de haute dimension peuvent être coûteux en termes de calculs, selon Huaping Gu d'Apple. ¶ Crédit : TimeStopper/Getty

La société de bases de données vectorielles Pinecone a obtenu en avril 100 millions de dollars de financement en capital-risque (VC) pour une valorisation de 750 millions de dollars. D’autres startups de bases de données vectorielles ont également levé récemment des millions de dollars auprès de VC, notamment Chroma, Weviate et Qdrant. Cela pose la question : qu’est-ce que les bases de données vectorielles et pourquoi suscitent-elles un tel engouement maintenant ?

Entre 80 % et 90 % des données de toute organisation sont non structurées, selon les estimations des analystes, et les bases de données ont connu de nombreuses itérations, des bases de données SQL / Structured Query Language (dans lesquelles les données sont structurées dans une collection de tables) et des bases de données relationnelles (qui se concentrent sur la relation entre les éléments de données stockés) aux bases de données NoSQL (dans lesquelles les données sont stockées et récupérées dans différentes structures sans utiliser de lignes et de colonnes). Le NoSQL a été déclenché par l’avènement du Web 2.0 au début des années 2000.

Ces bases de données traditionnelles n’étaient pas suffisamment équipées pour analyser les données non structurées, en particulier en temps réel. Maintenant, avec l’essor de l’intelligence artificielle (IA), des bases de données vectorielles ont émergé pour une utilisation dans les applications d’apprentissage automatique. Un vecteur est un tableau de données haute dimension dans lequel chaque dimension est un nombre.

Charles Xie, PDG et fondateur de la société de bases de données vectorielles Zilliz et du projet Milvus de la Linux Foundation, explique : “Les vecteurs sont importants car lorsqu’il s’agit de photos, d’images ou de vidéos, ils sont la représentation numérique de données non structurées qui peuvent être facilement traitées par une machine.”

C’est là que l’utilisation de modèles d’apprentissage automatique pour transformer les données non structurées en valeurs à virgule flottante, ou vecteurs d’encastrement, est essentielle. En revanche, ces images, photos et vidéos non structurées sont chronophages et difficiles à classifier manuellement dans les bases de données relationnelles. Par exemple, il a fallu 25 000 personnes (curateurs) pour étiqueter le célèbre ensemble de données ImageNet, explique Xie.

Une fois que les données sont dans un format lisible par machine, les bases de données relationnelles stockent et recherchent des données structurées basées sur des tables, explique Xie. Cependant, contrairement aux données structurées, il n’y a pas de moyen facile de stocker et de rechercher efficacement de grandes quantités de données non structurées dans une base de données relationnelle.

Par exemple, chercher rapidement des chaussures similaires, étant donné une collection de photos de chaussures prises sous différents angles, serait impossible dans une base de données relationnelle, car comprendre la taille, le style, le type de talon, la couleur, etc., uniquement à partir des valeurs de pixels brutes de l’image est difficile, observe Chris Churilo, vice-présidente du marketing chez Zilliz. “Nous voulons donc nous tourner vers une machine pour le faire pour nous”, en utilisant des modèles “qui vont cracher une représentation numérique de ce contenu” qui sont des encastrements ou des vecteurs, dit-elle. “La chose cool à propos de cette représentation numérique est que maintenant je peux demander à la machine de trouver [quelque chose] de similaire en comparant simplement ces nombres entre eux.” La machine peut le faire avec une grande précision, explique Churilo.

Les bases de données vectorielles sont couramment utilisées pour la recherche de similarités et les recommandations de produits, confirme Arun Chandrasekaran, vice-président distingué et analyste pour la société de recherche en marketing Gartner.

“Une base de données vectorielle indexe et stocke des encastrements vectoriels pour une récupération rapide”, déclare Chandrasekaran. L’utilisation croissante de modèles fondamentaux d’IA suscite un intérêt croissant pour les bases de données vectorielles, ajoute-t-il. À mesure que les clients affinent les modèles d’IA générative, ils stockeront et récupéreront les données organisationnelles dans des bases de données vectorielles.

Dans l’IA générative, une base de données vectorielle peut être utilisée pour stocker les encastrements vectoriels qui résultent de la formation des modèles fondamentaux d’IA, ajoute Chandrasekaran.

“La base de données vectorielle est le nom à la mode pour un vieux sujet”, observe Andy Pavlo, professeur associé en base de données à l’Université Carnegie Mellon, dont le domaine de recherche est les systèmes de gestion de base de données. “Il s’agit de suivre le rythme de l’IA.”

Faisant écho aux autres, Pavlo dit que ChatGPT et l’apprentissage automatique stockent des vecteurs, et les bases de données vectorielles stockent ces encastrements afin que les utilisateurs puissent les utiliser pour une recherche rapide.

Les bases de données vectorielles sont efficaces pour effectuer des recherches de similarité, elles sont évolutives et flexibles, écrit Huaping Gu, ingénieur de données logicielles chez Apple. Cependant, il y a aussi certains inconvénients à les utiliser. Les vecteurs de haute dimension peuvent être coûteux en termes de calculs. Ils peuvent également être difficiles à visualiser et à interpréter, ce qui rend difficile le débogage ou le réglage des modèles IA/ML, selon Gu.

Les bases de données vectorielles ne donnent pas non plus des résultats de recherche parfaits. “À la fin de la journée, ce qu’ils font, c’est construire des index pour effectuer une recherche du plus proche voisin, et l’idée est que vous avez un espace multidimensionnel qui représente vos vecteurs”, explique Pavlo. “Lorsque vous effectuez la requête et la convertissez en tant qu’incorporation dans un vecteur, elle ne correspondra pas à une correspondance exacte.”

À l’heure actuelle, “Les cas d’utilisation pour les bases de données vectorielles sont assez limités pour la plupart des clients d’entreprise”, observe Chandrasekaran. Cependant, attendez-vous à voir une utilisation accrue de celles-ci. Elles “gagnent une immense popularité pour les applications d’IA générative,” dit-il, ajoutant que “c’est un écosystème naissant mais en rapide évolution.”

Esther Shein est une écrivaine indépendante spécialisée dans la technologie et les affaires basée dans la région de Boston.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Science des données

Science des données

Libérez le potentiel des données avec l'art et la science de la science des données.

Discover more

Science des données

Série d'apprentissage non supervisé Exploration du regroupement hiérarchique.

Dans mon dernier article de la série sur l'apprentissage non supervisé, nous avons exploré l'une des méthodes de clus...

AI

Ingénieurs en apprentissage automatique - Que font-ils réellement?

Le titre est une question piège, bien sûr. Tout comme Data Scientist auparavant, le titre d'ingénieur en apprentissag...

AI

Utilisez les DataFrames Pandas de manière plus efficace avec les 7 principales opérations de colonnes

En ce qui concerne l'analyse des données, Pandas est la bibliothèque Python la plus utilisée pour manipuler et prépar...

Science des données

Analyse de données massives pourquoi est-ce si crucial pour l'intelligence d'affaires ?

Comprendre la relation entre les big data et l'intelligence d'affaires.

Science des données

Outils d'analyse de données que vous devez connaître en 2023

Quels outils devez-vous connaître pour être un analyste de données réussi ?

AI

Taipy un outil pour développer des applications conviviales prêtes à être utilisées par des data scientists en production

En tant que Data Scientist, vous pouvez souhaiter créer des tableaux de bord pour la visualisation des données, visua...