Entités nommées et les actualités
Named entities and news
Exploration de l’utilisation des entités nommées dans un ensemble de données de nouvelles néerlandaises

À la NOS – la Fondation néerlandaise de radiodiffusion publique – des centaines d’articles de presse sont rédigés chaque jour par nos équipes éditoriales. Ces articles informent les citoyens néerlandais sur l’actualité, mais constituent également un ensemble de données intéressant et de haute qualité du point de vue du traitement du langage naturel. Dans ce blog, en tant que scientifique des données à la NOS, je rends compte de plusieurs expériences réalisées en appliquant la reconnaissance des entités nommées (NER) à notre ensemble de données d’articles de presse néerlandais et présente plusieurs idées sur la manière dont la NER peut être appliquée dans le contexte des actualités.
Qu’est-ce que les entités nommées ?
Une entité nommée (NE) est un type particulier de mot qui fait référence à des objets du monde réel ayant des noms propres, tels que des personnes, des lieux ou des organisations. Des modèles existent qui reconnaissent automatiquement ces types de mots, appelés modèles de reconnaissance des entités nommées (NER). Un exemple d’un tel modèle NER appliqué à un extrait de l’un de nos articles est représenté dans la figure de droite ci-dessous, où les NE sont mises en évidence et annotées avec leur type de NE.
En néerlandais, quelques modèles pré-entraînés sont disponibles tels que spaCy [1], Flair [2] ou NTLK [3]. Nous avons effectué une évaluation qualitative de ces trois modèles, en les appliquant à un échantillon aléatoire de nos articles et en inspectant manuellement les résultats. À partir de cela, nous avons décidé d’utiliser spaCy pour le reste de nos expériences. Un aperçu de tous les types de NE que ce modèle peut reconnaître est présenté dans la Figure 1 ci-dessous à gauche.

En utilisant le modèle pré-entraîné de spaCy, nous avons appliqué la NER à plusieurs sous-ensembles de notre ensemble de données. Nous avons commencé par collecter tous les articles d’un seul mois (février 2023), avons divisé les données en catégories actualités et sport (respectivement 1 030 et 596 articles), puis avons appliqué la NER pour obtenir les comptes de fréquence totale par type de NE. Les résultats pour les actualités et le sport sont présentés dans la Figure 2, et mettent immédiatement en évidence l’importance des NE dans les actualités. On peut voir qu’en seulement un mois d’articles, des dizaines de milliers de NE sont mentionnées dans les articles. Pour mettre cela en perspective, en moyenne un article contient 404 mots, et environ 10% des mots dans les articles sont des NE. On peut également voir dans les figures ci-dessous que les types de NE les plus fréquemment mentionnés diffèrent pour les actualités et le sport. Pour les actualités, la majorité des types de NE sont des pays, suivis par des organisations et des personnes. Alors que pour le sport, le type de NE le plus fréquent est les personnes, suivi des pays et des numéraux. Cela peut s’expliquer par le fait que le sport mentionne des scores (cardinaux) et des athlètes individuels (personnes), tandis que les actualités couvrent des événements pour lesquels il est souvent pertinent de mentionner le lieu (gpe).
- Aliasing Votre série temporelle vous ment
- Les meilleures entreprises de sécurité à domicile à surveiller en 2023
- 4 ajustements faciles à mettre en œuvre et à fort impact pour optimiser les performances de votre code Python

NER offrant un nouveau point de vue sur nos données
Nous avons réalisé une étude de cas en utilisant tous les articles sur la Coupe du Monde de football 2022, composée de 482 articles au total. NER a été appliqué à l’ensemble de données pour détecter toutes les entités nommées de type “Personne”. 2 171 entités nommées uniques ont été trouvées, dont 1 296 ont été mentionnées une seule fois. Dans la Figure 3A, nous présentons un aperçu des personnes les plus fréquemment mentionnées lors de cet événement. De plus, pour les personnes les plus fréquemment mentionnées, nous avons créé un graphique en flux pour montrer comment les fréquences de mention évoluent au fil du temps, comme on peut le voir dans la Figure 3B. Cela montre par exemple que van Gaal est mentionné fréquemment tout au long du tournoi, tandis que d’autres sont mentionnés principalement les jours spécifiques. Ces types de graphiques peuvent fournir à nos équipes éditoriales de nouveaux types d’informations, car ils sont des reflets quantitatifs de ce que NOS écrit. De telles informations sont efficacement alimentées par NER. Pour l’instant, nous avons appliqué cela spécifiquement pour la Coupe du Monde 22, mais on peut imaginer de nombreux paramètres différents où ces types de graphiques peuvent être intéressants. Par exemple, pensez aux politiciens ou aux partis politiques mentionnés lors des élections, ou plus généralement, aux fréquences de mention des pays, des villes, des organisations, etc. sur une plus grande période de temps.

Tout sur [VOTRE ENTITÉ NOMMÉE ICI]
Nous avons poussé l’étude de cas en utilisant tous les articles sur la Coupe du Monde 2022 un peu plus loin et nous nous sommes posé la question “Pouvons-nous utiliser NER pour générer des résumés pour une entité nommée ?”. Nous avons commencé par développer un module qui collecte tous les articles mentionnant une entité nommée donnée, ce qui pourrait servir de collection de toutes les informations disponibles sur cette entité pour les utilisateurs particulièrement intéressés par cette entité. Mais, plus intéressant encore, le module collecte toutes les phrases de cette collection dans lesquelles l’entité nommée est mentionnée, ce qui donne un résumé de la collection. À titre d’exemple, nous avons appliqué le module pour Andries Noppert, le gardien de but de l’équipe nationale néerlandaise. À partir de la Figure 3, on peut déjà voir que Noppert a été mentionné assez fréquemment lors de l’événement. L’application du module pour Noppert a donné un résumé qui décrit assez bien l’histoire remarquable de notre gardien de but, qui est présenté ci-dessous traduit du néerlandais.
-------------------------------------------------- -------------------------------------------------- --------------------2022-11-11 - Noppert rejoint en tant que tueur de penalty ?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-16 - Andries Noppert, le gardien de but de sc Heerenveen, est le dix-neuvième joueur de la première ligue au Qatar.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-20 - "Ne vous inquiétez pas du Qatar et de l'Équateur" et "L'échec devant le but est un pari" Les analystes Leonne Stentler et Pierre van Hooijdonk sont d'accord. - Van Gaal ne dit rien sur la place de base de Noppert, mais fait allusion à Gakpo "à 10" Selon divers médias, Andries Noppert, âgé de 28 ans, qui joue pour sc Heerenveen, ferait ses débuts pour l'équipe Orange contre le Sénégal lundi.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-21 - Noppert est-il maintenant le gardien titulaire ? - Noppert : "C'est ce dont on rêve quand on est petit" Le gardien de but Andries Noppert ne semblait pas souffrir de trac contre le Sénégal. - Noppert réussira-t-il le premier débuts en Coupe du Monde de Schoenaker ? - Le gardien de but Andries Noppert fait ses débuts en équipe nationale et peut se vanter d'un premier match international réussi.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-22 - Noppert "désarmant" prend la scène : "Aux Pays-Bas, nous sommes tous des pleurnichards" Le gardien de but de 28 ans de sc Heerenveen a fait ses débuts lundi lors du match de la Coupe du Monde contre le Sénégal en équipe nationale néerlandaise.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-23 - Noppert ?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-24 - L'épisode de Foggia du gardien néerlandais Noppert : "Il fumait comme une cheminée" Andries Noppert est soudainement devenu un Néerlandais bien connu après le match de la Coupe du Monde des Pays-Bas contre le Sénégal.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-25 - Jurriën Timber, Virgil van Dijk et Nathan Aké ont bien organisé leur défense et Andries Noppert s'est une fois de plus révélé être un gardien fiable.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-03 - Regardez les réactions de Virgil van Dijk et Andries Noppert ici : Dans cette équipe, l'un des joueurs importants est de retour à sa place habituelle en attaque. - Andries Noppert a effectué un bon arrêt avec sa jambe gauche.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-07 - Noppert vit sobrement envers l'Argentine : "Messi peut aussi rater des penalties, n'est-ce pas ?"-------------------------------------------------- -------------------------------------------------- --------------------2022-12-09 - Donc oui..." Le conte de fées de Noppert a pris fin Ça aurait pu être si beau pour le gardien de but de sc Heerenveen Andries Noppert, mais le gardien de l'autre côté, Emiliano Martinez, est devenu le grand héros. - L'arrière latéral argentin Molina s'est échappé du dos de son collègue néerlandais Blind, Virgil van Dijk était juste trop tard pour corriger et Molina a dépassé Andries Noppert.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-16 - Six faits marquants de la Coupe du Monde : Amrabat conquiert, Modric dribble, Noppert sauve Des statistiques remarquables partout lors de la Coupe du Monde au Qatar.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-18 - Andries Noppert (Pays-Bas) Vermeulen : "Il en va de même pour Noppert, bien sûr.
Un système de recommandation conscient des NE
Jusqu’à présent, nous avons constaté que les NE sont abondants dans les articles de presse et que l’application de NER peut fournir des informations intéressantes. Il y a encore une autre expérience que nous pensons intéressante à partager dans ce blog en relation avec la question de recherche “Pouvons-nous utiliser NER pour améliorer notre système de recommandation basé sur le contenu ?”. Plus tôt, nous avons développé un système de recommandation basé sur le contenu qui a récemment été intégré dans notre application de presse. En utilisant des tests en ligne et hors ligne, nous avons comparé différents modèles et optimisations, et nous observons maintenant un taux de clics accru dans notre application. C’est une excellente nouvelle, mais nous cherchons toujours des moyens d’améliorer davantage notre système de recommandation. Nous avons reçu des commentaires de nos équipes éditoriales indiquant que le système de recommandation est confus pour les articles contenant des noms de personnes ou de lieux qui sont également des mots courants dans la langue néerlandaise. Dans la section suivante, nous rendons compte d’une expérience utilisant NER dans le but de résoudre ce type d’ambiguïté.
L’expérience
Notre système de recommandation actuel est basé sur des similarités cosinus en utilisant TF-IDF pour vectoriser les textes. Cela signifie essentiellement qu’il s’appuie fortement sur le chevauchement des mots pour identifier des articles similaires, mais attribue une plus grande pertinence aux mots rares. On peut imaginer que cette méthode ne fonctionne pas lorsque les mots ont plusieurs significations, ce qui peut être le cas pour les NE. Par exemple, considérons un article sur le golfeur Tiger Woods : un système de recommandation de base pourrait trouver des articles connexes mentionnant l’animal tigre ou des articles sur les bois. Ces recommandations ne seraient évidemment pas utiles. Nous avons émis l’hypothèse que cela pourrait être résolu en introduisant la conscience des NE dans notre système de recommandation en annotant les NE dans les textes selon leur type. Dans ce cas, les jetons ne se chevaucheraient plus, comme illustré dans la Figure 5.

Nous avons mis en place la conscience des NE en utilisant les types de NE personne, lieu, organisation et une combinaison de tous ces types. Nous avons évalué les différents modèles à l’aide d’un ensemble de tests annoté manuellement par nos équipes éditoriales et contenant des informations sur les articles connexes. Cet ensemble de tests contient 14 541 articles uniques, et en moyenne chaque article est lié à environ 2 autres articles. Comme mesure d’évaluation, nous avons calculé le rang moyen des articles liés dans les recommandations triées.
La Figure 6 montre les résultats de notre modèle de base et des différents modèles conscients des NE. On peut constater que notre modèle de base surpasse en fait tous les types de modèles conscients des NE. En théorie, l’introduction de la conscience des NE améliorerait le système de recommandation, mais en pratique, nous constatons qu’elle introduit plus d’ambiguïté qu’elle n’en résout. Nous avons examiné en détail les résultats des différents modèles et constaté que nous sommes limités par les performances du modèle NER. Le modèle NER de spaCy, évalué sur leur propre ensemble de tests, donne un score F de 0,77, mais ce score peut être plus bas lorsqu’il est appliqué à un autre ensemble de données, on peut donc s’attendre à ce que le modèle soit occasionnellement imprécis. Lors d’une inspection manuelle de certaines recommandations générées par les modèles conscients des NE, nous avons constaté qu’en combinaison avec TF-IDF, l’effet des NE mal détectés est assez fort. Pour les articles avec des NE mal détectés, les recommandations générées contiennent souvent le même NE mal classifié. Nous avons ainsi observé par exemple un article contenant le mot hindsight qui a été classifié comme un NE de type Personne, ce qui a entraîné des recommandations contenant le même NE mal classifié. Bien que NER soit erroné dans ce cas, les recommandations ont du sens, car TF-IDF attribuera une pertinence plus élevée à des jetons tels que hindsight_Personne car ils sont très rares dans le corpus. Notre conclusion est que les modèles NER néerlandais pré-entraînés ne sont pas suffisamment précis à ce stade pour être incorporés dans notre système de recommandation.

Nous pourrions bénéficier de l’affinage des modèles pré-entraînés nous-mêmes à l’avenir. Pour le moment, nous avons exploré une autre approche pour résoudre l’ambiguïté des NE en utilisant des métadonnées telles que les catégories et les mots-clés comme mesure sans bruit mais moins fortement liée aux NE, ce qui a considérablement amélioré notre système de recommandation.
Conclusion
Dans ce blog, nous avons exploré ce qui peut être fait avec la reconnaissance des entités nommées lorsqu’elle est appliquée à un ensemble de données de nouvelles néerlandaises. Nous avons constaté qu’elle fonctionne bien lorsqu’elle est utilisée pour obtenir des informations générales sur l’ensemble de données, telles que la construction de graphiques de fréquence des NE et de streamgraphs. Cependant, lorsque nous l’avons utilisée pour notre système de recommandation, nous avons constaté que les modèles n’étaient pas assez précis. Bien que l’introduction de la prise de conscience des NE ait résolu une partie de l’ambiguïté des NE, elle a simultanément introduit une nouvelle ambiguïté sous la forme d’erreurs de détection des NE. À l’avenir, nous pourrions expérimenter l’affinage d’un modèle pré-entraîné ou la formation de notre propre modèle à partir de zéro, ou si vous avez des suggestions vous-même, faites-le nous savoir dans les commentaires !
Toutes les images, sauf indication contraire, sont de l’auteur.
Références[1] Modèle NER spaCy : https://spacy.io/models/nl#nl_core_news_lg[2] Modèle NER Flair : https://huggingface.co/flair/ner-dutch-large[3] Modèle NER NLTK : https://www.nltk.org/book/ch07.html
À propos de la NOSLa NOS est une organisation médiatique publique indépendante aux Pays-Bas qui couvre les actualités et les sports via des plateformes telles que la télévision, la radio, les sites web et les applications mobiles. Nous disposons d’équipes dédiées de professionnels pour créer des services numériques pour plusieurs marques. Les recherches décrites dans ce blog ont été réalisées en tant que membre de l’équipe de données de la NOS, qui est responsable de l’exploration de l’utilisation de techniques novatrices de science des données et d’IA dans le contexte de l’actualité.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les meilleures entreprises de sécurité résidentielle à surveiller en 2023
- IA générative et l’avenir de l’ingénierie des données
- L’IA devrait également apprendre à oublier
- Comment les banques doivent tirer parti de l’IA responsable pour lutter contre la criminalité financière
- Les chercheurs de l’Université de Pékin présentent FastServe un système de service d’inférence distribué pour les grands modèles de langage (LLMs).
- Astuces et conseils pour intégrer l’IA dans une équipe bien connectée
- Les 6 principales utilisations de l’IA dans le secteur des transports