Le Natural Language Processing (NLP) expliqué par le football

Natural Language Processing

1,8 milliards de visites ont été enregistrées par ChatGPT en mars 2024 faisant de l’IA un des sujets technologiques les plus passionnant et en vogue de ces dernières années. ChatGPT est une intelligence artificielle qui utilise le Natural Language Processing (NLP) qui en français signifie Traitement du langage naturel. 

Qu’est-ce que le Natural Language Processing ?

Le NLP se définit comme la capacité d’une IA à comprendre ou exprimer à l’écrit ou à l’oral le langage naturel utilisé par les humains. On entend par langage naturel ce qu’une personne va dire ou écrire avec ses propres mots sans porter une attention particulière à la syntaxe ou à l’orthographe. Cela s’oppose aux langages informatiques qui sont stricts dans leur écriture et nécessite des compétences avancées. Le NLP permet de casser cette barrière et mettre l’IA au plus proche de tous. 

Prenons un premier exemple. Imaginons que je dispose en données des classements et calendrier des championnats nationaux français. Je souhaite pouvoir disposer à la demande du classement d’une équipe ainsi que du calendrier de ses matchs à venir. Sans NLP, je devrais coder un algorithme avec une syntaxe précise pour répondre à cette demande. Avec NLP, j’aurais juste à saisir une question comme “Quel est le classement des Girondins de Bordeaux et quels sont leurs 3 prochains matchs ?” et la réponse me sera soumise directement grâce à l’IA. 

Le NLP permet une facilité d’utilisation par tous ce qui explique sa popularité et la croissance de son utilisation dans les dernières années. Les chatbots ou les outils de classification automatique de fichiers sont des bons exemples bien implantés dans beaucoup d’entreprises déjà.

Les deux approches du NLP

Deux approches peuvent être utilisées pour créer un modèle de NLP : une approche symbolique et une approche statistique.

Historiquement, c’est d’abord l’approche symbolique qui a été utilisée. Il s’agit d’apprendre à notre modèle les règles claires d’une langue à travers des exemples illustrant ces règles de syntaxe et grammaticales. Cette approche visait à réduire au maximum les erreurs de l’IA mais elle est extrêmement coûteuse en temps et budget. De plus, elle peut vite être confrontée à des cas qu’elle n’a jamais vu et être hors sujet. 

L’approche statistique a pris le pas notamment avec ChatGPT en prenant des volumes de données colossaux et en apprenant les règles via la quantité de données lui étant proposées. ChatGPT4 utilise pas moins de 175 milliards de paramètres par exemple. A la manière de la suggestion des mots suivants lors d’une recherche Google, cette approche est probabiliste. Même si elle peut avoir ses limites, cette approche utilisée à grande échelle a révolutionné le secteur.

Reprenons notre exemple. Le mot girondins signifie habitant du département de la Gironde mais c’est aussi le diminutif pour le club de football. Si on utilise l’approche statistique, notre modèle IA va répondre correctement à la question “quel est le classement des girondins?”. En effet, en termes de probabilité cette question parle dans 90% des cas du club de football. En revanche, avec l’approche symbolique, le modèle pourrait répondre à côté en donnant le classement de n’importe quel girondin dans une autre discipline car il n’a pas assez vu d’exemple et n’identifie pas la réponse la plus probable.

Limites et hallucinations

Le NLP a cependant ses limites. D’abord, les réponses qu’il va générer sont souvent très standards. Même si elles permettent un gain de temps, une touche humaine est souvent nécessaire en sortie notamment pour apporter de la créativité. Pour obtenir des résultats très précis, l’échange avec l’IA doit être bien travaillé avec ce que l’on appelle du prompt engineering et on retrouve une forme de code ici. 

Ensuite, le NLP peut donner lieu à des erreurs assez grotesques parfois en ayant une petite marge d’erreur. Une IA peut résoudre un problème de mathématiques très compliqué mais parfois se tromper sur une question dont un enfant de 10 ans connaîtrait la réponse. C’est ce que l’on appelle des hallucinations. Dans un grand nombre de cas, ces hallucinations ne sont pas graves car elles sont corrigées par un humain derrière. Mais elle pose problème dans des secteurs comme la médecine, le secteur légal ou la banque ou même un taux d’erreur de 1% est trop important. 

Et après ? 

Le NLP est un sujet fascinant qui porte le secteur de l’IA. Ses applications concrètes sont multiples et le monde du football s’en empare. L’entreprise Sentients Sports est en train de développer une solution basée sur le NLP qui va révolutionner le secteur : ScoutGPT. Cette solution permet de cibler des joueurs facilement à partir de phrases simples du langage naturel. Elle a été entraînée sur des données spécialisées dans le football pour obtenir les meilleures performances.

Pour notre explication du machine learning, vous pouvez consulter notre article.

Pour toute question sur comment intégrer le natural language processing et l’intelligence artificielle à votre club de football ou organisation sportive, n’hésitez pas à contacter notre équipe.

Source :