Régression symbolique: la méthode d'apprentissage automatique oubliée (2024)

Le but d'un modèle de régression est très simple: prendre en entrée un ou plusieurs nombres et en sortir un autre. Il existe de nombreuses façons de le faire, du plus simple au plus complexe.

Le cas le plus simple est celui de la régression linéaire: la sortie est une combinaison linéaire des variables d'entrée, avec des coefficients choisis pour minimiser certaines erreurs d'apprentissage. Dans de nombreux contextes, un modèle simple comme celui-ci suffira, mais il échouera dans les cas où les relations non linéaires entre les variables sont pertinentes. Dans le monde fortement non linéaire dans lequel nous vivons, cela se produit très souvent.

De l'autre côté du spectre de la complexité du modèle, il y a des régresseurs en boîte noire comme les réseaux de neurones, qui transforment les données d'entrée par une série de calculs implicites avant de donner un résultat. Ces modèles sont très populaires de nos jours en raison de la promesse qu'ils aboutiront un jour à une «intelligence artificielle» générale, et en raison de leur succès frappant dans des problèmes difficiles comme la vision par ordinateur.

Nous voulons ici discuter d'un terrain d'entente entre ces deux extrêmes qui ne semble pas avoir reçu l'attention qu'elle mérite jusqu'à présent: la régression symbolique.

Une généralisation du concept de régression linéaire ou de régression polynomiale est d'essayer de rechercher dans l'espace de toutes les formules mathématiques possibles celles qui prédisent le mieux la variable de sortie en prenant en entrée les variables d'entrée, à partir d'un ensemble de fonctions de base comme l'addition, fonctions trigonométriques et exponentielles. C'est l'idée de base de la régression symbolique.

Dans une optimisation de régression symbolique, il est important de rejeter une grande formule si une formule plus petite avec la même précision est rencontrée. Ceci est nécessaire pour éviter les solutions évidemment redondantes comme f (x) = x + 1–1 + 0 + 0 + 0, et aussi pour ne pas se contenter d'un énorme polynôme avec une précision de 100%.

Cette méthode a été popularisée en 2009 avec l'introduction d'un logiciel de bureau appelé Eureqa [1], qui utilisait un algorithme génétique pour rechercher des formules pertinentes. Ce logiciel a gagné en notoriété avec la promesse qu'il pourrait éventuellement être utilisé pour dériver de nouvelles lois de la physique à partir de données empiriques - une promesse qui n'a jamais été tout à fait tenue. En 2017, Eureqa a été mandaté par une société de conseil et a quitté le marché [2].

Récemment, de nouveaux outils de régression symbolique ont été développés, comme TuringBot [3], un logiciel de bureau pour la régression symbolique basée sur le recuit simulé. La promesse de dériver des lois physiques à partir de données avec régression symbolique a également été relancée avec un projet appelé Feynman AI, dirigé par le célèbre physicien Max Tegmark [4].

Malgré les efforts déployés pour promouvoir la régression symbolique au fil des ans, la vérité est que cette méthode n'a jamais gagné en popularité. Dans un contexte académique, la recherche sur des sujets d'actualité comme les réseaux de neurones est beaucoup plus traitable, étant donné que les algorithmes optimaux sont connus pour entraîner le modèle. La régression symbolique est simplement plus compliquée et dépend souvent d'heuristiques louches pour fonctionner efficacement.

Mais cela ne devrait pas être une raison pour ne pas tenir compte de la méthode. Même s'il est difficile de générer des modèles symboliques, ils présentent des caractéristiques très souhaitables. Pour commencer, un modèle symbolique est explicite, ce qui le rend explicable et offre un aperçu des données. C'est également simple, étant donné que l'optimisation essaiera activement de garder les formules aussi courtes que possible, ce qui pourrait potentiellement réduire les chances de surajustement des données. D'un point de vue technique, un modèle symbolique est très portable et peut être facilement implémenté dans n'importe quel langage de programmation, sans avoir besoin de structures de données complexes.

Peut-être que la promesse désinvolte d'Eureqa de découvrir les lois de la physique avec une régression symbolique ne sera jamais remplie, mais il se pourrait bien que de nombreux modèles d'apprentissage automatique déployés aujourd'hui soient plus complexes que nécessaire, faisant de grands efforts pour faire quelque chose qui pourrait être fait de manière équivalente par une formule mathématique simple. Cela est particulièrement vrai pour les problèmes dans un petit nombre de dimensions - la régression symbolique est peu susceptible d'être utile pour des problèmes tels que la classification d'images, qui exigeraient d'énormes formules avec des millions de paramètres d'entrée. Un passage à des modèles symboliques explicites pourrait mettre en lumière de nombreux modèles cachés dans la mer d'ensembles de données dont nous disposons aujourd'hui.

[1] Schmidt M., Lipson H. (2009) « Distiller les lois naturelles de forme libre à partir de données expérimentales », Science, Vol. 324, no. 5923, pp. 81–85.

[2] DataRobot acquiert Nutonian (2017)

[3] TuringBot: logiciel de régression symbolique (2020)

[4] Udrescu S.-M., Tegmark M. (2020) « AI Feynman: Une méthode inspirée de la physique pour la régression symbolique », Science Advances, Vol. 6, non. 16, chaque 2631