Ce site a pour but de présenter le travail que j’ai effectué il y a maintenant un an, en stage ingénieur au Rectorat de Rouen.
Le sujet du stage était de développer un outil d’analyse de contenu capable de classifier une page internet comme “autorisée” ou bien “interdite”.
Le système se base sur une méthode de reconnaissance de spams (courriers indésirables) intégrant un système d’apprentissage et des calculs bayésiens.
L’idée est :
Des informations plus détaillées sont fournies dans les sections correspondantes quant à l’utilisation du code (librairies nécessaires, compilation, exécution).
Dans l’état actuel des choses, le code le plus fonctionnel est celui développé avec Flex.
Pour information celui-ci est encore trop lent pour effectuer la reconnaissance des pages à la volée (10 millions de hits par jour au Rectorat de Rouen). Chaque soir des scripts placés en Crontab permettent de récupérer, via les logs du proxy Squid, l’ensemble des adresses visitées dans la journée afin de leur attribuer une note et les ajouter en liste noire de Dansguardian si besoin est.
Je vous laisse le soin de parcourir le site à votre guise et de tester les différents programmes. Les liens de contact vous permettent de m’envoyer un courrier pour n’importe quelle question/proposition quand à l’évolution de ce projet ainsi que du site web.
Nicolas PEYRUSSIE