Filtrage Web/ Web Filter

Apprentissage

lundi 24 avril 2006 par ClarK

Il regroupe les deux étapes vues précédemment (tokenisation et stockage des tokens). Le but est ici de disposer d’un ensemble de pages représentatives des catégories autorisée et interdite. Il faut de même un nombre conséquent de ces pages afin que l’apprentissage soit bon, et que les données stockées soient en assez grand nombre pour couvrir une plage correcte du vocabulaire et des différents tokens qui peuvent être rencontrés sur le Web et ce, afin de pouvoir ensuite attribuer des scores à des pages inconnues.

Ces pages représentatives sont alors tokenisées et les tokens les constituants stockés en base de données suivant leur type (balise HTML, nom de domaine mot ou bi-mot) avec leur nombre d’occurrences. Un token apparaissant plusieurs fois sur une page n’est comptabilisé qu’une seule fois, mais peut apparaître sur plusieurs.


-->

Forum

Accueil du site | Contact | Plan du site | Espace privé | visites : 4468

RSS RSSfr

Site réalisé avec SPIP 1.8.3 + ALTERNATIVES