SlideShare a Scribd company logo
1 of 94
1/94
MÉMOIRE
présenté en vue d’obtenir le
DIPLÔME D'INGÉNIEUR ENSIIE, SPÉCIALITÉ INFORMATIQUE
en partenariat avec l’ITII Ile-de-France
Rapport Final
Nabil BOUZERNA
ALGORITHME GÉNÉTIQUE
ET TRAITEMENT LINGUISTIQUE
POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS
EN ENVIRONNEMENT WEB
/
GENETIC ALGORITHM
AND NATURAL LANGUAGE PROCESSING
TO RETRIEVE PROTECTED VIDEO CONTENT
ON THE WEB
Tuteur du projet : M. Jean-Pierre FRANZINETTI, Chef de projet
ADVESTIGO S.A.
Soutenu le 19 décembre 2007 devant le jury,
M. Gérard BERTHELOT, Professeur des Universités ENSIIE, Président
M. Xavier URBAIN, Maître de conférences ENSIIE, Examinateur
M. Jean-Pierre FRANZINETTI, Chef de projet ADVESTIGO S.A., Examinateur
2/94
ENSIIE
FICHE SIGNALETIQUE
Projet d’Ingénieur ENSIIE, spécialité « Informatique »
ALGORITHME GÉNÉTIQUE
ET TRAITEMENT LINGUISTIQUE
POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS
EN ENVIRONNEMENT WEB
/
GENETIC ALGORITHM
AND NATURAL LANGUAGE PROCESSING
TO RETRIEVE PROTECTED VIDEO CONTENT
ON THE WEB
Auteur / Author: Nabil BOUZERNA
Tuteur / Tutor: M. Jean-Pierre FRANZINETTI, Chef de projet, ADVESTIGO S.A.
Centre d’intérêts : Intelligence artificielle, système de recherche d’information,
reformulation de requête, algorithme génétique, traitement automatique des langues.
Index terms: Artificial intelligence, information retrieval system, query reformulation,
genetic algorithm, natural language processing.
Résumé : Ce mémoire présente un système de recherche de contenus vidéos protégés mis en
ligne sur le Web fondé sur l’analyse des échanges textuels présent sur les blogs et forums.
Cette analyse textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3
profils : statistique, linguistique et descriptif des documents. Puis ce système associe une
approche de reformulation de requête (boucle de rétroaction de pertinence) à partir de
documents trouvés et les techniques de l’algorithmique génétique pour mimer le
comportement du cerveau humain dans le choix des termes de requêtes les plus pertinents.
Abstract: This master thesis presents a search system to retrieved protected video content
published illegally on the Web thanks to analysis of textual exchanges present on blogs and
forums. This textual analysis is materialized by a lexical fingerprint which is composed
according to 3 profiles: statistical, linguistic and descriptive of the documents. Then this
system combines a query reformulation approach (relevance feedback loop) from found
documents and techniques of genetic algorithmic to mimic the behavior of the human brain in
the choice of the most relevant query terms.
3/94
SOMMAIRE
I. PREAMBULE ET ENVIRONNEMENT .................................................................................................................. 11
1. OBJET DU DOCUMENT ................................................................................................................................................ 11
2. PRESENTATION ENTREPRISE ....................................................................................................................................... 12
Historique et activité...................................................................................................................................................... 12
AdvestiSEARCH™
........................................................................................................................................................ 12
Le pôle PSO (Professional Services Organization)........................................................................................................ 12
3. CONTEXTE SOCIAL ET PROBLEMATIQUE INDUSTRIELLE ............................................................................................... 13
UGC : User Generated Content ..................................................................................................................................... 13
Problématique pour l’industrie des médias.................................................................................................................... 13
Objet du projet d’Ingénieur............................................................................................................................................ 13
4. CONTEXTE SCIENTIFIQUE DU PROJET .......................................................................................................................... 14
Présentation synthétique du projet PIITHIE .................................................................................................................. 14
Partenaires développeurs................................................................................................................................................................ 15
Partenaire valideur ......................................................................................................................................................................... 15
Périmètre du projet d’Ingénieur au sein du projet PIITHIE........................................................................................... 15
II. ÉTAT DE L’ART ........................................................................................................................................................ 16
1. RECHERCHE D’INFORMATION (RI) ............................................................................................................................. 16
Présentation du domaine................................................................................................................................................ 16
Modèles conceptuels de la Recherche d’Information .................................................................................................... 16
Modèle vectoriel............................................................................................................................................................ 17
Algorithme génétique .................................................................................................................................................... 19
Qu’est ce qu’un algorithme génétique ? ......................................................................................................................................... 19
Propriétés et concepts de base des algorithmes génétiques............................................................................................................. 19
2. TRAITEMENT AUTOMATIQUE DES LANGUES (TAL) ................................................................................................... 20
Intelligence Artificielle et Linguistique ......................................................................................................................... 20
Reconnaissance d’entités nommées............................................................................................................................... 21
Analyse syntaxique de surface (ou morpho-syntaxique) ............................................................................................... 21
3. ÉVALUATION DES SYSTEMES DE RECHERCHE D’INFORMATION ................................................................................... 22
III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES.......................................................................... 23
1. ANALYSE DES COMPORTEMENTS, HYPOTHESES ET DEMARCHE GENERALE. .................................................................. 23
2. ANALYSE ET CONCEPTION DU SYSTEME DE RECHERCHE D’INFORMATION : SPY-DER.................................................. 24
Définition des besoins et contraintes du SRI ................................................................................................................. 24
Modélisation UML et conception architecturale orientée objet ..................................................................................... 26
Exigences du système : Diagramme des cas d’utilisation............................................................................................................... 26
Processus de haut niveau du système : diagramme d’activité de l’expansion de requêtes. ............................................................. 27
Architecture physique des composants : Web Services ................................................................................................. 28
Prolongement des travaux d’analyses et conception du SRI.......................................................................................... 29
IV. REALISATIONS TECHNIQUES : L’EMPREINTE LEXICALE.................................................................... 30
1. POINTS DE METHODE.................................................................................................................................................. 30
Représentation numérique des textes : modèle vectoriel. .............................................................................................. 30
Vecteur de fréquence locale........................................................................................................................................... 30
Fréquences des occurrences de mots dans le bloc texte.................................................................................................................. 30
Méthode des segments répétés ....................................................................................................................................................... 31
Traitement linguistique : analyse morphosyntaxique..................................................................................................... 32
Extraction d’entités nommées ........................................................................................................................................................ 32
Retrait des mots vides et extraction des mots pleins....................................................................................................................... 33
Extraction des termes ..................................................................................................................................................................... 34
Extraction de construction véhiculant une information quantitative............................................................................................... 34
Extraction de construction véhiculant une information temporelle................................................................................................. 35
Implantation future : moteur de règle XML .................................................................................................................................. 35
Approche descriptive : structure HTML........................................................................................................................ 35
Heuristiques d’affaiblissement du bruit.......................................................................................................................................... 36
Mesures de similarités et distances entre vecteurs ......................................................................................................... 37
Métrique ou distance inter-objet..................................................................................................................................................... 38
Indice ou coefficient de similarité .................................................................................................................................................. 38
Schéma de pondération.................................................................................................................................................. 38
Ressources et outils linguistiques .................................................................................................................................. 39
4/94
2. ÉVALUATION ET PROLONGEMENT DES TRAVAUX ........................................................................................................ 39
Protocole d’évaluation................................................................................................................................................... 39
Évaluation de l’empreinte lexicale................................................................................................................................. 40
Prolongement des travaux de l’empreinte lexicale ........................................................................................................ 41
V. REALISATIONS TECHNIQUES : EXPANSION DE REQUETES ...................................................................... 42
1. PROCESSUS GENETIQUE SPECIFIQUE A LA REFORMULATION DE REQUETE. .................................................................... 42
Définition du problème d’optimisation.......................................................................................................................... 42
Fonction d’injection de pertinence................................................................................................................................. 42
Modélisation du problème en algorithme génétique ...................................................................................................... 42
Codage des solutions...................................................................................................................................................................... 42
Choix de la population initiale ....................................................................................................................................................... 43
Choix des opérateurs...................................................................................................................................................................... 43
Mode d’application des opérateurs................................................................................................................................................. 44
Renouvellement des générations .................................................................................................................................................... 45
Arrêt de l’évolution........................................................................................................................................................................ 46
Implantation applicative de l’algorithme génétique........................................................................................................................ 46
2. REALISATION DES METAMOTEURS .............................................................................................................................. 47
Nombre de termes des requêtes ..................................................................................................................................... 47
Implantation du module de gestion des moteurs de recherche....................................................................................... 48
3. IMPLANTATION DU MODULE DE SEGMENTATION FORUM ET BLOGS EN BLOC DE TEXTE ................................................. 50
4. RAPATRIEMENT LOCAL DES FICHIERS VIDEOS SUSPECTS (FORMAT FLV) ..................................................................... 53
5. ÉVALUATION DES RESULTATS DE L’ENRICHISSEMENT DE REQUETE.............................................................................. 53
Évaluation préliminaire sur un corpus d’actualité en français. ...................................................................................... 54
Évaluation préliminaire ciblée sur les blogs et la plateforme UGC YouTube en anglais............................................... 57
6. RETROSPECTIVE DES REALISATIONS TECHNIQUES DU SRI SPY-DER............................................................................. 60
Boucle de rétroaction de pertinence............................................................................................................................... 60
Empreinte lexicale et extraction de terminologie ........................................................................................................................... 60
Enrichissement à partir des documents trouvés.............................................................................................................................. 60
Limites du SRI ............................................................................................................................................................................... 60
Conclusion ..................................................................................................................................................................................... 60
VI. APTITUDES ET COMPETENCES NON TECHNIQUES ................................................................................ 61
1. MODE PROJET ET RELATIONS HUMAINES..................................................................................................................... 61
Communication ............................................................................................................................................................. 61
Communication en interne ............................................................................................................................................................. 61
Communication externe ................................................................................................................................................................. 61
Développement des aptitudes personnelles.................................................................................................................... 62
Connaissance de soi ....................................................................................................................................................................... 62
Adaptabilité ................................................................................................................................................................... 63
Singularité des partenaires.............................................................................................................................................................. 63
Recherche du compromis minimal................................................................................................................................................. 64
2. RESOLUTION DES PROBLEMES ET PRISES DE DECISIONS ............................................................................................... 64
Recherche d’information ............................................................................................................................................... 65
Abstraction et modélisation ........................................................................................................................................... 65
Choix d’implantation..................................................................................................................................................... 66
Choix du modèle conceptuel en RI : prise de risque et innovation ................................................................................ 67
Planification et gestion du quotidien.............................................................................................................................. 68
Engagement et responsabilité ........................................................................................................................................ 68
3. ENJEUX STRATEGIQUES SOUS CONTRAINTES ECONOMIQUES ET JURIDIQUES ................................................................. 69
Suivi budgétaire et gestion des ressources..................................................................................................................... 69
Obligations et contraintes légales .................................................................................................................................. 70
Contraintes légales spécifiques au projet et à l’entreprise : propriété intellectuelle........................................................................ 70
Les droits d’auteur en France ......................................................................................................................................................... 71
Droit des exploitants de base de données ....................................................................................................................................... 72
Mondialisation croissante de la propriété intellectuelle et divergence............................................................................................ 72
Intégration des orientations stratégiques et internationales............................................................................................ 73
VII. CONCLUSION ET PERSPECTIVE.................................................................................................................... 75
1. BILAN........................................................................................................................................................................ 75
Savoir-faire.................................................................................................................................................................... 75
Savoir-être ..................................................................................................................................................................... 75
2. PERSPECTIVES ........................................................................................................................................................... 76
VIII. ANNEXES............................................................................................................................................................... 78
1. REFERENCES BIBLIOGRAPHIQUES ............................................................................................................................... 78
2. PRESENTATION DES LOTS DU PROJET PIITHIE............................................................................................................ 79
Vue globale des lots....................................................................................................................................................... 79
Lot 3.1 : Empreinte lexicale d’un document.................................................................................................................. 80
Lot 3.2 : Extraction de requêtes optimisées pour les moteurs du Web........................................................................... 80
3. ARCHITECTURE GENERALE DETAILLEE ....................................................................................................................... 81
5/94
Synopsis de l’architecture générale du Spy-der ............................................................................................................. 81
4. MESURES ET DISTANCES IMPLANTEES POUR L’EVALUATION........................................................................................ 89
5. « XML BLOCK FACTORY »........................................................................................................................................ 91
6. ÉVALUATION DE L’EXPANSION DE REQUETES.............................................................................................................. 92
7. GESTION DE BUDGET.................................................................................................................................................. 93
8. PLANNING PREVISIONNEL DETAILLE ........................................................................................................................... 94
FIGURES
Figure 1 - Exemple de vecteur dans un espace à 2 dimensions. .............................................. 18
Figure 2 - Structure générale d'un algorithme génétique ......................................................... 19
Figure 3 - Exemple d'analyse syntaxique de surface................................................................ 21
Figure 4 - Diagramme de cas d'utilisation du SRI ................................................................... 26
Figure 5 - Diagramme d'activité de l'expansion de requêtes.................................................... 27
Figure 6 - Architecture conceptuelle des Web Services .......................................................... 29
Figure 7 - Résultat de l'heuristique de réduction du bruit ........................................................ 37
Figure 8 - Normalisation des vecteurs de fréquence................................................................ 39
Figure 9 - Exemples des prétraitements appliqués aux articles de presse................................ 40
Figure 10 - Implantation de l’empreinte lexicale et de l’aspirateur « Google News » ............ 41
Figure 11 - Implantation de l'algorithme génétique ................................................................. 46
Figure 12 - Boucle de rétroaction de pertinence ...................................................................... 47
Figure 13 - Pourcentage de visites engendrées en fonction du nombre de mots par requête... 48
Figure 14 - Pourcentage de pages visitées en fonction du nombre de mots par requête.......... 48
Figure 15 - Diagramme de classe du « package » métamoteur................................................ 49
Figure 16 - Fichier XML du contexte du SRI Spy-der ............................................................ 50
Figure 17 - Fichier XML de description des balises html pour la segmentation de forum...... 51
Figure 18 - Fichier XML de description des balises html pour la segmentation de blog ........ 52
Figure 19 - Descriptions des patrons de lien (URL) vers les sites UGC.................................. 52
Figure 20 - Aspiration des fichiers vidéos sur les sites UGC................................................... 53
Figure 21 - Document de référence de la recherche................................................................. 54
Figure 22 - Base de données d'actualités.................................................................................. 55
Figure 23 - Stockage des résultats des recherches ................................................................... 56
Figure 24 - Comparaison des stratégies d'évolutions : (S1) vs (S2) ........................................ 57
Figure 25 - Segmentation de blog ............................................................................................ 58
Figure 26 - Base de données pour l’évaluation blog/UGC ...................................................... 58
Figure 27 - Limitation par le moteur de recherche de Google Blog en phase d’évaluation .... 59
Figure 28 - Contournement des limitations de Google Blog par voie logicielle...................... 59
Figure 29 - Vue globale des lots du projet PIITHIE ................................................................ 79
Figure 30 - Symbolique du Web Services................................................................................ 81
Figure 31 - Amorce du système ............................................................................................... 81
Figure 32 - Calcul des empreintes numériques ........................................................................ 82
Figure 33 - Génération de la requête initiale............................................................................ 83
Figure 34 - Traitements post et pré interrogation des moteurs de recherche ........................... 83
Figure 35 - Aspiration et analyse des pages web de blog et forum.......................................... 84
Figure 36 - Comparaison d’empreintes numériques lexicales ................................................. 84
Figure 37 - Aspiration d'une vidéo suspecte depuis les sites UGC.......................................... 85
Figure 38 - Comparaison empreintes numériques vidéos ........................................................ 86
Figure 39 - Incident et rappel d'empreinte lexicale.................................................................. 86
Figure 40 - Injecteur de pertinence et boucle de rétroaction.................................................... 87
Figure 41 - Architecture générale détaillée.............................................................................. 88
Figure 42 - Outil "XML Block Factory".................................................................................. 91
Figure 43 - Planning prévisionnel détaillé ............................................................................... 94
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 6/94
TABLES
Tableau 1 - Vue système et environnement .......................................................................................... 25
Tableau 2 - Coefficient des constructions et termes extraits................................................................. 38
Tableau 3 - Nombre de mots par requête en Europe (à gauche) et au Canada (à droite)...................... 47
Tableau 4 - Budget prévisionnel ........................................................................................................... 69
Tableau 5 - Tableau de suivi : statut du budget au 30/11/2007............................................................. 70
Tableau 6 - Mesure de similarité entre vecteurs de documents textuels. .............................................. 89
Tableau 7 - Distance entre des vecteurs de documents textuels............................................................ 90
Tableau 8 - Liste détaillée des équipements.......................................................................................... 93
Tableau 9 - Liste détaillée des documentations..................................................................................... 93
EQUATIONS
Équation 1 - Mesure du cosinus ............................................................................................................ 89
Équation 2 - Coefficient de Dice........................................................................................................... 89
Équation 3 - Indice de Jaccard .............................................................................................................. 89
Équation 4 - Distance entropique .......................................................................................................... 90
Équation 5 - Distance de Kullback-Leibler........................................................................................... 90
Équation 6 - Distance du Chi2 .............................................................................................................. 90
Équation 7 - Distance de Minowski ...................................................................................................... 90
Équation 8 - Distance Euclidienne ........................................................................................................ 90
Résumé
Ce mémoire présente les travaux effectués dans le cadre du projet PIITHIE : Plagiat et Impact de
l'Information Textuelle recHerchée dans un contexte Interlingue. Ce projet s´inscrit dans un
mouvement de plus en plus important de maîtrise de l’information numérique diffusée sur le Web.
L’objet de mes travaux s’attache plus particulièrement à un phénomène de société que constitue les
plateformes de partage vidéos, identifiées sous l’acronyme de l’anglicisme User Generated Content :
UGC. Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de plus
en plus d'ampleur. Or, une des nouvelles composantes du web consiste à faire de l'internaute le
rédacteur, le concepteur et l'acteur du concept. C’est de cet engouement mondial qu’est né l’inquiétude
de l’industrie des médias. En effet, les UGC gèrent plusieurs dizaines de milliers de nouveau contenu
vidéo mis à disposition tous les jours. Ils risquent en permanence d’héberger et de distribuer de façon
involontaire des contenus protégés par le droit d’auteur.
Ce projet d’ingénieur vise essentiellement la réalisation d’un Système de Recherche d’Information
(SRI). Il est dédié à la détection de contenu vidéo protégé sur ces plateformes de partage vidéo dans
le cadre d’une application de surveillance et de mesure.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 7/94
Pour cela, nous émettons l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou non, est
accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement décrit. Les espaces de
discussions entre internautes autour d’une thématique, à l’instar des forums et blogs, constituent des
lieux propices à cette publicité. La fouille de ces lieux par des traitements automatisés constituera un
des fondements de notre SRI.
L’un des enjeux de la linguistique appliquée à l’informatique est d’améliorer la précision et le rappel
dans les outils de recherche [a][b]. Cette connaissance supplémentaire intégrée dans l’empreinte
lexicale, permet d’améliorer l’évaluation de la proximité entre deux contenus textuels tout en tenant
compte de la description des documents Web et des aspects statistiques classiques. Ces 3 profils de
l’empreinte lexicale constituent le second fondement de notre SRI.
La pléthore de littérature, autour des SRI, fait émerger l’apprentissage comme une dimension
incontournable du processus de recherche. Pour appréhender cette dimension, les Algorithmes
Génétiques (AG) constituent un cadre formel ad hoc pour la modélisation de l’apprentissage dans un
SRI. Les deux propriétés fondamentales d’un AG, que sont le « parallélisme implicite » et
l’ « équilibre entre exploitation et exploration », justifient ce choix. L’application d’un AG cible deux
objectifs d’optimisations dans ces travaux :
 Problème du passage à l’échelle : optimiser l’exploration et le traitement d’un grand volume
d’informations que constitue le Web. L’une des premières étapes, nécessaire aussi à
l’amélioration des recherches, passe par l’analyse de la composition de ces textes et sa prise en
compte dans le traitement linguistique. Comme le relève Jean Véronis « jusqu’ici , les
systèmes de TAL ont presque tous “ fait comme si ” les documents étaient du texte brut ».
Naturellement, la structure des documents est très importante dans des documents complexes
comme les blogs et forums.
 Représentation optimale des requêtes posées aux moteurs de recherche. Dans ce domaine,
l’une des stratégies les plus largement adoptées est la reformulation de requête [3]. En
s’inspirant des travaux de Mohand Bouganhem et Linda Tamine [2] sur la « Reformulation
automatique de requête basée sur l'algorithmique génétique » et de Filippo Menczer [1].
L’originalité et la finalité étant d’effectuer une reformulation directe (sans intervention de
l’utilisateur) dans un contexte local, c'est-à-dire, basé sur les résultats de la recherche en cours.
Ce processus génétique qui guide l’exploration de l’espace de recherche constitue le troisième et
dernier fondement de notre SRI.
L’ensemble de ces techniques combinées permet d'améliorer les performances et d'accroître le
potentiel de recherche des outils de la société Advestigo en quantifiant le piratage sur les plateformes
UGC. La finalité étant de fournir un service de recherche de contenus aux sociétés d'auteurs et aux
majors de l'industrie audiovisuelle inquiètent du piratage des œuvres dont elles détiennent les droits.
Enfin, le contexte relationnel du projet PIITHIE fut pour moi inédit du fait de ses parties prenantes : la
coopération entre entité publique et privée avec une exigence d’innovation. Ce contexte suppose une
adaptation aux spécificités de chaque acteur pour que chacun travaille dans un esprit d'intérêt général
de tous les acteurs. Cela suppose un certain degré de confiance et de compréhension.
Empreinte lexicale :
[a] Claude de Loupy, Eric Crestan ; SRI et traitement du langage naturel ; dans l’ouvrage Systèmes de recherche
d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004.
[b] Fidelia Ibkwe-Sanjuan ; Chapitre 8 – Catégorisation des textes et extraction d’information ; dans l’ouvrage Fouille de
textes : méthodes, outils et applications ; Éditions Hermès ; 2007.
Expansion de requête et algorithme génétique :
[1] Filippo Menczer; Complementing search engines with online web mining agents ; dans l’article de presse Decision
Support Systems, Elsevier Science B.V. ; Department of Management Sciences, The University of Iowa, USA ; 2002
[2] Mohand Boughanem, Linda Tamine ; Connexionnisme et génétique pour la recherche d’information ; dans l’ouvrage
Systèmes de recherche d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 8/94
[3] Patrice Bellot ; Classification de documents et enrichissement de requêtes ; dans l’ouvrage Méthodes avancées pour les
systèmes de recherche d’informations, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004.
Remerciements
Je tiens à exprimer tous mes remerciements à Marc-Michel Pic pour m'avoir permis de
réaliser ma formation en partenariat avec son entreprise Advestigo et pour le crédit qu’il m’a
accordé en me confiant la coordination du projet PIITHIE.
Je remercie vivement Jean-Pierre Franzinetti pour sa disponibilité et sa bienveillance pendant
ces deux années. J’exprime aussi ma gratitude à Xavier Urbain pour ses conseils utiles (en
particulier pour ce mémoire) et son exigence qui a su me dynamiser.
Naturellement je remercie ma famille, et en particulier mon père et Salima pour avoir relu
mon travail avec attention.
Je tiens à remercier également Mehdi Ali Larbi et Houari Lakelkal pour les conseils et les
relectures qui m'ont été utiles.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 9/94
Tuteur pédagogique
Xavier URBAIN
Maître de conférences
Tuteur en entreprise
Jean-Pierre FRANZINETTI
Chef de projet - Ingénieur
Page
9
Date
30/09/07
Auteur
Nabil BOUZERNA
ENSIIE FIP XI
2006/2007
Validation entreprise
Jean-Pierre
FRANZINETTI
Période
2nd
semestre 2007
Algorithme génétique et traitement
linguistique pour la recherche de contenus
vidéos protégés en environnement Web
Type de document : Mémoire d’Ingénieur
Titre du document : Algorithme génétique et traitement linguistique pour la recherche de
contenus vidéos protégés en environnement Web.
Date du stage : du 09/01/2006 au 20/12/2007
Lieu du stage : ADVESTIGO S.A.
1 Rue Royale,
Bureaux de la Colline,
Bât. D, 9ième étage.
92213 Saint-Cloud, France
Période d’activité : du 01/07/2007 au 20/12/2007
Descriptif : Ce mémoire présente un système de recherche de contenu vidéo protégé mis
en ligne sur le Web fondé sur l’analyse des échanges textuels présents sur les blogs et forums. Cette analyse
textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3 profils : statistique, linguistique et
descriptif des documents. Puis ce système associe une approche de reformulation de requête à partir de
documents trouvés et les techniques de l’algorithmique génétique.
Diffusion :
Organisation ou
Entreprise
Destinataires Nombre de
copies
Pour
Action Info
ENSIIE Xavier URBAIN 1 X
ADVESTIGO Jean-Pierre FRANZINETTI 1 X
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 10/94
ENSIIE Administration ENSIIE 2 X
ADVESTIGO Administration ADVESTIGO 1 X
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 11/94
2006/2007
11/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Preambule et Environnement
I. PREAMBULE ET ENVIRONNEMENT
1. Objet du document
Dans le cadre de mon projet d’ingénieur à l’ENSIIE, je présente dans ce mémoire la teneur de
mes travaux en entreprise. Ces travaux consistent à réaliser un Système de Recherche
d’Information pour la détection de contenu audiovisuel protégé dans un environnement Web.
Il débute au sein de cette section, par une briève description de mon environnement de travail.
Ce dernier est constitué par la société Advestigo, du service de surveillance
AdvestiSEARCH™
et du pôle dans lequel j’évolue qui est en charge d’exploiter ce service.
Cette description sera suivie par une présentation du contexte social et de la problématique
industrielle induite. Enfin, il décrit le projet de recherche plus vaste auquel s’intègre mon
projet d’ingénieur : le projet PIITHIE.
Dans une deuxième section, il présente les résultats des travaux préliminaires de
documentation dans une synthèse. Cet état de l’Art reprend succinctement les principaux
concepts utiles à la compréhension des travaux de réalisation du SRI.
Puis, dans la troisième section, il expose le phénomène auquel s’adresse le SRI. Il s’ensuit une
analyse des comportements et usages des internautes utiles à la fouille. Enfin il présente les
résultats de travaux d’Analyse et de Conception du SRI couvrant les techniques et méthodes
usuelles en maîtrise d’ouvrages des Systèmes d’Informations : définition des besoins,
contraintes du système, modélisation et spécification d’une architecture.
Dans une quatrième section plus technique, il aborde la mise en œuvre d’une empreinte
lexicale en développant les points de méthodes clés dans sa réalisation. Il termine en
présentant les principaux apports de cette nouvelle implantation au travers d’une évaluation.
Dans une cinquième section, également d’un point de vue maîtrise d’œuvre, il développe un
élément central de mes travaux : la reformulation et l’expansion de requêtes guidées par un
processus génétique. À l’instar de la section précédente, une présentation et une évaluation
des apports clôturent cette section.
La sixième et dernière section est un regard introspectif sur des difficultés rencontrées dans
mes missions d’interface au sein du projet PIITHIE. Elles sont développées dans un premier
temps selon une dimension relationnelle fondamentale dans le fonctionnement en projet.
Dans un second temps, les méthodologies et organisations mises en œuvre pour appréhender
la complexité de ces travaux justifient mes décisions. Enfin, il remet en perspective mes
travaux sous des contraintes budgétaires et légales, ainsi que mon mode d’appropriation des
orientations stratégiques d’Advestigo dans mes choix d’actions.
Note d’avancement du projet PIITHIE au 01/12/2007:
À ce jour, le projet PIITHIE connaît un retard de six mois par rapport à la planification prévisionnelle.
Concrètement, les lots « Empreinte lexicale d’un document (Lot 3.1) » et « Extraction de requêtes optimisées
pour les moteurs du Web (Lot 3.2) » n’ont pas encore été abordés à ce jour. Les réalisations décrites
demeurent le fruit exclusif de mes travaux afin de répondre à un besoin urgent et clairement identifié
pour mon entreprise. Et, en parallèle, ces deux lots constituent une problématique passionnante et
complexe pour mon projet d’ingénieur.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 12/94
2006/2007
12/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Preambule et Environnement
2. Présentation entreprise
Historique et activité
Advestigo a été créée en octobre 2002 par le Dr Hassane Essafi et le Dr Marc-Michel Pic,
tous deux issus de la recherche publique au CEA-LETI. Aujourd’hui, Advestigo est un acteur
français majeur de la "Protection d'Actifs Numériques". Sa technologie unique et brevetée de
calcul d'empreintes numériques (la "Théraographie™
") permet de reconnaître des copies
exactes ou approchées, totales ou partielles d'un contenu original.
AdvestiSEARCH™
Advestigo est l’un des trois lauréats 2006, pour son système AdvestiSEARCH™
, du grand
prix européen IST (Technologies de la société de l'information) qui récompense chaque année
les entreprises les plus innovantes dans l'univers de la société de l'information.
Pour répondre à la problématique de piratage de leurs catalogues dont souffrent les industries
de média (musique, cinéma, jeu et presse en ligne), Advestigo a développé une gamme de
services qui permet de mesurer le piratage d’une œuvre ou d’un catalogue de titres, mais aussi
de surveiller et de défendre ce patrimoine commercial.
Cette gamme de solutions s’étend de l’étude statistique générale (morceaux de musique ou
films, séries télévisuelles ou jeux vidéo) ou à façon (surveillance d’un catalogue de titres
particulier) jusqu’à la détection des machines mettant en partage des contenus protégés ou
illégaux.
AdvestiSEARCH™
est un service destiné à repérer automatiquement les contenus plagiés ou
piratés, pour forcer à la régularisation, au respect des droits et pour aider, grâce à
l'accumulation de preuves, d'éventuelles actions en justice. Il s'agit d'un système de
reconnaissance de contenus numériques multimédias (audio, vidéo, image et texte).
Les services d’Advestigo reposent sur sa technologie de Théraographie™.
Le pôle PSO (Professional Services Organization)
Dans le but de s’adapter aux différents besoins des entreprises, le pôle PSO dirigé par M.
Marc-Michel Pic, assure la personnalisation des services AdvestiSEARCH™. Son équipe de
consultants adapte les services en ligne (fouille à façon de sites ou de contenus fixes, expertise
sur des contenus spécifiques, service de conservation certifié,…) selon des spécifications
propres. Par ailleurs, les experts peuvent réaliser à la demande des études de mesures et de
statistiques sur le piratage et le plagiat. Le pôle PSO propose, en outre, des activités de conseil
orientées autour du piratage et du plagiat.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 13/94
2006/2007
13/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Preambule et Environnement
3. Contexte social et problématique industrielle
UGC : User Generated Content
Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de
plus en plus d'ampleur. Dans cet esprit, on assiste à des changements d'usage dans l’Internet.
D’ailleurs, l’une des nouvelles composantes du web consiste à faire de l'internaute le
rédacteur, le concepteur et l'acteur du concept. Les internautes veulent participer, donner leur
avis, publier et partager. On assiste donc à une explosion du contenu généré par les
utilisateurs1
(User Generated Content) et bien évidemment des sites ou services qui proposent
aux internautes de publier leur propre contenu. De plus, les internautes ont été la personnalité
de l’année 2006 du prestigieux Time Magazine. Ils ont en effet contribué largement à de
nombreux succès sur Internet à savoir YouTube, MySpace, Digg, Facebook,…
Ces sites vont être des plates-formes de blogs mais aussi ce qui est en train de remplacer les
blogs : des Réseaux Sociaux2
. Mais des réseaux sociaux au sens où le bénéfice utilisateur est
la socialisation qu'il en retire. À partir du moment où l'enjeu est de partager des contenus
pour développer de la notoriété, sa liste d'amis et globalement socialiser, il est logique que les
UGC étendent la palette des contenus à partager à la vidéo. Cette évolution multi support pose
une question de fond sur la propriété numérique de ce que l'utilisateur met en ligne.
Problématique pour l’industrie des médias
Films, série télévisuelle, clips musicaux, retransmission sportive,… sont autant de contenus
vidéos, qui une fois copiés se répandent rapidement sur Internet dès leur diffusion. Un
manque à gagner pour les ayants droit qui s’inquiètent de la montée de ce phénomène. Un
événement sportif peut être enregistré lors de sa diffusion, copié et redistribué sur un site de
partage tel YouTube. Dès lors, la chaîne de télévision n'a d'autres recours que de scruter
Internet pour y repérer les vidéos frauduleuses. Un travail systématique impossible à mettre
en oeuvre. Sur le seul site YouTube, « 65 000 nouvelles vidéos sont postées chaque jour ».
Deux solutions sont envisageables :
 Filtrer le contenu vidéo au moment de la mise en ligne par les utilisateurs. Cette
solution est implantée dans le produit Advestigo : AdvestiGATE™
. Elle implique la
coopération des plateformes UGC pour une installation en interne.
 En l’absence d’accord de coopération, la protection des ayants droits passe par
l’automatisation des recherches de l’extérieur des plateformes (cadre de mes travaux).
Objet du projet d’Ingénieur
Les sites de partages vidéo, devant gérer plusieurs dizaines de milliers de nouveaux contenus
vidéo mis à disposition tous les jours, risquent en permanence d’héberger et de distribuer, de
façon involontaire, des contenus protégés par le droit d’auteur. Les évolutions apportées par
ces travaux dans l’outil AdvestiSEARCH, visent à fouiller automatiquement Internet en vue
de localiser un contenu vidéo protégé mis en ligne illégalement sur les plateformes UGC,
empêchant ainsi les violations accidentelles du droit d’auteur.
1
Dans le reste du document, on s’autorisera d’identifier les sites de contenu générés par les utilisateurs et les
plateformes de partage vidéo par l’acronyme de la traduction anglaise User Generated Content: UGC.
2
On appelle réseau social, une communauté d'individus reliés entre eux, selon les cas, par : des origines, des
centres d'intérêts, des besoins, des points de vue… proches ou similaires. Aujourd'hui, le terme réseau social
s'applique en particulier au domaine de l'Internet. Il désigne alors un site web qui, dans un domaine quelconque,
fédère des individus et facilite leurs échanges d'informations, d'images, de vidéos,…
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 14/94
2006/2007
14/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Preambule et Environnement
4. Contexte scientifique du projet
Par ailleurs, ces travaux s’intègrent dans un projet de recherche RNTL3
plus vaste et identifié
sous l’acronyme de PIITHIE: Plagiat et Impact de l'Information Textuelle recHerchée dans
un contexte InterlinguE.
Programme Technologies Logicielles 2006
Présentation synthétique du projet PIITHIE
Le projet PIITHIE s´inscrit dans un mouvement de plus en plus important de maîtrise de
l´information diffusée. Il vise premièrement la détection de plagiats de textes. Les techniques
de traitement automatique des langues (TAL), devraient permettre d'améliorer les
performances et d'accroître le potentiel de recherche des outils d'Advestigo et de Sinequa. Le
deuxième objectif concerne le suivi d´impact : les diffuseurs d'informations sont très
intéressés par la possibilité d´évaluer l´impact de leur production (perception et notoriété).
Aujourd´hui cette évaluation est faite par une étude manuelle alors que des méthodes
automatiques sont possibles. Les traitements nécessaires à ces deux applications sont de
même nature ; ils demandent seulement un paramétrage différent, selon que l´on cherche une
copie illégale de l´information ou une utilisation parfaitement légale dont le contenu peut être
très divergent.
Les principaux verrous de ce projet concernent :
 la capacité à évaluer la proximité de deux contenus textuels en tenant compte des
différents phénomènes de réécriture ;
 l'extraction de termes suffisamment représentatifs d'un document, pour pouvoir
retrouver des documents similaires sur Internet, en posant des requêtes à un moteur
classique ;
 la détection de citations dont il faut tenir compte pour l'évaluation d'impact et qui
perturbent la détection de plagiat.
Afin de gérer l'ensemble des phénomènes impliqués (réécriture, paraphrase, imitation, etc.)
plusieurs types d'analyses linguistiques seront appliqués et testés afin de déterminer quel est
leur apport.
Les objectifs de ce projet sont donc l’utilisation de techniques de Traitement Automatique des
Langues (TAL) à la détection de plagiat et au suivi d’impact d’une information. L’évaluation
de l’apport de ces techniques est fondamentale. Globalement, l’évaluation est un élément
essentiel du projet et une grande part de l’effort y est consacrée. Les méthodologies
d’évaluation ainsi que les corpus associés seront diffusés à la communauté à la fin du projet.
3
Le Réseau National de recherche et d’innovation en Technologies Logicielles (RNTL) a été mis en place, fin
1999, par le Ministère délégué à la Recherche et le Ministère délégué à l’Industrie. Le RNTL a été renouvelé en
2005, dans le cadre de l'Agence Nationale de la Recherche (ANR). Il a reçu comme mission, de favoriser la
constitution de projets innovants de recherche et de développement coopératif entre entreprises du secteur privé
et les équipes de la recherche publique.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 15/94
2006/2007
15/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Preambule et Environnement
Partenaires développeurs
Les partenaires de ce projet sont :
 La société Advestigo a mis au point un outil de détection de plagiat qui peut analyser
à la fois des flux de données et chercher directement sur Internet, dans des sites non
ciblés au départ.
 Le Laboratoire Informatique d’Avignon (LIA) dont la principale thématique de
recherche concerne le traitement automatique du langage naturel, écrit et oral, a
développé de nombreux systèmes dont les finalités peuvent s’inscrire dans ce projet :
recherche d’informations, classification et catégorisation automatiques, segmentation
thématique, désambiguïsation sémantique, résumé automatique.
 Le Laboratoire d’Informatique de Nantes Atlantique (LINA), son équipe de recherche
TALN, s'intéresse aux traitements informatiques portant sur des données textuelles
écrites, et plus particulièrement sur l’exploration des données textuelles pour en
extraire des informations linguistiques relevant de tous les niveaux du traitement de la
langue : morphologique, lexical, syntaxique, sémantique et pragmatique.
 La société Sinequa, porteuse du projet, commercialise des outils de gestion de
l’information, en particulier un moteur de recherche, Intuition. Celui-ci utilise une
représentation thématique des documents en se basant sur des analyses linguistiques.
Les travaux se feront sur des articles de journaux, des dépêches d’agences et des discours. Le
tout se fera dans un contexte inter-lingue impliquant trois langues : français, anglais, arabe.
Partenaire valideur
Le groupe TNS Sofres Media Intelligence (études marketing et d'opinion) participe au projet
en tant que « client » qui exprimera les besoins et validera les solutions proposées par les
partenaires développeurs.
Périmètre du projet d’Ingénieur au sein du projet PIITHIE
Ma participation au projet PIITHIE a débuté au mois de février 2007 au travers de différentes
réunions de travail à Paris et au Laboratoire d’Informatique de Nantes Atlantique. Pour ma
part, je suis en charge de représenter et coordonner le projet pour le compte d’Advestigo. Je
suis aussi en responsabilité des études et développements de certains lots à la charge
d’Advestigo, tels qu’ils ont été définis dans l’organisation du projet PIITHIE. Mais bien plus
en lien avec la problématique de mon projet d’ingénieur (UGC), ce mémoire développe mes
réalisations techniques qui recouvrent les deux lots suivants du projet PIITHIE :
 Empreinte lexicale d’un document (Lot 3.1)
 Extraction de requêtes optimisées pour les moteurs du Web (Lot 3.2)
Nota bene : Une vue d’ensemble des lots du projet PIITHIE ainsi qu’une description complète
de chacun des deux lots est disponible en annexe 2 - Présentation des lots page 79.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 16/94
2006/2007
16/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
II. ÉTAT DE L’ART
Cette section présente succinctement les principaux concepts utiles à la compréhension des
travaux qui seront détaillés dans la section suivante. Naturellement, elle ne se prétend pas
exhaustive sur les disciplines évoquées. Néanmoins, il est proposé au lecteur un ensemble de
références bibliographiques destinées à approfondir chaque thématique.
L’objectif second visé par cet État de l’Art sur les deux disciplines est d’effectuer une
synthèse des techniques avancées. Ceci afin de sélectionner les approches ad hoc en vue
d’une application opérationnelle dans les outils de surveillance et de mesure à l’issue de la
période du projet d’Ingénieur.
La présentation du sujet effectuée dans la section Objet du projet d’Ingénieur page 13, nous
amène à considérer des aspects théoriques de la Recherche d’Informations (RI) et certaines
techniques de Traitement Automatique des Langues (TAL).
1. Recherche d’Information (RI)
Présentation du domaine
Les Systèmes de Recherche d’Information (SRI) s’inscrivent dans une longue pratique
documentaire. Ils visent à retrouver dans une base documentaire un sous-ensemble de
documents pertinents au regard du besoin de l’utilisateur qui l’exprime sous la forme d’une
requête. Dans les moteurs de recherche accessibles sur Internet, les systèmes de recherche
d’information sont associés à des robots (crawler, spider, butineurs) qui construisent et
mettent à jour une base documentaire à partir des pages accessibles sur la toile [5].
Le principe de la Recherche d’Information consiste à confronter une requête aux documents
d’une base documentaire pour identifier les documents les plus proches sémantiquement de la
requête. Cela suppose de représenter de manière homogène les documents et la requête : une
méthode très classique consiste à les représenter sous forme d’un vecteur de mots, les mots
ayant des poids calculés sur la base de critères statistiques [7][13].
On évalue généralement les systèmes de RI en mesurant leur capacité à retrouver tous les
documents pertinents (rappel) et uniquement ceux-là (précision).
Modèles conceptuels de la Recherche d’Information
Traditionnellement, la recherche d’information propose cinq grandes familles4
de modèle :
 Le modèle booléen ou ensembliste [13], qui repose sur la manipulation de
mots-clés et un mode d’appariement. Sa mise en œuvre demeure assez triviale, grâce à
la technique des fichiers inverses ce qui explique son succès.
 Le modèle vectoriel [4], créé au début des années 1970 par Gérard Salton et
son équipe, utilise une représentation géométrique pour classer les documents par
ordre de pertinence par rapport à la requête. Il repose sur les informations de fréquence
des termes de la requête. L’idée principale est de considérer les termes d’indexations
comme les dimensions d’un espace d’information multidimensionnel. Il demeure
incontournable en RI ce dont témoigne son intégration dans une majorité de moteurs
de recherche usuels. Aussi, il sera employé dans le cadre de mes travaux.
4
ce découpage n’est pas admis par tous.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 17/94
2006/2007
17/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
 Le modèle probabiliste [11][12], où l’on estime de manière aussi précise que
possible la probabilité de pertinence des documents en fonction d’une part, des
informations et données disponibles, et d’autre part de la requête. Il existe de
nombreuses extensions de ce modèle : estimation à priori, modèle unifié, les réseaux
bayésiens… et les prometteurs « modèles de langue » [3], issus du domaine de la
reconnaissance vocale. Dans ce dernier, on tente de créer un modèle statistique pour
modéliser une langue et ainsi déterminer la probabilité d’apparition, d’un mot ou
d’une suite de mots, en fonction du modèle.
 Le modèle logique, qui consiste à considérer qu’un document répond à une
requête si l’on peut trouver une chaîne de causalité qui part du document et arrive à la
requête.
 Le modèle évolutionniste ou adaptatif qui est une métaphore biologique
inspirée des mécanismes de l’évolution darwinienne et de la génétique moderne.
Ce dernier modèle est développé davantage ci-après. De nombreux travaux mêlant modèle
évolutionniste et recherche d’information ont été développés dans le cadre de projet de
recherche, notamment par Linda Tamine et Mohand Boughanem [1] et Filippo Menzcker[8].
Il se raffine en deux sous-familles : les réseaux de neurones et les algorithmes génétiques. Les
travaux techniques entrepris dans mon projet s’inspirent de cette seconde sous famille. Les
éléments de justification qui ont guidé mon choix sont présentés dans la section « Choix du
modèle conceptuel en RI : prise de risque et innovation » en page 67.
Modèle vectoriel
Le modèle vectoriel s’inscrit dans une optique pragmatique et quasi immédiate. Il permet de
pousser le plus loin possible l’automatisation sur des données numériques mesurables pour
classifier ou comparer des documents. Un document est une suite de mots, appelée
communément un terme5
, et son vecteur associé est une suite de chiffres qui indique le poids
associé à chaque mot en fonction de fréquences locales au document (dans le cas d’un corpus,
la pondération peut être globale).
Concrètement, les composantes du vecteur du document 𝐷𝑖 correspondent à la fréquence de
chacun des mots dans le texte d’origine :
𝑓1
𝐷 𝑖
, 𝑓2
𝐷 𝑖
, 𝑓3
𝐷 𝑖
, … , 𝑓𝐿
𝐷 𝑖
Par exemple, soit 𝐷1 et 𝐷2 deux documents. Le lexique de ces documents est constitué de
quatre mots : a, b, c et d.
L = {a, b, c, d}
Dans le premier document, 𝐷1 , le mot a apparaît 5 fois, le mot b apparaît 3 fois, le mot c
apparaît 4 fois et le mot d apparaît 1 fois . Dans le deuxième document, 𝐷2, le mot a apparaît
2 fois, le mot b apparaît 2 fois, le mot c apparaît 5 fois et le mot d n’apparaît pas. Dans cet
exemple, les documents 𝐷1 et 𝐷2 auront la représentation vectorielle suivante dans un espace
à quatre dimensions :
𝑽 𝟏
= {5, 3, 4, 1} ; 𝑽 𝟐
= {2, 2, 5, 0}
5
Abusivement, un mot isolé est parfois considéré comme un terme.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 18/94
2006/2007
18/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
Le poids du texte correspond au nombre d’occurrences de chaque mot. On entrevoie ainsi
l’intérêt d’utiliser le modèle vectoriel pour la représentation des documents. Des textes qui se
ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans des contextes
similaires (cf. hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques
sont similaires, Harris, Z. (1968). Mathematical Structures of Language, Wiley, New York.).
Si on se place dans l'espace vectoriel, deux documents similaires correspondent à des vecteurs
proches. Regrouper des vecteurs proches c'est trouver les vecteurs qui ont des directions
semblables ou dont les extrémités sont proches.
Ceci permet de calculer des similarités ou des distances entre les blocs de textes (valeurs
souvent liées) en comparant leurs vecteurs respectifs (direction ou distance séparant les
extrémités des vecteurs associés).
Exemple6
illustratif de projection dans un espace à deux dimensions :
Figure 1 - Exemple de vecteur dans un espace à 2 dimensions.
Deux documents sont similaires si leurs vecteurs sont confondus. Si deux documents ne sont
pas similaires, leurs vecteurs forment un angle 𝛼 dont le cosinus vaut :
cos 𝛼 = cos(𝑉1, 𝑉2) =
𝑉1 ∙ 𝑉2
‖𝑉1‖‖𝑉2‖
Se lit : produit scalaire 𝑉1 ∙ 𝑉2 divisé par le produit de la norme de 𝑉1 multiplié par la norme
de 𝑉2; la norme de 𝑉1= la longueur de 𝑉1 (Pythagore) .
La mesure du cosinus est la plus couramment employée dans le cadre de la Recherche
d’Informations. Cependant, peu d’études ont été menées pour essayer de comparer les
propriétés de ces mesures et de justifier du choix d’une mesure selon les différentes
applications.
6
Tiré du cours de M. Jardino, S. Rosset intitulé « Comparaison de documents : mesures de similarité et
mesures de distance »
Lexique : L = {"𝑗𝑒", "𝑣𝑎𝑖𝑠"}
D1 = « je je vais »
D2 = « je je je je vais vais »
D3 = « je vais vais »
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 19/94
2006/2007
19/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
Algorithme génétique
Les algorithmes génétiques font partie de la classe des algorithmes évolutifs. Les techniques
d’algorithmique évolutive sont basées sur le principe puissant de survie du meilleur. Elles
modélisent les phénomènes naturels liés à la génétique darwinienne. Elles constituent une
catégorie intéressante d’heuristiques de recherche et d’optimisation pour la problématique de
mon sujet.
Les algorithmes évolutifs sont caractérisés par :
 la manipulation d’une population d’individus représentant les solutions candidates au
problème posé ;
 l’évaluation de la qualité des individus grâce à une fonction d’adaptation (fitness) ;
 la détermination d’une stratégie de sélection des individus d’une génération à une
autre ;
 l’application d’opérateurs de transformation d’individus entre générations.
Qu’est ce qu’un algorithme génétique ?
Un algorithme génétique a pour but de faire évoluer un ensemble de solutions candidates à un
problème posé vers la solution optimale. Cette évolution s’effectue sur la base de
transformations inspirées de la génétique, assurant de génération en génération, l’exploration
de l’espace des solutions en direction des plus adaptées (voir Figure 2 - Structure générale
d'un algorithme génétique).
Figure 2 - Structure générale d'un algorithme génétique
Propriétés et concepts de base des algorithmes génétiques
Les AG présentent deux propriétés qui constituent un avantage décisif. L’une est connue sous
le qualificatif de parallélisme implicite. Celui-ci exprime la capacité des AG, pour une
Début
t :=0
Initialiser la population
Évaluer l’adaptation de chaque individu de la population
Tant que (┐condition arrêt) Faire
t := t+1
Sélectionner les meilleurs individus pour la reproduction
Appliquer les opérateurs génétiques
Évaluer chaque individu de la génération enfant
Fait
Fin
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 20/94
2006/2007
20/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
population de taille N, de traiter simultanément un nombre de directions de l’ordre de N³. La
seconde, les distingue par leur faculté à résoudre le dilemme exploration/exploitation.
L’exploitation consiste à encourager l’apparition de ses représentants dans la population
tandis que l’exploration plaide en faveur de nouvelles directions de recherche. En effet, elle
détermine un équilibre entre ces deux procédures antagonistes, exploration/exploitation, par
l’allocation d’un nombre exponentiel croissant à la meilleure direction observée. En
conséquence, dans mes travaux, les techniques d’algorithme génétique ciblent deux objectifs :
 la représentation optimale des requêtes, qui consiste à découvrir itérativement
l’intégralité de la sémantique véhiculée par la requête initiale, intègre des techniques
de reformulation de requête dans les structures des opérateurs génétiques.
 la représentation optimale du contexte des requêtes qui proposent une méthode
génétique de recherche basée sur la coopération d’agents de recherche. Chaque agent
diffuse le processus de recherche de document pertinent à l’ensemble des agents
évoluant dans des contextes différents d’interrogation des moteurs de recherche :
langue, cookies, session,…
Individu : Chaque individu ou chromosome exprimé par un génotype, est constitué d’un
ensemble fixe de gènes représentant chacune de ses caractéristiques. Le décodage d’un
individu produit son phénotype. Un gène identifié par sa position appelée locus, peut prendre
plusieurs valeurs dénommés allèles. L’individu est la structure fondamentale permettant
d’encoder une solution candidate à un problème.
Population : ensemble d’individus d’une même génération.
Fonction d’adaptation : Chaque individu/solution a une valeur fitness retournée par
l’application d’une fonction d’adaptation qui doit être capable de favoriser la sélection
d’individus dans la direction de l’optimum. C’est une mesure d’efficacité des individus
solutions.
Opérateurs génétiques : Ils représentent des procédures de transformations des individus entre
générations. Les algorithmes génétiques exploitent principalement trois opérateurs :
 Sélection : le principe de sélection est tel que les individus les plus adaptés fournissent
la descendance la plus élevée. C’est un opérateur de clonage orienté vers l’exploitation
des individus solutions.
 Croisement : le croisement ou cross-over est le second opérateur génétique appliqué à
la population issu de la sélection. C’est un opérateur de combinaison qui agit
généralement par paires en déterminant un ou plusieurs points de coupure, délimitant
les frontières des parties à échanger. C’est l’opérateur le plus puissant car il combine
deux solutions comportant chacune une partie de la solution ; il est d’avantage orienté
vers l’exploitation des solutions en cours.
 Mutation : la mutation qui est l’opérateur le plus simple, consiste à modifier,
aléatoirement, la valeur d’un gène par un autre; il est d’avantage orienté vers
l’exploration de l’espace de recherche.
2. Traitement Automatique des Langues (TAL)
Intelligence Artificielle et Linguistique
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 21/94
2006/2007
21/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
Le Traitement Automatique des Langues (TAL) est une branche de l’Intelligence Artificielle.
Cette discipline est à la frontière de la Linguistique et de l'Informatique. Elle concerne
l'application de programmes et techniques informatiques pour prendre en charge différents
aspects du langage humain : traduction, compréhension, résumé de texte, etc. L’objet premier
de l’Informatique n’est pas l’étude des langues humaines, but qui relève davantage de la
Linguistique. Les linguistes cherchent à identifier les phénomènes caractéristiques du langage
dans toute leur étendue et à en donner des descriptions, plus ou moins
formelles selon les théories. Tandis qu’en Intelligence Artificielle,
l’objectif est de construire des systèmes capables de reproduire certaines
performances impliquant une activité de compréhension. Un processus de changement de
représentation et un mécanisme d’inférence sont les principales capacités qui fondent les
mises en œuvres informatiques. Inférences, car l’évaluation d’un tel
système compare les conclusions que le système est capable de tirer.
Dans le contexte actuel, de nombreuses recherches dans ce domaine
tentent d’apporter des réponses à notre société qui manipule un volume
croissant de documents textuels et dont les besoins en termes de gestion
de cette information textuelle se développent rapidement. La suite de
cette section présente, un aperçu des techniques de TAL [2] susceptible
d’améliorer les performances de l’empreinte lexicale.
Reconnaissance d’entités nommées
Cette tâche consiste à repérer et typer certains items lexicaux particuliers
qu’on appelle « entités nommées » : des noms propres souvent, des
lieux, des institutions mais plus largement toutes les entités référentielles
bien identifiées (dates, mesures, adresse http,…)
En pratique, ces entités nommées sont importantes à repérer dans les
textes parce qu’elles fixent une référence. L’exemple ci-contre illustre
la reconnaissance de l’entité nommée « YouTube » en surbrillance
rouge.
Analyse syntaxique de surface (ou morpho-syntaxique)
L’analyse syntaxique de surface (ou « Analyse morphosyntaxique7
») est
un traitement linguistique superficiel qui identifie les constituants d’une
phrase : noms, verbes, adverbes, adjectifs, etc. Et cela sans spécifier
leurs structures internes, ni leurs fonctions dans la phrase. Précisément,
l’analyse syntaxique de surface ne produit pas un arbre syntaxique complet. La couche
morphologique sert de soubassement à la plupart des traitements de TAL. En effet, elle
permet la reconnaissance des unités textuelles de base que sont les mots et l’analyse de leur
structure. D’ailleurs les premiers succès applicatifs en TAL reposent sur des traitements
morphologiques : la correction orthographique et la césure automatique. Ces applications sont
aujourd’hui intégrées dans les traitements de texte et le grand public y est familiarisé depuis
longtemps.
Par ailleurs, on distingue la morphologie flexionnelle qui décrit la manière dont un mot
change de forme (conjugaison des verbes, déclinaison des noms et adjectifs) et la
morphologie dérivationnelle qui analyse le mode construction des mots, par
combinaison/concaténation d’affixes à un mot-racine :
7
en anglais on parle de « shallow parsing » ou « light parsing »
Origine Catégorie Forme
Canonique
Pour PRP pour
diverses ADJ divers
raisons NOM raison
techniques ADJ technique
YouTube NAM YouTube
semble VER:pres sembler
alors ADV alors
avoir VER:infi avoir
du PRP:det du
mal NOM mal
à PRP à
supprimerVER:infi supprimer
les DET:ART le
fichiers NOM fichier
Figure 3 - Exemple d'analyse
syntaxique de surface
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 22/94
2006/2007
22/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
État de l’art
exemples : revenir ≈ re- + venir, rapidement ≈ rapide + -ment.
L’analyse flexionnelle est importante : elle permet d’identifier le lemme8
à partir de forme
fléchie (on parle de lemmatisation) et d’en décrire les traits morphologiques. Par exemple :
diverses est la forme de l’adjectif divers au féminin pluriel, semble est la forme du verbe
sembler conjuguée au présent de l’indicatif à la 3ièmes
personne du singulier (Ex. : Figure 3).
Toutes les langues indo-européennes sont flexionnelles, à des degrés divers. L'Anglais, par
exemple, est très faiblement fléchi par rapport à l'Islandais. Le Français l'est bien plus à l'écrit
qu'à l'oral, un grand nombre de désinences9
étant muettes. Hors de cette famille, les langues
sémitiques10
sont elles aussi flexionnelles à des degrés divers : l'arabe littéral se fléchissant
plus que le dialectal, par exemple.
3. Évaluation des Systèmes de Recherche d’Information
On mesure communément l’efficacité d’une technique de recherche d’informations en utilisant quatre
critères la précision (opposée au bruit) et le rappel (opposé au silence) :
 Précision : Rapport du nombre de documents pertinents trouvés au nombre total de documents
sélectionnés. En anglais precision.
 Rappel : Rapport du nombre de documents pertinents trouvés au nombre total de documents
pertinents. En anglais recall.
Les notions de bruit et de silence sont assez intuitives. Elles sont illustrées par la figure de gauche ci-
dessous. En pratique, on cherche un bon compromis entre le rappel et la précision. Afin d’évaluer
un système, on fait souvent un graphique (à droite) du rappel par rapport à la pertinence (ou vice-
versa).
Si on prend une collection de documents donnés (la zone grisée), et une requête donnée, un expert est
en mesure de déterminer la liste des documents "pertinents" (l’ellipse jaune). Mais un moteur de
recherche n’est jamais parfait, il retournera les documents symbolisés par l’ellipse bleue. Les
documents pertinents ramenés apparaissent en verdâtre. Les documents trouvés, mais non pertinents,
constituent le bruit (zone bleu vif). Les documents pertinents, mais non trouvés, constituent le silence
(zone jaune vif). Intuitivement, on peut dire que la précision représente la pertinence du système et le
rappel sa couverture. En pratique, il est facile de fournir un système avec un rappel de 100 % : il suffit
de retourner la liste de tous les documents. Ces mesures sont souvent antagonistes.
8
forme canonique du mot.
9
en linguistique, suffixe ajouté pour indiquer la forme d'une conjugaison ou la déclinaison (le -s du pluriel).
10
groupe de langues d'Asie occidentale, Moyen Orient et du nord de l'Afrique.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 23/94
2006/2007
23/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES
1. Analyse des comportements, hypothèses et démarche générale.
Les travaux de mon projet vont se focaliser sur le phénomène des UGC. Dans ce cadre, on
peut résumer de façon relativement simpliste l’orientation de mes travaux par la question
suivante :
Comment détecter un contenu vidéo mis en ligne illégalement sur les sites d’UGC ?
Une fouille naïve et la comparaison de l’ensemble des vidéos mise en ligne sur la totalité des
sites d’UGC restent une réponse irréaliste et inenvisageable.
Par conséquent, il s’agit de réfléchir à une approche qui permette de réduire l’espace
d’exploration, tout en analysant la façon dont les internautes échangent la localisation
(URL11
) des vidéos mises en ligne.
Naturellement, la localisation n’est ni centralisée ni structurée dans une base de données. Non,
celle-ci est disponible sur le web à qui veut se donner les moyens de la trouver. Un internaute
motivé et aguerri aux techniques de formulation de requête pour les moteurs de recherches
(Google, Yahoo, MSN, etc…) peut assez rapidement, par un cheminement mental propre à
l’Homme, aboutir à ses fins.
Même si certains aspects de ce cheminement mental sont difficilement automatisables, on
peut imaginer des approches visant à simuler les processus de reformulation de requête. Ceci
en vue d’optimiser la représentativité des descripteurs (mots clés) destinés à interroger les
moteurs de recherches. Cette approche doit tenir compte de contraintes comme l’absence de
ressources externes comme des dictionnaires de synonymie, d’antonymie, de concepts,…
coûteuses, difficile à adapter à cette application et à concevoir. De plus, dans les travaux
initiés par Claude de Loupy12
durant sa thèse [6], celui-ci indique que « l’accroissement des
performances est, cela dit, faible et ne justifie pas l’effort et le coût de création et d’utilisation
de telles ressources ».
Pour mieux appréhender les difficultés inhérentes et les solutions qui seront expérimentées,
partons du cas concret d’une vidéo diffusée massivement sur les sites d’UGC. Sur celle-ci, on
aperçoit une manipulation à effectuer pour contourner la limitation sur le réseau Orange du
téléphone mobile de la firme Apple : iPhone. Depuis le 29 novembre 2007, date officielle de
commercialisation de l’appareil, cette information a été reprise de nombreuses fois par des
internautes et cela sur de multiples forums et blogs commentant la nouvelle et le moyen de le
« débloquer ». Pratique très intéressante pour cette étude, ceux-ci invitent les lecteurs à
visionner la vidéo en question en plaçant un pointeur (URL) vers une plateforme UGC.
De ce cas, on peut émettre l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou
non, est accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement
décrit. Les espaces de discussions entre internautes autour d’une thématique, à l’instar des
forums et blogs, constituent des lieux propices à cette publicité. La fouille par des
traitements automatisés de ces lieux constituera un des fondements de notre SRI.
11
URL, de l'anglais Uniform Resource Locator, littéralement « localisateur uniforme de ressource », est une
chaîne de caractères utilisée pour adresser les Ressources dans l’Internet : document HTML, image, son, forum
Usenet, boîte aux lettres électronique, etc. Elle est informellement appelée une adresse Web.
12
Claude de Loupy est maître de Conférence associé à l’Université Paris X et intervient à l’ENSIIE pour un
cours sur les moteurs de recherche. Fortuitement, il est à l’initiative et animateur du projet PIITHIE.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 24/94
2006/2007
24/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Cette publicité est l’un des fondements théorique visant à rendre la fouille plus efficace :
 Les échanges sur les forums et les messages mis en ligne sur les blogs reprennent,
reformulent une information de façon importante et surtout variée. En soit, ceux-ci ne
constituent-ils pas un moyen efficace d’extraire un ensemble de descripteurs en
l’absence de ressources externes ?
 Dans ce dessein, nous analyserons et extrairons les termes saillants employés dans le
voisinage d’un lien hypertexte pointant vers la vidéo en question. Ceux-ci ne sont-ils
pas autant de descripteurs de la même idée, notion ou concept reformulés par une
communauté d’internautes ?
Il s’agira donc d’exploiter les différentes reprises informationnelles en vue d’engendrer de
nouvelles requêtes visant à optimiser la qualité des descripteurs posées aux moteurs de
recherche. La réalisation du Système de Recherche d’Information décrit dans ce mémoire se
fonde en partie sur ces observations. La finalité est de permettre la localisation d’une vidéo
de référence mise en ligne sur les plateformes d’UGC par l’analyse des échanges textuels
sur les blogs et les forums.
2. Analyse et Conception du Système de Recherche d’Information : Spy-der
Définition des besoins et contraintes du SRI
En préambule, on rappellera que les besoins recensés guident l’ensemble des aspects du
projet. La finalité principale de ce projet est de fournir un service de localisation automatique
des vidéos protégées diffusée sur les plateformes de partage vidéos (UGC). Ce service
s’inscrit clairement dans le cœur de métier d’Advestigo à savoir : la protection des actifs
incorporels numériques des industriels des médias dans le monde. En termes d’exigences
fonctionnelles, on mentionnera principalement qu’il doit fouiller avec efficience13
son espace
de recherche : le Web. Aussi, les moyens d’exploitation sont volontairement limités, ce qui
exclue la réalisation d’un moteur d’indexation et justifie le choix de travailler en métamoteur.
Les métamoteurs permettent de traduire une requête dans la syntaxe propre à plusieurs
moteurs et de l’expédier à chacun d’entre eux, en éliminant en retour les doublons. L'intérêt
est d'augmenter son pourcentage de couverture du web.
On mentionnera d’autres fonctionnalités de haut niveau comme :
 Capacité à évaluer la similarité entre deux contenus textuels et audiovisuels.
 Permettre de visualiser et conserver les résultats des recherches.
Par ailleurs, en termes d’exigences non fonctionnelles, on rappelle que le système doit offrir
une couverture la plus large possible. Aussi, il doit conserver une relative insensibilité aux
langues. Par conséquent, les techniques employées doivent, tout autant que possible, être
indépendantes des langues. Le système doit limiter le nombre d’erreurs : faux négatif et faux
positif. Les faux positifs étant plus gênant pour ce type de système.
Aussi la réalisation du système doit tenir compte des contraintes légales et économiques qui
en l’occurrence demeurent relativement fortes.
13
On mesure l’efficacité des techniques de recherche d’information en utilisant deux mesures distinctes et liées :
la précision et le rappel explicités dans la section précédente « État de l’Art ».
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 25/94
2006/2007
25/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Naturellement, la conception du système de recherche d’information visée s’emploie aussi à
respecter les principes de base du génie logiciel suivants :
 Séparation des problèmes,
 Modularité : Décomposition en modules connectés entre eux par des
interfaces bien définies mais aussi indépendantes que possible,
 Abstraction,
 Généricité,
 Construction incrémentale,
 Anticipation du changement.
Pour tout problème spécifique, il existe plusieurs méthodes pour en appréhender sa
complexité et les problèmes sous-jacents. Pour la conception et la réalisation des systèmes à
dominante informatique une approche système est un choix naturel. En adoptant un point de
vue externe (dit de « boite noire ») le « Tableau 1 - Vue système et environnement » ci-
dessous permet d’identifier les éléments-clés de solutions et les relations de cause à effet :
Tableau 1 - Vue système et environnement
À partir de l’expression des besoins, la phase de conception proprement dite peut débuter.
Dans la conception de systèmes, la complexité est l’une des raisons principales justifiant la
modélisation. Les éléments qui suivront doivent permettre de se concentrer, de documenter et
de communiquer les aspects importants de la conception du SRI.
•Protéger les actifs incorporels numériques de l'industrie des médias sur les
réseaux électroniquesProblème à résoudre
•Fourniture d'un service de localisation automatique des vidéos protégées
diffusées sur les plateformes de partage vidéos (UGC)Finalité du système
•Fouiller efficacement le web (couverture)
Exigences fonctionnelles (Faire)
•FURPSE(Fonctionnality, Usability, Realibility, Performance, Serviceability,
Evolutivity) ISO CEI 9126Exigences non fonctionnelles (Etre)
•Moyen d'exploitation limité/espace de recherche -> métamoteur
•Délai de réalisation de 8 mois/ engagement financier dans les limites du bugdet prévisionnelContraintes de l'environnement direct
•Politique : des actions gouvernementales sont à prévoir (sujet sensible)
•Economique : marché mondial;
•Sociale : sentiment profondément ancré de gratuité des oeuvres audiovisuelles
•Technologie : "immensité "du Web (passage à l'échelle de la fouille)
•Environnementale: comsommation et bilan énergitiques des serveurs sous tension
24h/24h
•Légale : contrainte très forte (Droit des exploitants de BD versus Droits d'Auteur)
Contraintes de l'environnement indirect
PESTEL
•Promotion de la mise en ligne sur les blogs et forums
•Information "semi-structurée" en HTML
Nature et disponibilité des données
•Connaissance structurelle et organisationnelle du WebEnsemble des connaissances et des
compétences disponibles
•Compétences linguistiquesEnsemble des connaissances et des
compétences à développer/sous-traiter
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 26/94
2006/2007
26/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Modélisation UML et conception architecturale orientée objet
En préambule, on rappellera qu’un modèle est une abstraction de la réalité. Cette
simplification du système réel doit permettre de comprendre, d’évaluer et de critiquer plus
rapidement la conception et sa viabilité qu’en s’immisçant directement dans le système. Un
élément important pour bien modéliser un système, c’est le langage permettant de décrire le
modèle. Mon choix s’est porté vers UML14
qui est en passe de devenir un standard
incontournable dans le génie logiciel, et plus encore lorsqu’on s’inscrit dans une architecture
objet. En effet, ce type d’architecture se développe en entreprise principalement pour ses
qualités de modularité, de maintenance et d’évolutivité que confère le paradigme objet. Les
données sont encapsulées dans des composants (objets) et ils sont manipulés par des
opérations (communication et coordination réalisées par les messages). Dans les langages
orientés objet, une classe est un ensemble d’objets possédant une structure, un comportement
et des relations similaires.
Exigences du système : Diagramme des cas d’utilisation
Le diagramme des cas d’utilisations (Figure 4) décrit ce que le système de recherche doit
faire. Il fait apparaître les interactions entre le système et les utilisateurs externes ainsi
qu’avec d’autres systèmes externes comme les moteurs de recherches et les plateformes UGC.
Figure 4 - Diagramme de cas d'utilisation du SRI
NB : Le lecteur plus intéressé pourra se reporter dans l’annexe au « Synopsis de l’architecture
générale du Spy-der » page 81.
14
Unified Model Language : les raisons de ce choix sont développées dans la section Abstraction et modélisation
en page 54.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 27/94
2006/2007
27/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Processus de haut niveau du système : diagramme d’activité de l’expansion de
requêtes.
A partir du diagramme des cas d’utilisations, on précise comment le système accomplira ces
differentes tâches. C’est au travers d’un diagramme d’activité que l’on décrit des actions de haut
niveau. Leur enchaînement représente un processus du système. Par souci de concision, je ne présente
ici que la modélisation d’un processus central du système : l’expansion de requêtes (Figure 5). La
stratégie mise en œuvre consiste à débuter par l’interrogation des moteurs de recherche généralistes
(nombre de pages indexées importants). Ensuite, l’interrogation amène , via des moteurs de recherche
spécialisés dans les blogs et forum, à une réduction du bruit introduit par les descripteurs précédents.
La segmentation en bloc abouti à une analyse plus fine du texte. A l’issue de l’étape précédente,
l’ensemble des descripteurs est exploité sur des moteurs indexant de la vidéo et les moteurs internes
des plateformes UGC (figure ci-dessous lecture de gauche à droite suivant la fléche).
Figure 5 - Diagramme d'activité de l'expansion de requêtes
Moteur Généraliste
• Large couverture
• Large Introduction de "bruit"
Moteur Spécialisé blog et forum
• Faible couverture
• Faible introduction de "bruit"
Finalité : Moteur Spécialisé Vidéo et
interne UGC
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 28/94
2006/2007
28/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Architecture physique des composants : Web Services
Gartner (1999) : la mise en oeuvre des flux de communication inter-applicatifs dépasse les
40% du coût total de développement d'un Système d’Information.
En partant de ce constat dans les applications complexes (syndrome spaghetti classique des
SI), il s’agit d’identifier pour le SRI une architecture assurant une réponse efficace aux
problématiques rencontrées en termes de réutilisation, d'interopérabilité et de réduction de
couplage15
. L’architecture orientée service (en anglais Service Oriented Architecture, ou
SOA) est une architecture logicielle s'appuyant sur un ensemble de services simples avec un
objectif double:
 décomposer une fonctionnalité en un ensemble de fonctions basiques, appelées
services, fournies par des composants logiciels ;
 décrire finement le schéma d'interaction entre ces services (composants logiciels).
Les Web Services constituent une concrétisation majeure du concept d'architectures de
services qui sont en passe de s'imposer comme une référence incontournable en matière de
développement de grands systèmes en environnement fortement distribué. Parmi les
caractéristiques notables de cette implantation, citons :
 une standardisation systématique des protocoles de communication et des
interfaces de services pour garantir un haut niveau d'interopérabilité ;
 une méthodologie de construction de systèmes complexes par couplage faible
de composants distribués aux frontières clairement définies ;
 la définition d'un cadre non propriétaire d'intégration d'applications,
potentiellement supporté par plusieurs infrastructures logicielles (J2EE, Mono .Net).
Les Web Services sont des composants métiers ou techniques accessibles par des protocoles
standard. De plus, ils garantissent un haut niveau d'interopérabilité tout en permettant à des
composants distants d'échanger des objets relativement complexes. D’autant que les
infrastructures associées prennent totalement en charge les opérations d'encodage et de
décodage requises pour transporter ces objets à travers les réseaux. Sous l'impulsion
d'organismes de standardisation comme le W3C, OASIS et WSI, le socle technologique des
Web Services s'est construit par élaboration progressive et cumulative de recommandations
techniques fondées sur le formalisme XML, pour couvrir les différentes facettes de la
communication entre logiciel (consulter Figure 6 page suivante) :
 Formalisation des messages échangés entre services distants (SOAP16
) ;
 Composition de services en passant par la description d'interfaces (WSDL17
) ;
 Publication de services (UDDI18
).
15
L'idée générale du couplage faible consiste à établir un protocole d'échange et à effectuer le moins d'hypothèses (ou à
imposer le moins de contraintes) possible entre les composants. Les structures fonctionnant sur du couplage faible sont donc
plus souples et plus ouvertes.
16
Simple Object Access Protocol (SOAP) est un protocole d’appel de procédures à distance orienté objet bâti sur XML. Il
permet la transmission de messages entre objets distants, ce qui veut dire qu'il autorise un objet à invoquer des méthodes
d'objets physiquement situés sur un autre serveur. Le transfert se fait le plus souvent à l'aide du protocole http.
17
Web Service Description Language (WSDL) est le langage de description pour décrire une Interface publique d'accès à
un Service Web.
18
Universal Description Discovery and Integration (UDDI) est un annuaire qui permet de localiser sur le réseau le service
Web recherché.
Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 29/94
2006/2007
29/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique
Nabil BOUZERNA
Nabil BOUZERNA
Travaux d’analyses et de conceptions menés
Figure 6 - Architecture conceptuelle des Web Services
Prolongement des travaux d’analyses et conception du SRI
À moyen terme cette architecture fondée sur les Web services doit intégrer une couche
d’orchestration. Dans un système d’informatique distribuée, mais en particulier pour les Web
services, l'orchestration est un système qui permet d’enchaîner les services. L’orchestration
assure la succession des tâches, le contrôle de la bonne exécution, les reprises en cas
d’incident, etc. Plusieurs camps s'affrontent dans la production de standard d'orchestration. En
l’attente d’un standard mature, le Spy-der s’appuie sur un système d’orchestration développé
en interne.
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007

More Related Content

Viewers also liked

Cyborg Presentation
Cyborg PresentationCyborg Presentation
Cyborg Presentationshas3233
 
Cyborgs-The next generation human-robotic devices
Cyborgs-The next generation human-robotic devicesCyborgs-The next generation human-robotic devices
Cyborgs-The next generation human-robotic devicesRohit Agrawal
 
Electronic Hand Glove for Speed Impaired and Paralyzed Patients
Electronic Hand Glove for Speed Impaired and Paralyzed PatientsElectronic Hand Glove for Speed Impaired and Paralyzed Patients
Electronic Hand Glove for Speed Impaired and Paralyzed PatientsIEEEP Karachi
 
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...Bennett King
 
Petit-déjeuner OCTO - Objets connectés : We Are Able !
Petit-déjeuner OCTO - Objets connectés : We Are Able !Petit-déjeuner OCTO - Objets connectés : We Are Able !
Petit-déjeuner OCTO - Objets connectés : We Are Able !OCTO Technology
 
Wireless gesture controlled robotic arm
Wireless gesture controlled robotic armWireless gesture controlled robotic arm
Wireless gesture controlled robotic armsneha daise paulson
 
Gesture Recognition Technology-Seminar PPT
Gesture Recognition Technology-Seminar PPTGesture Recognition Technology-Seminar PPT
Gesture Recognition Technology-Seminar PPTSuraj Rai
 
38 gestures of body language
38 gestures of body language38 gestures of body language
38 gestures of body languagemelodeepop
 
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017Carol Smith
 

Viewers also liked (14)

Smart glove
Smart gloveSmart glove
Smart glove
 
Cyborg Presentation
Cyborg PresentationCyborg Presentation
Cyborg Presentation
 
Cyborgs-The next generation human-robotic devices
Cyborgs-The next generation human-robotic devicesCyborgs-The next generation human-robotic devices
Cyborgs-The next generation human-robotic devices
 
Electronic Hand Glove for Speed Impaired and Paralyzed Patients
Electronic Hand Glove for Speed Impaired and Paralyzed PatientsElectronic Hand Glove for Speed Impaired and Paralyzed Patients
Electronic Hand Glove for Speed Impaired and Paralyzed Patients
 
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...
Cyborg Design: Multimodal Interactions, Information, and Environments for Wea...
 
Glove sector
Glove sectorGlove sector
Glove sector
 
Petit-déjeuner OCTO - Objets connectés : We Are Able !
Petit-déjeuner OCTO - Objets connectés : We Are Able !Petit-déjeuner OCTO - Objets connectés : We Are Able !
Petit-déjeuner OCTO - Objets connectés : We Are Able !
 
Wireless gesture controlled robotic arm
Wireless gesture controlled robotic armWireless gesture controlled robotic arm
Wireless gesture controlled robotic arm
 
Gesture Recognition
Gesture RecognitionGesture Recognition
Gesture Recognition
 
Gesture Recognition Technology-Seminar PPT
Gesture Recognition Technology-Seminar PPTGesture Recognition Technology-Seminar PPT
Gesture Recognition Technology-Seminar PPT
 
Gestures and body language
Gestures and body languageGestures and body language
Gestures and body language
 
Gesture recognition
Gesture recognitionGesture recognition
Gesture recognition
 
38 gestures of body language
38 gestures of body language38 gestures of body language
38 gestures of body language
 
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
 

Similar to Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007

Rapport de projet shell
Rapport de projet shellRapport de projet shell
Rapport de projet shellBilal ZIANE
 
Pfe gidn tarek_hamdi
Pfe gidn tarek_hamdiPfe gidn tarek_hamdi
Pfe gidn tarek_hamdiHAMDI TAREK
 
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014polenumerique33
 
Manuel ns1.3
Manuel ns1.3Manuel ns1.3
Manuel ns1.3thiedia
 
0108-formation-ccna-module-4.pdf
0108-formation-ccna-module-4.pdf0108-formation-ccna-module-4.pdf
0108-formation-ccna-module-4.pdfbessem ellili
 
Rapport de projet de fin d"études
Rapport de projet de fin d"étudesRapport de projet de fin d"études
Rapport de projet de fin d"étudesMohamed Boubaya
 
Mise en place d'une solution de détection des pirates et des malwares dans le...
Mise en place d'une solution de détection des pirates et des malwares dans le...Mise en place d'une solution de détection des pirates et des malwares dans le...
Mise en place d'une solution de détection des pirates et des malwares dans le...Mohamed Ben Bouzid
 
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelle
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelleRôle de l’inférence temporel dans la reconnaissance de l’inférence textuelle
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelleBouneffouf Djallel
 
Référentiel e-Société
Référentiel e-SociétéRéférentiel e-Société
Référentiel e-SociétéGenève Lab
 
Rapport projet UniceBot
Rapport projet UniceBotRapport projet UniceBot
Rapport projet UniceBottheoopparadigm
 
anssi-guide-passerelle_internet_securisee-v3.pdf
anssi-guide-passerelle_internet_securisee-v3.pdfanssi-guide-passerelle_internet_securisee-v3.pdf
anssi-guide-passerelle_internet_securisee-v3.pdfBadr Belhajja
 
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Alexis Legrand
 
Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...rim elaire
 
Projet Passerelle sécurisée intelligente pour l'internet des objets
Projet Passerelle sécurisée intelligente pour l'internet des objetsProjet Passerelle sécurisée intelligente pour l'internet des objets
Projet Passerelle sécurisée intelligente pour l'internet des objetsUniversité de Rennes 1
 
Configuration des services web sous CentOS
Configuration des services web sous CentOSConfiguration des services web sous CentOS
Configuration des services web sous CentOSSarah
 
Le Pare-feu: Limites, Performances et Meilleures Pratiques
Le Pare-feu: Limites, Performances et Meilleures PratiquesLe Pare-feu: Limites, Performances et Meilleures Pratiques
Le Pare-feu: Limites, Performances et Meilleures PratiquesMohamed Sabra
 

Similar to Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007 (20)

Rapport de projet shell
Rapport de projet shellRapport de projet shell
Rapport de projet shell
 
Pfe gidn tarek_hamdi
Pfe gidn tarek_hamdiPfe gidn tarek_hamdi
Pfe gidn tarek_hamdi
 
thesis
thesisthesis
thesis
 
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014
Rapport Auditeurs Cigref Inhesj - Sécurité des objets connectés - Décembre 2014
 
Manuel ns1.3
Manuel ns1.3Manuel ns1.3
Manuel ns1.3
 
0108-formation-ccna-module-4.pdf
0108-formation-ccna-module-4.pdf0108-formation-ccna-module-4.pdf
0108-formation-ccna-module-4.pdf
 
Rapport de projet de fin d"études
Rapport de projet de fin d"étudesRapport de projet de fin d"études
Rapport de projet de fin d"études
 
Mise en place d'une solution de détection des pirates et des malwares dans le...
Mise en place d'une solution de détection des pirates et des malwares dans le...Mise en place d'une solution de détection des pirates et des malwares dans le...
Mise en place d'une solution de détection des pirates et des malwares dans le...
 
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelle
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelleRôle de l’inférence temporel dans la reconnaissance de l’inférence textuelle
Rôle de l’inférence temporel dans la reconnaissance de l’inférence textuelle
 
Référentiel e-Société
Référentiel e-SociétéRéférentiel e-Société
Référentiel e-Société
 
Rapport projet UniceBot
Rapport projet UniceBotRapport projet UniceBot
Rapport projet UniceBot
 
anssi-guide-passerelle_internet_securisee-v3.pdf
anssi-guide-passerelle_internet_securisee-v3.pdfanssi-guide-passerelle_internet_securisee-v3.pdf
anssi-guide-passerelle_internet_securisee-v3.pdf
 
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
 
Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...Mon Projet Fin d'étude: Conception et développement d'une application de géol...
Mon Projet Fin d'étude: Conception et développement d'une application de géol...
 
Projet Passerelle sécurisée intelligente pour l'internet des objets
Projet Passerelle sécurisée intelligente pour l'internet des objetsProjet Passerelle sécurisée intelligente pour l'internet des objets
Projet Passerelle sécurisée intelligente pour l'internet des objets
 
vanderpypendaniel_msc
vanderpypendaniel_mscvanderpypendaniel_msc
vanderpypendaniel_msc
 
Tpe nguyen tien-thinh
Tpe nguyen tien-thinhTpe nguyen tien-thinh
Tpe nguyen tien-thinh
 
Configuration des services web sous CentOS
Configuration des services web sous CentOSConfiguration des services web sous CentOS
Configuration des services web sous CentOS
 
Portfolio numerique
Portfolio numeriquePortfolio numerique
Portfolio numerique
 
Le Pare-feu: Limites, Performances et Meilleures Pratiques
Le Pare-feu: Limites, Performances et Meilleures PratiquesLe Pare-feu: Limites, Performances et Meilleures Pratiques
Le Pare-feu: Limites, Performances et Meilleures Pratiques
 

More from Nabil Bouzerna

Towards Better Availability and Accountability for IoT Updates by means of a ...
Towards Better Availability and Accountability for IoT Updates by means of a ...Towards Better Availability and Accountability for IoT Updates by means of a ...
Towards Better Availability and Accountability for IoT Updates by means of a ...Nabil Bouzerna
 
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...Nabil Bouzerna
 
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...Nabil Bouzerna
 
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)Nabil Bouzerna
 
Sur les fondations de la trumpologique
Sur les fondations de la trumpologiqueSur les fondations de la trumpologique
Sur les fondations de la trumpologiqueNabil Bouzerna
 
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...Nabil Bouzerna
 
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...Nabil Bouzerna
 
Quaero Technology Catalog
Quaero Technology CatalogQuaero Technology Catalog
Quaero Technology CatalogNabil Bouzerna
 
Quaero - L’innovation collaborative
Quaero - L’innovation collaborative Quaero - L’innovation collaborative
Quaero - L’innovation collaborative Nabil Bouzerna
 
Quaero a research and innovation program addressing automatic processing of m...
Quaero a research and innovation program addressing automatic processing of m...Quaero a research and innovation program addressing automatic processing of m...
Quaero a research and innovation program addressing automatic processing of m...Nabil Bouzerna
 
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...Nabil Bouzerna
 

More from Nabil Bouzerna (12)

Towards Better Availability and Accountability for IoT Updates by means of a ...
Towards Better Availability and Accountability for IoT Updates by means of a ...Towards Better Availability and Accountability for IoT Updates by means of a ...
Towards Better Availability and Accountability for IoT Updates by means of a ...
 
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...
SODA-IIoT4RailTransport: Application to Railway Signalling System to ensure c...
 
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...
SODA-IIoT4Factory: Blockchain to keep the A.I. of your Intrusion Detection Sy...
 
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)
Bitcoin: A Peer-to-Peer Electronic Cash System (traduction fr)
 
Sur les fondations de la trumpologique
Sur les fondations de la trumpologiqueSur les fondations de la trumpologique
Sur les fondations de la trumpologique
 
RAFFUT ANR
RAFFUT ANRRAFFUT ANR
RAFFUT ANR
 
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...
Audition France Stratégie du 9 mars 2017 "Blockchain : les cas d'usage à l'ép...
 
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...
Expocrise - L’exploitation des médias sociaux avant, pendant et après la cris...
 
Quaero Technology Catalog
Quaero Technology CatalogQuaero Technology Catalog
Quaero Technology Catalog
 
Quaero - L’innovation collaborative
Quaero - L’innovation collaborative Quaero - L’innovation collaborative
Quaero - L’innovation collaborative
 
Quaero a research and innovation program addressing automatic processing of m...
Quaero a research and innovation program addressing automatic processing of m...Quaero a research and innovation program addressing automatic processing of m...
Quaero a research and innovation program addressing automatic processing of m...
 
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...
ESILV Nabil Bouzerna Architecture de systèmes de traitement de l'information ...
 

Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007

  • 1. 1/94 MÉMOIRE présenté en vue d’obtenir le DIPLÔME D'INGÉNIEUR ENSIIE, SPÉCIALITÉ INFORMATIQUE en partenariat avec l’ITII Ile-de-France Rapport Final Nabil BOUZERNA ALGORITHME GÉNÉTIQUE ET TRAITEMENT LINGUISTIQUE POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS EN ENVIRONNEMENT WEB / GENETIC ALGORITHM AND NATURAL LANGUAGE PROCESSING TO RETRIEVE PROTECTED VIDEO CONTENT ON THE WEB Tuteur du projet : M. Jean-Pierre FRANZINETTI, Chef de projet ADVESTIGO S.A. Soutenu le 19 décembre 2007 devant le jury, M. Gérard BERTHELOT, Professeur des Universités ENSIIE, Président M. Xavier URBAIN, Maître de conférences ENSIIE, Examinateur M. Jean-Pierre FRANZINETTI, Chef de projet ADVESTIGO S.A., Examinateur
  • 2. 2/94 ENSIIE FICHE SIGNALETIQUE Projet d’Ingénieur ENSIIE, spécialité « Informatique » ALGORITHME GÉNÉTIQUE ET TRAITEMENT LINGUISTIQUE POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS EN ENVIRONNEMENT WEB / GENETIC ALGORITHM AND NATURAL LANGUAGE PROCESSING TO RETRIEVE PROTECTED VIDEO CONTENT ON THE WEB Auteur / Author: Nabil BOUZERNA Tuteur / Tutor: M. Jean-Pierre FRANZINETTI, Chef de projet, ADVESTIGO S.A. Centre d’intérêts : Intelligence artificielle, système de recherche d’information, reformulation de requête, algorithme génétique, traitement automatique des langues. Index terms: Artificial intelligence, information retrieval system, query reformulation, genetic algorithm, natural language processing. Résumé : Ce mémoire présente un système de recherche de contenus vidéos protégés mis en ligne sur le Web fondé sur l’analyse des échanges textuels présent sur les blogs et forums. Cette analyse textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3 profils : statistique, linguistique et descriptif des documents. Puis ce système associe une approche de reformulation de requête (boucle de rétroaction de pertinence) à partir de documents trouvés et les techniques de l’algorithmique génétique pour mimer le comportement du cerveau humain dans le choix des termes de requêtes les plus pertinents. Abstract: This master thesis presents a search system to retrieved protected video content published illegally on the Web thanks to analysis of textual exchanges present on blogs and forums. This textual analysis is materialized by a lexical fingerprint which is composed according to 3 profiles: statistical, linguistic and descriptive of the documents. Then this system combines a query reformulation approach (relevance feedback loop) from found documents and techniques of genetic algorithmic to mimic the behavior of the human brain in the choice of the most relevant query terms.
  • 3. 3/94 SOMMAIRE I. PREAMBULE ET ENVIRONNEMENT .................................................................................................................. 11 1. OBJET DU DOCUMENT ................................................................................................................................................ 11 2. PRESENTATION ENTREPRISE ....................................................................................................................................... 12 Historique et activité...................................................................................................................................................... 12 AdvestiSEARCH™ ........................................................................................................................................................ 12 Le pôle PSO (Professional Services Organization)........................................................................................................ 12 3. CONTEXTE SOCIAL ET PROBLEMATIQUE INDUSTRIELLE ............................................................................................... 13 UGC : User Generated Content ..................................................................................................................................... 13 Problématique pour l’industrie des médias.................................................................................................................... 13 Objet du projet d’Ingénieur............................................................................................................................................ 13 4. CONTEXTE SCIENTIFIQUE DU PROJET .......................................................................................................................... 14 Présentation synthétique du projet PIITHIE .................................................................................................................. 14 Partenaires développeurs................................................................................................................................................................ 15 Partenaire valideur ......................................................................................................................................................................... 15 Périmètre du projet d’Ingénieur au sein du projet PIITHIE........................................................................................... 15 II. ÉTAT DE L’ART ........................................................................................................................................................ 16 1. RECHERCHE D’INFORMATION (RI) ............................................................................................................................. 16 Présentation du domaine................................................................................................................................................ 16 Modèles conceptuels de la Recherche d’Information .................................................................................................... 16 Modèle vectoriel............................................................................................................................................................ 17 Algorithme génétique .................................................................................................................................................... 19 Qu’est ce qu’un algorithme génétique ? ......................................................................................................................................... 19 Propriétés et concepts de base des algorithmes génétiques............................................................................................................. 19 2. TRAITEMENT AUTOMATIQUE DES LANGUES (TAL) ................................................................................................... 20 Intelligence Artificielle et Linguistique ......................................................................................................................... 20 Reconnaissance d’entités nommées............................................................................................................................... 21 Analyse syntaxique de surface (ou morpho-syntaxique) ............................................................................................... 21 3. ÉVALUATION DES SYSTEMES DE RECHERCHE D’INFORMATION ................................................................................... 22 III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES.......................................................................... 23 1. ANALYSE DES COMPORTEMENTS, HYPOTHESES ET DEMARCHE GENERALE. .................................................................. 23 2. ANALYSE ET CONCEPTION DU SYSTEME DE RECHERCHE D’INFORMATION : SPY-DER.................................................. 24 Définition des besoins et contraintes du SRI ................................................................................................................. 24 Modélisation UML et conception architecturale orientée objet ..................................................................................... 26 Exigences du système : Diagramme des cas d’utilisation............................................................................................................... 26 Processus de haut niveau du système : diagramme d’activité de l’expansion de requêtes. ............................................................. 27 Architecture physique des composants : Web Services ................................................................................................. 28 Prolongement des travaux d’analyses et conception du SRI.......................................................................................... 29 IV. REALISATIONS TECHNIQUES : L’EMPREINTE LEXICALE.................................................................... 30 1. POINTS DE METHODE.................................................................................................................................................. 30 Représentation numérique des textes : modèle vectoriel. .............................................................................................. 30 Vecteur de fréquence locale........................................................................................................................................... 30 Fréquences des occurrences de mots dans le bloc texte.................................................................................................................. 30 Méthode des segments répétés ....................................................................................................................................................... 31 Traitement linguistique : analyse morphosyntaxique..................................................................................................... 32 Extraction d’entités nommées ........................................................................................................................................................ 32 Retrait des mots vides et extraction des mots pleins....................................................................................................................... 33 Extraction des termes ..................................................................................................................................................................... 34 Extraction de construction véhiculant une information quantitative............................................................................................... 34 Extraction de construction véhiculant une information temporelle................................................................................................. 35 Implantation future : moteur de règle XML .................................................................................................................................. 35 Approche descriptive : structure HTML........................................................................................................................ 35 Heuristiques d’affaiblissement du bruit.......................................................................................................................................... 36 Mesures de similarités et distances entre vecteurs ......................................................................................................... 37 Métrique ou distance inter-objet..................................................................................................................................................... 38 Indice ou coefficient de similarité .................................................................................................................................................. 38 Schéma de pondération.................................................................................................................................................. 38 Ressources et outils linguistiques .................................................................................................................................. 39
  • 4. 4/94 2. ÉVALUATION ET PROLONGEMENT DES TRAVAUX ........................................................................................................ 39 Protocole d’évaluation................................................................................................................................................... 39 Évaluation de l’empreinte lexicale................................................................................................................................. 40 Prolongement des travaux de l’empreinte lexicale ........................................................................................................ 41 V. REALISATIONS TECHNIQUES : EXPANSION DE REQUETES ...................................................................... 42 1. PROCESSUS GENETIQUE SPECIFIQUE A LA REFORMULATION DE REQUETE. .................................................................... 42 Définition du problème d’optimisation.......................................................................................................................... 42 Fonction d’injection de pertinence................................................................................................................................. 42 Modélisation du problème en algorithme génétique ...................................................................................................... 42 Codage des solutions...................................................................................................................................................................... 42 Choix de la population initiale ....................................................................................................................................................... 43 Choix des opérateurs...................................................................................................................................................................... 43 Mode d’application des opérateurs................................................................................................................................................. 44 Renouvellement des générations .................................................................................................................................................... 45 Arrêt de l’évolution........................................................................................................................................................................ 46 Implantation applicative de l’algorithme génétique........................................................................................................................ 46 2. REALISATION DES METAMOTEURS .............................................................................................................................. 47 Nombre de termes des requêtes ..................................................................................................................................... 47 Implantation du module de gestion des moteurs de recherche....................................................................................... 48 3. IMPLANTATION DU MODULE DE SEGMENTATION FORUM ET BLOGS EN BLOC DE TEXTE ................................................. 50 4. RAPATRIEMENT LOCAL DES FICHIERS VIDEOS SUSPECTS (FORMAT FLV) ..................................................................... 53 5. ÉVALUATION DES RESULTATS DE L’ENRICHISSEMENT DE REQUETE.............................................................................. 53 Évaluation préliminaire sur un corpus d’actualité en français. ...................................................................................... 54 Évaluation préliminaire ciblée sur les blogs et la plateforme UGC YouTube en anglais............................................... 57 6. RETROSPECTIVE DES REALISATIONS TECHNIQUES DU SRI SPY-DER............................................................................. 60 Boucle de rétroaction de pertinence............................................................................................................................... 60 Empreinte lexicale et extraction de terminologie ........................................................................................................................... 60 Enrichissement à partir des documents trouvés.............................................................................................................................. 60 Limites du SRI ............................................................................................................................................................................... 60 Conclusion ..................................................................................................................................................................................... 60 VI. APTITUDES ET COMPETENCES NON TECHNIQUES ................................................................................ 61 1. MODE PROJET ET RELATIONS HUMAINES..................................................................................................................... 61 Communication ............................................................................................................................................................. 61 Communication en interne ............................................................................................................................................................. 61 Communication externe ................................................................................................................................................................. 61 Développement des aptitudes personnelles.................................................................................................................... 62 Connaissance de soi ....................................................................................................................................................................... 62 Adaptabilité ................................................................................................................................................................... 63 Singularité des partenaires.............................................................................................................................................................. 63 Recherche du compromis minimal................................................................................................................................................. 64 2. RESOLUTION DES PROBLEMES ET PRISES DE DECISIONS ............................................................................................... 64 Recherche d’information ............................................................................................................................................... 65 Abstraction et modélisation ........................................................................................................................................... 65 Choix d’implantation..................................................................................................................................................... 66 Choix du modèle conceptuel en RI : prise de risque et innovation ................................................................................ 67 Planification et gestion du quotidien.............................................................................................................................. 68 Engagement et responsabilité ........................................................................................................................................ 68 3. ENJEUX STRATEGIQUES SOUS CONTRAINTES ECONOMIQUES ET JURIDIQUES ................................................................. 69 Suivi budgétaire et gestion des ressources..................................................................................................................... 69 Obligations et contraintes légales .................................................................................................................................. 70 Contraintes légales spécifiques au projet et à l’entreprise : propriété intellectuelle........................................................................ 70 Les droits d’auteur en France ......................................................................................................................................................... 71 Droit des exploitants de base de données ....................................................................................................................................... 72 Mondialisation croissante de la propriété intellectuelle et divergence............................................................................................ 72 Intégration des orientations stratégiques et internationales............................................................................................ 73 VII. CONCLUSION ET PERSPECTIVE.................................................................................................................... 75 1. BILAN........................................................................................................................................................................ 75 Savoir-faire.................................................................................................................................................................... 75 Savoir-être ..................................................................................................................................................................... 75 2. PERSPECTIVES ........................................................................................................................................................... 76 VIII. ANNEXES............................................................................................................................................................... 78 1. REFERENCES BIBLIOGRAPHIQUES ............................................................................................................................... 78 2. PRESENTATION DES LOTS DU PROJET PIITHIE............................................................................................................ 79 Vue globale des lots....................................................................................................................................................... 79 Lot 3.1 : Empreinte lexicale d’un document.................................................................................................................. 80 Lot 3.2 : Extraction de requêtes optimisées pour les moteurs du Web........................................................................... 80 3. ARCHITECTURE GENERALE DETAILLEE ....................................................................................................................... 81
  • 5. 5/94 Synopsis de l’architecture générale du Spy-der ............................................................................................................. 81 4. MESURES ET DISTANCES IMPLANTEES POUR L’EVALUATION........................................................................................ 89 5. « XML BLOCK FACTORY »........................................................................................................................................ 91 6. ÉVALUATION DE L’EXPANSION DE REQUETES.............................................................................................................. 92 7. GESTION DE BUDGET.................................................................................................................................................. 93 8. PLANNING PREVISIONNEL DETAILLE ........................................................................................................................... 94 FIGURES Figure 1 - Exemple de vecteur dans un espace à 2 dimensions. .............................................. 18 Figure 2 - Structure générale d'un algorithme génétique ......................................................... 19 Figure 3 - Exemple d'analyse syntaxique de surface................................................................ 21 Figure 4 - Diagramme de cas d'utilisation du SRI ................................................................... 26 Figure 5 - Diagramme d'activité de l'expansion de requêtes.................................................... 27 Figure 6 - Architecture conceptuelle des Web Services .......................................................... 29 Figure 7 - Résultat de l'heuristique de réduction du bruit ........................................................ 37 Figure 8 - Normalisation des vecteurs de fréquence................................................................ 39 Figure 9 - Exemples des prétraitements appliqués aux articles de presse................................ 40 Figure 10 - Implantation de l’empreinte lexicale et de l’aspirateur « Google News » ............ 41 Figure 11 - Implantation de l'algorithme génétique ................................................................. 46 Figure 12 - Boucle de rétroaction de pertinence ...................................................................... 47 Figure 13 - Pourcentage de visites engendrées en fonction du nombre de mots par requête... 48 Figure 14 - Pourcentage de pages visitées en fonction du nombre de mots par requête.......... 48 Figure 15 - Diagramme de classe du « package » métamoteur................................................ 49 Figure 16 - Fichier XML du contexte du SRI Spy-der ............................................................ 50 Figure 17 - Fichier XML de description des balises html pour la segmentation de forum...... 51 Figure 18 - Fichier XML de description des balises html pour la segmentation de blog ........ 52 Figure 19 - Descriptions des patrons de lien (URL) vers les sites UGC.................................. 52 Figure 20 - Aspiration des fichiers vidéos sur les sites UGC................................................... 53 Figure 21 - Document de référence de la recherche................................................................. 54 Figure 22 - Base de données d'actualités.................................................................................. 55 Figure 23 - Stockage des résultats des recherches ................................................................... 56 Figure 24 - Comparaison des stratégies d'évolutions : (S1) vs (S2) ........................................ 57 Figure 25 - Segmentation de blog ............................................................................................ 58 Figure 26 - Base de données pour l’évaluation blog/UGC ...................................................... 58 Figure 27 - Limitation par le moteur de recherche de Google Blog en phase d’évaluation .... 59 Figure 28 - Contournement des limitations de Google Blog par voie logicielle...................... 59 Figure 29 - Vue globale des lots du projet PIITHIE ................................................................ 79 Figure 30 - Symbolique du Web Services................................................................................ 81 Figure 31 - Amorce du système ............................................................................................... 81 Figure 32 - Calcul des empreintes numériques ........................................................................ 82 Figure 33 - Génération de la requête initiale............................................................................ 83 Figure 34 - Traitements post et pré interrogation des moteurs de recherche ........................... 83 Figure 35 - Aspiration et analyse des pages web de blog et forum.......................................... 84 Figure 36 - Comparaison d’empreintes numériques lexicales ................................................. 84 Figure 37 - Aspiration d'une vidéo suspecte depuis les sites UGC.......................................... 85 Figure 38 - Comparaison empreintes numériques vidéos ........................................................ 86 Figure 39 - Incident et rappel d'empreinte lexicale.................................................................. 86 Figure 40 - Injecteur de pertinence et boucle de rétroaction.................................................... 87 Figure 41 - Architecture générale détaillée.............................................................................. 88 Figure 42 - Outil "XML Block Factory".................................................................................. 91 Figure 43 - Planning prévisionnel détaillé ............................................................................... 94
  • 6. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 6/94 TABLES Tableau 1 - Vue système et environnement .......................................................................................... 25 Tableau 2 - Coefficient des constructions et termes extraits................................................................. 38 Tableau 3 - Nombre de mots par requête en Europe (à gauche) et au Canada (à droite)...................... 47 Tableau 4 - Budget prévisionnel ........................................................................................................... 69 Tableau 5 - Tableau de suivi : statut du budget au 30/11/2007............................................................. 70 Tableau 6 - Mesure de similarité entre vecteurs de documents textuels. .............................................. 89 Tableau 7 - Distance entre des vecteurs de documents textuels............................................................ 90 Tableau 8 - Liste détaillée des équipements.......................................................................................... 93 Tableau 9 - Liste détaillée des documentations..................................................................................... 93 EQUATIONS Équation 1 - Mesure du cosinus ............................................................................................................ 89 Équation 2 - Coefficient de Dice........................................................................................................... 89 Équation 3 - Indice de Jaccard .............................................................................................................. 89 Équation 4 - Distance entropique .......................................................................................................... 90 Équation 5 - Distance de Kullback-Leibler........................................................................................... 90 Équation 6 - Distance du Chi2 .............................................................................................................. 90 Équation 7 - Distance de Minowski ...................................................................................................... 90 Équation 8 - Distance Euclidienne ........................................................................................................ 90 Résumé Ce mémoire présente les travaux effectués dans le cadre du projet PIITHIE : Plagiat et Impact de l'Information Textuelle recHerchée dans un contexte Interlingue. Ce projet s´inscrit dans un mouvement de plus en plus important de maîtrise de l’information numérique diffusée sur le Web. L’objet de mes travaux s’attache plus particulièrement à un phénomène de société que constitue les plateformes de partage vidéos, identifiées sous l’acronyme de l’anglicisme User Generated Content : UGC. Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de plus en plus d'ampleur. Or, une des nouvelles composantes du web consiste à faire de l'internaute le rédacteur, le concepteur et l'acteur du concept. C’est de cet engouement mondial qu’est né l’inquiétude de l’industrie des médias. En effet, les UGC gèrent plusieurs dizaines de milliers de nouveau contenu vidéo mis à disposition tous les jours. Ils risquent en permanence d’héberger et de distribuer de façon involontaire des contenus protégés par le droit d’auteur. Ce projet d’ingénieur vise essentiellement la réalisation d’un Système de Recherche d’Information (SRI). Il est dédié à la détection de contenu vidéo protégé sur ces plateformes de partage vidéo dans le cadre d’une application de surveillance et de mesure.
  • 7. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 7/94 Pour cela, nous émettons l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou non, est accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement décrit. Les espaces de discussions entre internautes autour d’une thématique, à l’instar des forums et blogs, constituent des lieux propices à cette publicité. La fouille de ces lieux par des traitements automatisés constituera un des fondements de notre SRI. L’un des enjeux de la linguistique appliquée à l’informatique est d’améliorer la précision et le rappel dans les outils de recherche [a][b]. Cette connaissance supplémentaire intégrée dans l’empreinte lexicale, permet d’améliorer l’évaluation de la proximité entre deux contenus textuels tout en tenant compte de la description des documents Web et des aspects statistiques classiques. Ces 3 profils de l’empreinte lexicale constituent le second fondement de notre SRI. La pléthore de littérature, autour des SRI, fait émerger l’apprentissage comme une dimension incontournable du processus de recherche. Pour appréhender cette dimension, les Algorithmes Génétiques (AG) constituent un cadre formel ad hoc pour la modélisation de l’apprentissage dans un SRI. Les deux propriétés fondamentales d’un AG, que sont le « parallélisme implicite » et l’ « équilibre entre exploitation et exploration », justifient ce choix. L’application d’un AG cible deux objectifs d’optimisations dans ces travaux :  Problème du passage à l’échelle : optimiser l’exploration et le traitement d’un grand volume d’informations que constitue le Web. L’une des premières étapes, nécessaire aussi à l’amélioration des recherches, passe par l’analyse de la composition de ces textes et sa prise en compte dans le traitement linguistique. Comme le relève Jean Véronis « jusqu’ici , les systèmes de TAL ont presque tous “ fait comme si ” les documents étaient du texte brut ». Naturellement, la structure des documents est très importante dans des documents complexes comme les blogs et forums.  Représentation optimale des requêtes posées aux moteurs de recherche. Dans ce domaine, l’une des stratégies les plus largement adoptées est la reformulation de requête [3]. En s’inspirant des travaux de Mohand Bouganhem et Linda Tamine [2] sur la « Reformulation automatique de requête basée sur l'algorithmique génétique » et de Filippo Menczer [1]. L’originalité et la finalité étant d’effectuer une reformulation directe (sans intervention de l’utilisateur) dans un contexte local, c'est-à-dire, basé sur les résultats de la recherche en cours. Ce processus génétique qui guide l’exploration de l’espace de recherche constitue le troisième et dernier fondement de notre SRI. L’ensemble de ces techniques combinées permet d'améliorer les performances et d'accroître le potentiel de recherche des outils de la société Advestigo en quantifiant le piratage sur les plateformes UGC. La finalité étant de fournir un service de recherche de contenus aux sociétés d'auteurs et aux majors de l'industrie audiovisuelle inquiètent du piratage des œuvres dont elles détiennent les droits. Enfin, le contexte relationnel du projet PIITHIE fut pour moi inédit du fait de ses parties prenantes : la coopération entre entité publique et privée avec une exigence d’innovation. Ce contexte suppose une adaptation aux spécificités de chaque acteur pour que chacun travaille dans un esprit d'intérêt général de tous les acteurs. Cela suppose un certain degré de confiance et de compréhension. Empreinte lexicale : [a] Claude de Loupy, Eric Crestan ; SRI et traitement du langage naturel ; dans l’ouvrage Systèmes de recherche d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004. [b] Fidelia Ibkwe-Sanjuan ; Chapitre 8 – Catégorisation des textes et extraction d’information ; dans l’ouvrage Fouille de textes : méthodes, outils et applications ; Éditions Hermès ; 2007. Expansion de requête et algorithme génétique : [1] Filippo Menczer; Complementing search engines with online web mining agents ; dans l’article de presse Decision Support Systems, Elsevier Science B.V. ; Department of Management Sciences, The University of Iowa, USA ; 2002 [2] Mohand Boughanem, Linda Tamine ; Connexionnisme et génétique pour la recherche d’information ; dans l’ouvrage Systèmes de recherche d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004.
  • 8. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 8/94 [3] Patrice Bellot ; Classification de documents et enrichissement de requêtes ; dans l’ouvrage Méthodes avancées pour les systèmes de recherche d’informations, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004. Remerciements Je tiens à exprimer tous mes remerciements à Marc-Michel Pic pour m'avoir permis de réaliser ma formation en partenariat avec son entreprise Advestigo et pour le crédit qu’il m’a accordé en me confiant la coordination du projet PIITHIE. Je remercie vivement Jean-Pierre Franzinetti pour sa disponibilité et sa bienveillance pendant ces deux années. J’exprime aussi ma gratitude à Xavier Urbain pour ses conseils utiles (en particulier pour ce mémoire) et son exigence qui a su me dynamiser. Naturellement je remercie ma famille, et en particulier mon père et Salima pour avoir relu mon travail avec attention. Je tiens à remercier également Mehdi Ali Larbi et Houari Lakelkal pour les conseils et les relectures qui m'ont été utiles.
  • 9. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 9/94 Tuteur pédagogique Xavier URBAIN Maître de conférences Tuteur en entreprise Jean-Pierre FRANZINETTI Chef de projet - Ingénieur Page 9 Date 30/09/07 Auteur Nabil BOUZERNA ENSIIE FIP XI 2006/2007 Validation entreprise Jean-Pierre FRANZINETTI Période 2nd semestre 2007 Algorithme génétique et traitement linguistique pour la recherche de contenus vidéos protégés en environnement Web Type de document : Mémoire d’Ingénieur Titre du document : Algorithme génétique et traitement linguistique pour la recherche de contenus vidéos protégés en environnement Web. Date du stage : du 09/01/2006 au 20/12/2007 Lieu du stage : ADVESTIGO S.A. 1 Rue Royale, Bureaux de la Colline, Bât. D, 9ième étage. 92213 Saint-Cloud, France Période d’activité : du 01/07/2007 au 20/12/2007 Descriptif : Ce mémoire présente un système de recherche de contenu vidéo protégé mis en ligne sur le Web fondé sur l’analyse des échanges textuels présents sur les blogs et forums. Cette analyse textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3 profils : statistique, linguistique et descriptif des documents. Puis ce système associe une approche de reformulation de requête à partir de documents trouvés et les techniques de l’algorithmique génétique. Diffusion : Organisation ou Entreprise Destinataires Nombre de copies Pour Action Info ENSIIE Xavier URBAIN 1 X ADVESTIGO Jean-Pierre FRANZINETTI 1 X
  • 10. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 10/94 ENSIIE Administration ENSIIE 2 X ADVESTIGO Administration ADVESTIGO 1 X
  • 11. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 11/94 2006/2007 11/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement I. PREAMBULE ET ENVIRONNEMENT 1. Objet du document Dans le cadre de mon projet d’ingénieur à l’ENSIIE, je présente dans ce mémoire la teneur de mes travaux en entreprise. Ces travaux consistent à réaliser un Système de Recherche d’Information pour la détection de contenu audiovisuel protégé dans un environnement Web. Il débute au sein de cette section, par une briève description de mon environnement de travail. Ce dernier est constitué par la société Advestigo, du service de surveillance AdvestiSEARCH™ et du pôle dans lequel j’évolue qui est en charge d’exploiter ce service. Cette description sera suivie par une présentation du contexte social et de la problématique industrielle induite. Enfin, il décrit le projet de recherche plus vaste auquel s’intègre mon projet d’ingénieur : le projet PIITHIE. Dans une deuxième section, il présente les résultats des travaux préliminaires de documentation dans une synthèse. Cet état de l’Art reprend succinctement les principaux concepts utiles à la compréhension des travaux de réalisation du SRI. Puis, dans la troisième section, il expose le phénomène auquel s’adresse le SRI. Il s’ensuit une analyse des comportements et usages des internautes utiles à la fouille. Enfin il présente les résultats de travaux d’Analyse et de Conception du SRI couvrant les techniques et méthodes usuelles en maîtrise d’ouvrages des Systèmes d’Informations : définition des besoins, contraintes du système, modélisation et spécification d’une architecture. Dans une quatrième section plus technique, il aborde la mise en œuvre d’une empreinte lexicale en développant les points de méthodes clés dans sa réalisation. Il termine en présentant les principaux apports de cette nouvelle implantation au travers d’une évaluation. Dans une cinquième section, également d’un point de vue maîtrise d’œuvre, il développe un élément central de mes travaux : la reformulation et l’expansion de requêtes guidées par un processus génétique. À l’instar de la section précédente, une présentation et une évaluation des apports clôturent cette section. La sixième et dernière section est un regard introspectif sur des difficultés rencontrées dans mes missions d’interface au sein du projet PIITHIE. Elles sont développées dans un premier temps selon une dimension relationnelle fondamentale dans le fonctionnement en projet. Dans un second temps, les méthodologies et organisations mises en œuvre pour appréhender la complexité de ces travaux justifient mes décisions. Enfin, il remet en perspective mes travaux sous des contraintes budgétaires et légales, ainsi que mon mode d’appropriation des orientations stratégiques d’Advestigo dans mes choix d’actions. Note d’avancement du projet PIITHIE au 01/12/2007: À ce jour, le projet PIITHIE connaît un retard de six mois par rapport à la planification prévisionnelle. Concrètement, les lots « Empreinte lexicale d’un document (Lot 3.1) » et « Extraction de requêtes optimisées pour les moteurs du Web (Lot 3.2) » n’ont pas encore été abordés à ce jour. Les réalisations décrites demeurent le fruit exclusif de mes travaux afin de répondre à un besoin urgent et clairement identifié pour mon entreprise. Et, en parallèle, ces deux lots constituent une problématique passionnante et complexe pour mon projet d’ingénieur.
  • 12. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 12/94 2006/2007 12/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 2. Présentation entreprise Historique et activité Advestigo a été créée en octobre 2002 par le Dr Hassane Essafi et le Dr Marc-Michel Pic, tous deux issus de la recherche publique au CEA-LETI. Aujourd’hui, Advestigo est un acteur français majeur de la "Protection d'Actifs Numériques". Sa technologie unique et brevetée de calcul d'empreintes numériques (la "Théraographie™ ") permet de reconnaître des copies exactes ou approchées, totales ou partielles d'un contenu original. AdvestiSEARCH™ Advestigo est l’un des trois lauréats 2006, pour son système AdvestiSEARCH™ , du grand prix européen IST (Technologies de la société de l'information) qui récompense chaque année les entreprises les plus innovantes dans l'univers de la société de l'information. Pour répondre à la problématique de piratage de leurs catalogues dont souffrent les industries de média (musique, cinéma, jeu et presse en ligne), Advestigo a développé une gamme de services qui permet de mesurer le piratage d’une œuvre ou d’un catalogue de titres, mais aussi de surveiller et de défendre ce patrimoine commercial. Cette gamme de solutions s’étend de l’étude statistique générale (morceaux de musique ou films, séries télévisuelles ou jeux vidéo) ou à façon (surveillance d’un catalogue de titres particulier) jusqu’à la détection des machines mettant en partage des contenus protégés ou illégaux. AdvestiSEARCH™ est un service destiné à repérer automatiquement les contenus plagiés ou piratés, pour forcer à la régularisation, au respect des droits et pour aider, grâce à l'accumulation de preuves, d'éventuelles actions en justice. Il s'agit d'un système de reconnaissance de contenus numériques multimédias (audio, vidéo, image et texte). Les services d’Advestigo reposent sur sa technologie de Théraographie™. Le pôle PSO (Professional Services Organization) Dans le but de s’adapter aux différents besoins des entreprises, le pôle PSO dirigé par M. Marc-Michel Pic, assure la personnalisation des services AdvestiSEARCH™. Son équipe de consultants adapte les services en ligne (fouille à façon de sites ou de contenus fixes, expertise sur des contenus spécifiques, service de conservation certifié,…) selon des spécifications propres. Par ailleurs, les experts peuvent réaliser à la demande des études de mesures et de statistiques sur le piratage et le plagiat. Le pôle PSO propose, en outre, des activités de conseil orientées autour du piratage et du plagiat.
  • 13. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 13/94 2006/2007 13/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 3. Contexte social et problématique industrielle UGC : User Generated Content Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de plus en plus d'ampleur. Dans cet esprit, on assiste à des changements d'usage dans l’Internet. D’ailleurs, l’une des nouvelles composantes du web consiste à faire de l'internaute le rédacteur, le concepteur et l'acteur du concept. Les internautes veulent participer, donner leur avis, publier et partager. On assiste donc à une explosion du contenu généré par les utilisateurs1 (User Generated Content) et bien évidemment des sites ou services qui proposent aux internautes de publier leur propre contenu. De plus, les internautes ont été la personnalité de l’année 2006 du prestigieux Time Magazine. Ils ont en effet contribué largement à de nombreux succès sur Internet à savoir YouTube, MySpace, Digg, Facebook,… Ces sites vont être des plates-formes de blogs mais aussi ce qui est en train de remplacer les blogs : des Réseaux Sociaux2 . Mais des réseaux sociaux au sens où le bénéfice utilisateur est la socialisation qu'il en retire. À partir du moment où l'enjeu est de partager des contenus pour développer de la notoriété, sa liste d'amis et globalement socialiser, il est logique que les UGC étendent la palette des contenus à partager à la vidéo. Cette évolution multi support pose une question de fond sur la propriété numérique de ce que l'utilisateur met en ligne. Problématique pour l’industrie des médias Films, série télévisuelle, clips musicaux, retransmission sportive,… sont autant de contenus vidéos, qui une fois copiés se répandent rapidement sur Internet dès leur diffusion. Un manque à gagner pour les ayants droit qui s’inquiètent de la montée de ce phénomène. Un événement sportif peut être enregistré lors de sa diffusion, copié et redistribué sur un site de partage tel YouTube. Dès lors, la chaîne de télévision n'a d'autres recours que de scruter Internet pour y repérer les vidéos frauduleuses. Un travail systématique impossible à mettre en oeuvre. Sur le seul site YouTube, « 65 000 nouvelles vidéos sont postées chaque jour ». Deux solutions sont envisageables :  Filtrer le contenu vidéo au moment de la mise en ligne par les utilisateurs. Cette solution est implantée dans le produit Advestigo : AdvestiGATE™ . Elle implique la coopération des plateformes UGC pour une installation en interne.  En l’absence d’accord de coopération, la protection des ayants droits passe par l’automatisation des recherches de l’extérieur des plateformes (cadre de mes travaux). Objet du projet d’Ingénieur Les sites de partages vidéo, devant gérer plusieurs dizaines de milliers de nouveaux contenus vidéo mis à disposition tous les jours, risquent en permanence d’héberger et de distribuer, de façon involontaire, des contenus protégés par le droit d’auteur. Les évolutions apportées par ces travaux dans l’outil AdvestiSEARCH, visent à fouiller automatiquement Internet en vue de localiser un contenu vidéo protégé mis en ligne illégalement sur les plateformes UGC, empêchant ainsi les violations accidentelles du droit d’auteur. 1 Dans le reste du document, on s’autorisera d’identifier les sites de contenu générés par les utilisateurs et les plateformes de partage vidéo par l’acronyme de la traduction anglaise User Generated Content: UGC. 2 On appelle réseau social, une communauté d'individus reliés entre eux, selon les cas, par : des origines, des centres d'intérêts, des besoins, des points de vue… proches ou similaires. Aujourd'hui, le terme réseau social s'applique en particulier au domaine de l'Internet. Il désigne alors un site web qui, dans un domaine quelconque, fédère des individus et facilite leurs échanges d'informations, d'images, de vidéos,…
  • 14. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 14/94 2006/2007 14/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 4. Contexte scientifique du projet Par ailleurs, ces travaux s’intègrent dans un projet de recherche RNTL3 plus vaste et identifié sous l’acronyme de PIITHIE: Plagiat et Impact de l'Information Textuelle recHerchée dans un contexte InterlinguE. Programme Technologies Logicielles 2006 Présentation synthétique du projet PIITHIE Le projet PIITHIE s´inscrit dans un mouvement de plus en plus important de maîtrise de l´information diffusée. Il vise premièrement la détection de plagiats de textes. Les techniques de traitement automatique des langues (TAL), devraient permettre d'améliorer les performances et d'accroître le potentiel de recherche des outils d'Advestigo et de Sinequa. Le deuxième objectif concerne le suivi d´impact : les diffuseurs d'informations sont très intéressés par la possibilité d´évaluer l´impact de leur production (perception et notoriété). Aujourd´hui cette évaluation est faite par une étude manuelle alors que des méthodes automatiques sont possibles. Les traitements nécessaires à ces deux applications sont de même nature ; ils demandent seulement un paramétrage différent, selon que l´on cherche une copie illégale de l´information ou une utilisation parfaitement légale dont le contenu peut être très divergent. Les principaux verrous de ce projet concernent :  la capacité à évaluer la proximité de deux contenus textuels en tenant compte des différents phénomènes de réécriture ;  l'extraction de termes suffisamment représentatifs d'un document, pour pouvoir retrouver des documents similaires sur Internet, en posant des requêtes à un moteur classique ;  la détection de citations dont il faut tenir compte pour l'évaluation d'impact et qui perturbent la détection de plagiat. Afin de gérer l'ensemble des phénomènes impliqués (réécriture, paraphrase, imitation, etc.) plusieurs types d'analyses linguistiques seront appliqués et testés afin de déterminer quel est leur apport. Les objectifs de ce projet sont donc l’utilisation de techniques de Traitement Automatique des Langues (TAL) à la détection de plagiat et au suivi d’impact d’une information. L’évaluation de l’apport de ces techniques est fondamentale. Globalement, l’évaluation est un élément essentiel du projet et une grande part de l’effort y est consacrée. Les méthodologies d’évaluation ainsi que les corpus associés seront diffusés à la communauté à la fin du projet. 3 Le Réseau National de recherche et d’innovation en Technologies Logicielles (RNTL) a été mis en place, fin 1999, par le Ministère délégué à la Recherche et le Ministère délégué à l’Industrie. Le RNTL a été renouvelé en 2005, dans le cadre de l'Agence Nationale de la Recherche (ANR). Il a reçu comme mission, de favoriser la constitution de projets innovants de recherche et de développement coopératif entre entreprises du secteur privé et les équipes de la recherche publique.
  • 15. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 15/94 2006/2007 15/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement Partenaires développeurs Les partenaires de ce projet sont :  La société Advestigo a mis au point un outil de détection de plagiat qui peut analyser à la fois des flux de données et chercher directement sur Internet, dans des sites non ciblés au départ.  Le Laboratoire Informatique d’Avignon (LIA) dont la principale thématique de recherche concerne le traitement automatique du langage naturel, écrit et oral, a développé de nombreux systèmes dont les finalités peuvent s’inscrire dans ce projet : recherche d’informations, classification et catégorisation automatiques, segmentation thématique, désambiguïsation sémantique, résumé automatique.  Le Laboratoire d’Informatique de Nantes Atlantique (LINA), son équipe de recherche TALN, s'intéresse aux traitements informatiques portant sur des données textuelles écrites, et plus particulièrement sur l’exploration des données textuelles pour en extraire des informations linguistiques relevant de tous les niveaux du traitement de la langue : morphologique, lexical, syntaxique, sémantique et pragmatique.  La société Sinequa, porteuse du projet, commercialise des outils de gestion de l’information, en particulier un moteur de recherche, Intuition. Celui-ci utilise une représentation thématique des documents en se basant sur des analyses linguistiques. Les travaux se feront sur des articles de journaux, des dépêches d’agences et des discours. Le tout se fera dans un contexte inter-lingue impliquant trois langues : français, anglais, arabe. Partenaire valideur Le groupe TNS Sofres Media Intelligence (études marketing et d'opinion) participe au projet en tant que « client » qui exprimera les besoins et validera les solutions proposées par les partenaires développeurs. Périmètre du projet d’Ingénieur au sein du projet PIITHIE Ma participation au projet PIITHIE a débuté au mois de février 2007 au travers de différentes réunions de travail à Paris et au Laboratoire d’Informatique de Nantes Atlantique. Pour ma part, je suis en charge de représenter et coordonner le projet pour le compte d’Advestigo. Je suis aussi en responsabilité des études et développements de certains lots à la charge d’Advestigo, tels qu’ils ont été définis dans l’organisation du projet PIITHIE. Mais bien plus en lien avec la problématique de mon projet d’ingénieur (UGC), ce mémoire développe mes réalisations techniques qui recouvrent les deux lots suivants du projet PIITHIE :  Empreinte lexicale d’un document (Lot 3.1)  Extraction de requêtes optimisées pour les moteurs du Web (Lot 3.2) Nota bene : Une vue d’ensemble des lots du projet PIITHIE ainsi qu’une description complète de chacun des deux lots est disponible en annexe 2 - Présentation des lots page 79.
  • 16. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 16/94 2006/2007 16/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art II. ÉTAT DE L’ART Cette section présente succinctement les principaux concepts utiles à la compréhension des travaux qui seront détaillés dans la section suivante. Naturellement, elle ne se prétend pas exhaustive sur les disciplines évoquées. Néanmoins, il est proposé au lecteur un ensemble de références bibliographiques destinées à approfondir chaque thématique. L’objectif second visé par cet État de l’Art sur les deux disciplines est d’effectuer une synthèse des techniques avancées. Ceci afin de sélectionner les approches ad hoc en vue d’une application opérationnelle dans les outils de surveillance et de mesure à l’issue de la période du projet d’Ingénieur. La présentation du sujet effectuée dans la section Objet du projet d’Ingénieur page 13, nous amène à considérer des aspects théoriques de la Recherche d’Informations (RI) et certaines techniques de Traitement Automatique des Langues (TAL). 1. Recherche d’Information (RI) Présentation du domaine Les Systèmes de Recherche d’Information (SRI) s’inscrivent dans une longue pratique documentaire. Ils visent à retrouver dans une base documentaire un sous-ensemble de documents pertinents au regard du besoin de l’utilisateur qui l’exprime sous la forme d’une requête. Dans les moteurs de recherche accessibles sur Internet, les systèmes de recherche d’information sont associés à des robots (crawler, spider, butineurs) qui construisent et mettent à jour une base documentaire à partir des pages accessibles sur la toile [5]. Le principe de la Recherche d’Information consiste à confronter une requête aux documents d’une base documentaire pour identifier les documents les plus proches sémantiquement de la requête. Cela suppose de représenter de manière homogène les documents et la requête : une méthode très classique consiste à les représenter sous forme d’un vecteur de mots, les mots ayant des poids calculés sur la base de critères statistiques [7][13]. On évalue généralement les systèmes de RI en mesurant leur capacité à retrouver tous les documents pertinents (rappel) et uniquement ceux-là (précision). Modèles conceptuels de la Recherche d’Information Traditionnellement, la recherche d’information propose cinq grandes familles4 de modèle :  Le modèle booléen ou ensembliste [13], qui repose sur la manipulation de mots-clés et un mode d’appariement. Sa mise en œuvre demeure assez triviale, grâce à la technique des fichiers inverses ce qui explique son succès.  Le modèle vectoriel [4], créé au début des années 1970 par Gérard Salton et son équipe, utilise une représentation géométrique pour classer les documents par ordre de pertinence par rapport à la requête. Il repose sur les informations de fréquence des termes de la requête. L’idée principale est de considérer les termes d’indexations comme les dimensions d’un espace d’information multidimensionnel. Il demeure incontournable en RI ce dont témoigne son intégration dans une majorité de moteurs de recherche usuels. Aussi, il sera employé dans le cadre de mes travaux. 4 ce découpage n’est pas admis par tous.
  • 17. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 17/94 2006/2007 17/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art  Le modèle probabiliste [11][12], où l’on estime de manière aussi précise que possible la probabilité de pertinence des documents en fonction d’une part, des informations et données disponibles, et d’autre part de la requête. Il existe de nombreuses extensions de ce modèle : estimation à priori, modèle unifié, les réseaux bayésiens… et les prometteurs « modèles de langue » [3], issus du domaine de la reconnaissance vocale. Dans ce dernier, on tente de créer un modèle statistique pour modéliser une langue et ainsi déterminer la probabilité d’apparition, d’un mot ou d’une suite de mots, en fonction du modèle.  Le modèle logique, qui consiste à considérer qu’un document répond à une requête si l’on peut trouver une chaîne de causalité qui part du document et arrive à la requête.  Le modèle évolutionniste ou adaptatif qui est une métaphore biologique inspirée des mécanismes de l’évolution darwinienne et de la génétique moderne. Ce dernier modèle est développé davantage ci-après. De nombreux travaux mêlant modèle évolutionniste et recherche d’information ont été développés dans le cadre de projet de recherche, notamment par Linda Tamine et Mohand Boughanem [1] et Filippo Menzcker[8]. Il se raffine en deux sous-familles : les réseaux de neurones et les algorithmes génétiques. Les travaux techniques entrepris dans mon projet s’inspirent de cette seconde sous famille. Les éléments de justification qui ont guidé mon choix sont présentés dans la section « Choix du modèle conceptuel en RI : prise de risque et innovation » en page 67. Modèle vectoriel Le modèle vectoriel s’inscrit dans une optique pragmatique et quasi immédiate. Il permet de pousser le plus loin possible l’automatisation sur des données numériques mesurables pour classifier ou comparer des documents. Un document est une suite de mots, appelée communément un terme5 , et son vecteur associé est une suite de chiffres qui indique le poids associé à chaque mot en fonction de fréquences locales au document (dans le cas d’un corpus, la pondération peut être globale). Concrètement, les composantes du vecteur du document 𝐷𝑖 correspondent à la fréquence de chacun des mots dans le texte d’origine : 𝑓1 𝐷 𝑖 , 𝑓2 𝐷 𝑖 , 𝑓3 𝐷 𝑖 , … , 𝑓𝐿 𝐷 𝑖 Par exemple, soit 𝐷1 et 𝐷2 deux documents. Le lexique de ces documents est constitué de quatre mots : a, b, c et d. L = {a, b, c, d} Dans le premier document, 𝐷1 , le mot a apparaît 5 fois, le mot b apparaît 3 fois, le mot c apparaît 4 fois et le mot d apparaît 1 fois . Dans le deuxième document, 𝐷2, le mot a apparaît 2 fois, le mot b apparaît 2 fois, le mot c apparaît 5 fois et le mot d n’apparaît pas. Dans cet exemple, les documents 𝐷1 et 𝐷2 auront la représentation vectorielle suivante dans un espace à quatre dimensions : 𝑽 𝟏 = {5, 3, 4, 1} ; 𝑽 𝟐 = {2, 2, 5, 0} 5 Abusivement, un mot isolé est parfois considéré comme un terme.
  • 18. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 18/94 2006/2007 18/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Le poids du texte correspond au nombre d’occurrences de chaque mot. On entrevoie ainsi l’intérêt d’utiliser le modèle vectoriel pour la représentation des documents. Des textes qui se ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans des contextes similaires (cf. hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques sont similaires, Harris, Z. (1968). Mathematical Structures of Language, Wiley, New York.). Si on se place dans l'espace vectoriel, deux documents similaires correspondent à des vecteurs proches. Regrouper des vecteurs proches c'est trouver les vecteurs qui ont des directions semblables ou dont les extrémités sont proches. Ceci permet de calculer des similarités ou des distances entre les blocs de textes (valeurs souvent liées) en comparant leurs vecteurs respectifs (direction ou distance séparant les extrémités des vecteurs associés). Exemple6 illustratif de projection dans un espace à deux dimensions : Figure 1 - Exemple de vecteur dans un espace à 2 dimensions. Deux documents sont similaires si leurs vecteurs sont confondus. Si deux documents ne sont pas similaires, leurs vecteurs forment un angle 𝛼 dont le cosinus vaut : cos 𝛼 = cos(𝑉1, 𝑉2) = 𝑉1 ∙ 𝑉2 ‖𝑉1‖‖𝑉2‖ Se lit : produit scalaire 𝑉1 ∙ 𝑉2 divisé par le produit de la norme de 𝑉1 multiplié par la norme de 𝑉2; la norme de 𝑉1= la longueur de 𝑉1 (Pythagore) . La mesure du cosinus est la plus couramment employée dans le cadre de la Recherche d’Informations. Cependant, peu d’études ont été menées pour essayer de comparer les propriétés de ces mesures et de justifier du choix d’une mesure selon les différentes applications. 6 Tiré du cours de M. Jardino, S. Rosset intitulé « Comparaison de documents : mesures de similarité et mesures de distance » Lexique : L = {"𝑗𝑒", "𝑣𝑎𝑖𝑠"} D1 = « je je vais » D2 = « je je je je vais vais » D3 = « je vais vais »
  • 19. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 19/94 2006/2007 19/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Algorithme génétique Les algorithmes génétiques font partie de la classe des algorithmes évolutifs. Les techniques d’algorithmique évolutive sont basées sur le principe puissant de survie du meilleur. Elles modélisent les phénomènes naturels liés à la génétique darwinienne. Elles constituent une catégorie intéressante d’heuristiques de recherche et d’optimisation pour la problématique de mon sujet. Les algorithmes évolutifs sont caractérisés par :  la manipulation d’une population d’individus représentant les solutions candidates au problème posé ;  l’évaluation de la qualité des individus grâce à une fonction d’adaptation (fitness) ;  la détermination d’une stratégie de sélection des individus d’une génération à une autre ;  l’application d’opérateurs de transformation d’individus entre générations. Qu’est ce qu’un algorithme génétique ? Un algorithme génétique a pour but de faire évoluer un ensemble de solutions candidates à un problème posé vers la solution optimale. Cette évolution s’effectue sur la base de transformations inspirées de la génétique, assurant de génération en génération, l’exploration de l’espace des solutions en direction des plus adaptées (voir Figure 2 - Structure générale d'un algorithme génétique). Figure 2 - Structure générale d'un algorithme génétique Propriétés et concepts de base des algorithmes génétiques Les AG présentent deux propriétés qui constituent un avantage décisif. L’une est connue sous le qualificatif de parallélisme implicite. Celui-ci exprime la capacité des AG, pour une Début t :=0 Initialiser la population Évaluer l’adaptation de chaque individu de la population Tant que (┐condition arrêt) Faire t := t+1 Sélectionner les meilleurs individus pour la reproduction Appliquer les opérateurs génétiques Évaluer chaque individu de la génération enfant Fait Fin
  • 20. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 20/94 2006/2007 20/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art population de taille N, de traiter simultanément un nombre de directions de l’ordre de N³. La seconde, les distingue par leur faculté à résoudre le dilemme exploration/exploitation. L’exploitation consiste à encourager l’apparition de ses représentants dans la population tandis que l’exploration plaide en faveur de nouvelles directions de recherche. En effet, elle détermine un équilibre entre ces deux procédures antagonistes, exploration/exploitation, par l’allocation d’un nombre exponentiel croissant à la meilleure direction observée. En conséquence, dans mes travaux, les techniques d’algorithme génétique ciblent deux objectifs :  la représentation optimale des requêtes, qui consiste à découvrir itérativement l’intégralité de la sémantique véhiculée par la requête initiale, intègre des techniques de reformulation de requête dans les structures des opérateurs génétiques.  la représentation optimale du contexte des requêtes qui proposent une méthode génétique de recherche basée sur la coopération d’agents de recherche. Chaque agent diffuse le processus de recherche de document pertinent à l’ensemble des agents évoluant dans des contextes différents d’interrogation des moteurs de recherche : langue, cookies, session,… Individu : Chaque individu ou chromosome exprimé par un génotype, est constitué d’un ensemble fixe de gènes représentant chacune de ses caractéristiques. Le décodage d’un individu produit son phénotype. Un gène identifié par sa position appelée locus, peut prendre plusieurs valeurs dénommés allèles. L’individu est la structure fondamentale permettant d’encoder une solution candidate à un problème. Population : ensemble d’individus d’une même génération. Fonction d’adaptation : Chaque individu/solution a une valeur fitness retournée par l’application d’une fonction d’adaptation qui doit être capable de favoriser la sélection d’individus dans la direction de l’optimum. C’est une mesure d’efficacité des individus solutions. Opérateurs génétiques : Ils représentent des procédures de transformations des individus entre générations. Les algorithmes génétiques exploitent principalement trois opérateurs :  Sélection : le principe de sélection est tel que les individus les plus adaptés fournissent la descendance la plus élevée. C’est un opérateur de clonage orienté vers l’exploitation des individus solutions.  Croisement : le croisement ou cross-over est le second opérateur génétique appliqué à la population issu de la sélection. C’est un opérateur de combinaison qui agit généralement par paires en déterminant un ou plusieurs points de coupure, délimitant les frontières des parties à échanger. C’est l’opérateur le plus puissant car il combine deux solutions comportant chacune une partie de la solution ; il est d’avantage orienté vers l’exploitation des solutions en cours.  Mutation : la mutation qui est l’opérateur le plus simple, consiste à modifier, aléatoirement, la valeur d’un gène par un autre; il est d’avantage orienté vers l’exploration de l’espace de recherche. 2. Traitement Automatique des Langues (TAL) Intelligence Artificielle et Linguistique
  • 21. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 21/94 2006/2007 21/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Le Traitement Automatique des Langues (TAL) est une branche de l’Intelligence Artificielle. Cette discipline est à la frontière de la Linguistique et de l'Informatique. Elle concerne l'application de programmes et techniques informatiques pour prendre en charge différents aspects du langage humain : traduction, compréhension, résumé de texte, etc. L’objet premier de l’Informatique n’est pas l’étude des langues humaines, but qui relève davantage de la Linguistique. Les linguistes cherchent à identifier les phénomènes caractéristiques du langage dans toute leur étendue et à en donner des descriptions, plus ou moins formelles selon les théories. Tandis qu’en Intelligence Artificielle, l’objectif est de construire des systèmes capables de reproduire certaines performances impliquant une activité de compréhension. Un processus de changement de représentation et un mécanisme d’inférence sont les principales capacités qui fondent les mises en œuvres informatiques. Inférences, car l’évaluation d’un tel système compare les conclusions que le système est capable de tirer. Dans le contexte actuel, de nombreuses recherches dans ce domaine tentent d’apporter des réponses à notre société qui manipule un volume croissant de documents textuels et dont les besoins en termes de gestion de cette information textuelle se développent rapidement. La suite de cette section présente, un aperçu des techniques de TAL [2] susceptible d’améliorer les performances de l’empreinte lexicale. Reconnaissance d’entités nommées Cette tâche consiste à repérer et typer certains items lexicaux particuliers qu’on appelle « entités nommées » : des noms propres souvent, des lieux, des institutions mais plus largement toutes les entités référentielles bien identifiées (dates, mesures, adresse http,…) En pratique, ces entités nommées sont importantes à repérer dans les textes parce qu’elles fixent une référence. L’exemple ci-contre illustre la reconnaissance de l’entité nommée « YouTube » en surbrillance rouge. Analyse syntaxique de surface (ou morpho-syntaxique) L’analyse syntaxique de surface (ou « Analyse morphosyntaxique7 ») est un traitement linguistique superficiel qui identifie les constituants d’une phrase : noms, verbes, adverbes, adjectifs, etc. Et cela sans spécifier leurs structures internes, ni leurs fonctions dans la phrase. Précisément, l’analyse syntaxique de surface ne produit pas un arbre syntaxique complet. La couche morphologique sert de soubassement à la plupart des traitements de TAL. En effet, elle permet la reconnaissance des unités textuelles de base que sont les mots et l’analyse de leur structure. D’ailleurs les premiers succès applicatifs en TAL reposent sur des traitements morphologiques : la correction orthographique et la césure automatique. Ces applications sont aujourd’hui intégrées dans les traitements de texte et le grand public y est familiarisé depuis longtemps. Par ailleurs, on distingue la morphologie flexionnelle qui décrit la manière dont un mot change de forme (conjugaison des verbes, déclinaison des noms et adjectifs) et la morphologie dérivationnelle qui analyse le mode construction des mots, par combinaison/concaténation d’affixes à un mot-racine : 7 en anglais on parle de « shallow parsing » ou « light parsing » Origine Catégorie Forme Canonique Pour PRP pour diverses ADJ divers raisons NOM raison techniques ADJ technique YouTube NAM YouTube semble VER:pres sembler alors ADV alors avoir VER:infi avoir du PRP:det du mal NOM mal à PRP à supprimerVER:infi supprimer les DET:ART le fichiers NOM fichier Figure 3 - Exemple d'analyse syntaxique de surface
  • 22. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 22/94 2006/2007 22/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art exemples : revenir ≈ re- + venir, rapidement ≈ rapide + -ment. L’analyse flexionnelle est importante : elle permet d’identifier le lemme8 à partir de forme fléchie (on parle de lemmatisation) et d’en décrire les traits morphologiques. Par exemple : diverses est la forme de l’adjectif divers au féminin pluriel, semble est la forme du verbe sembler conjuguée au présent de l’indicatif à la 3ièmes personne du singulier (Ex. : Figure 3). Toutes les langues indo-européennes sont flexionnelles, à des degrés divers. L'Anglais, par exemple, est très faiblement fléchi par rapport à l'Islandais. Le Français l'est bien plus à l'écrit qu'à l'oral, un grand nombre de désinences9 étant muettes. Hors de cette famille, les langues sémitiques10 sont elles aussi flexionnelles à des degrés divers : l'arabe littéral se fléchissant plus que le dialectal, par exemple. 3. Évaluation des Systèmes de Recherche d’Information On mesure communément l’efficacité d’une technique de recherche d’informations en utilisant quatre critères la précision (opposée au bruit) et le rappel (opposé au silence) :  Précision : Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés. En anglais precision.  Rappel : Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. En anglais recall. Les notions de bruit et de silence sont assez intuitives. Elles sont illustrées par la figure de gauche ci- dessous. En pratique, on cherche un bon compromis entre le rappel et la précision. Afin d’évaluer un système, on fait souvent un graphique (à droite) du rappel par rapport à la pertinence (ou vice- versa). Si on prend une collection de documents donnés (la zone grisée), et une requête donnée, un expert est en mesure de déterminer la liste des documents "pertinents" (l’ellipse jaune). Mais un moteur de recherche n’est jamais parfait, il retournera les documents symbolisés par l’ellipse bleue. Les documents pertinents ramenés apparaissent en verdâtre. Les documents trouvés, mais non pertinents, constituent le bruit (zone bleu vif). Les documents pertinents, mais non trouvés, constituent le silence (zone jaune vif). Intuitivement, on peut dire que la précision représente la pertinence du système et le rappel sa couverture. En pratique, il est facile de fournir un système avec un rappel de 100 % : il suffit de retourner la liste de tous les documents. Ces mesures sont souvent antagonistes. 8 forme canonique du mot. 9 en linguistique, suffixe ajouté pour indiquer la forme d'une conjugaison ou la déclinaison (le -s du pluriel). 10 groupe de langues d'Asie occidentale, Moyen Orient et du nord de l'Afrique.
  • 23. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 23/94 2006/2007 23/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES 1. Analyse des comportements, hypothèses et démarche générale. Les travaux de mon projet vont se focaliser sur le phénomène des UGC. Dans ce cadre, on peut résumer de façon relativement simpliste l’orientation de mes travaux par la question suivante : Comment détecter un contenu vidéo mis en ligne illégalement sur les sites d’UGC ? Une fouille naïve et la comparaison de l’ensemble des vidéos mise en ligne sur la totalité des sites d’UGC restent une réponse irréaliste et inenvisageable. Par conséquent, il s’agit de réfléchir à une approche qui permette de réduire l’espace d’exploration, tout en analysant la façon dont les internautes échangent la localisation (URL11 ) des vidéos mises en ligne. Naturellement, la localisation n’est ni centralisée ni structurée dans une base de données. Non, celle-ci est disponible sur le web à qui veut se donner les moyens de la trouver. Un internaute motivé et aguerri aux techniques de formulation de requête pour les moteurs de recherches (Google, Yahoo, MSN, etc…) peut assez rapidement, par un cheminement mental propre à l’Homme, aboutir à ses fins. Même si certains aspects de ce cheminement mental sont difficilement automatisables, on peut imaginer des approches visant à simuler les processus de reformulation de requête. Ceci en vue d’optimiser la représentativité des descripteurs (mots clés) destinés à interroger les moteurs de recherches. Cette approche doit tenir compte de contraintes comme l’absence de ressources externes comme des dictionnaires de synonymie, d’antonymie, de concepts,… coûteuses, difficile à adapter à cette application et à concevoir. De plus, dans les travaux initiés par Claude de Loupy12 durant sa thèse [6], celui-ci indique que « l’accroissement des performances est, cela dit, faible et ne justifie pas l’effort et le coût de création et d’utilisation de telles ressources ». Pour mieux appréhender les difficultés inhérentes et les solutions qui seront expérimentées, partons du cas concret d’une vidéo diffusée massivement sur les sites d’UGC. Sur celle-ci, on aperçoit une manipulation à effectuer pour contourner la limitation sur le réseau Orange du téléphone mobile de la firme Apple : iPhone. Depuis le 29 novembre 2007, date officielle de commercialisation de l’appareil, cette information a été reprise de nombreuses fois par des internautes et cela sur de multiples forums et blogs commentant la nouvelle et le moyen de le « débloquer ». Pratique très intéressante pour cette étude, ceux-ci invitent les lecteurs à visionner la vidéo en question en plaçant un pointeur (URL) vers une plateforme UGC. De ce cas, on peut émettre l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou non, est accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement décrit. Les espaces de discussions entre internautes autour d’une thématique, à l’instar des forums et blogs, constituent des lieux propices à cette publicité. La fouille par des traitements automatisés de ces lieux constituera un des fondements de notre SRI. 11 URL, de l'anglais Uniform Resource Locator, littéralement « localisateur uniforme de ressource », est une chaîne de caractères utilisée pour adresser les Ressources dans l’Internet : document HTML, image, son, forum Usenet, boîte aux lettres électronique, etc. Elle est informellement appelée une adresse Web. 12 Claude de Loupy est maître de Conférence associé à l’Université Paris X et intervient à l’ENSIIE pour un cours sur les moteurs de recherche. Fortuitement, il est à l’initiative et animateur du projet PIITHIE.
  • 24. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 24/94 2006/2007 24/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Cette publicité est l’un des fondements théorique visant à rendre la fouille plus efficace :  Les échanges sur les forums et les messages mis en ligne sur les blogs reprennent, reformulent une information de façon importante et surtout variée. En soit, ceux-ci ne constituent-ils pas un moyen efficace d’extraire un ensemble de descripteurs en l’absence de ressources externes ?  Dans ce dessein, nous analyserons et extrairons les termes saillants employés dans le voisinage d’un lien hypertexte pointant vers la vidéo en question. Ceux-ci ne sont-ils pas autant de descripteurs de la même idée, notion ou concept reformulés par une communauté d’internautes ? Il s’agira donc d’exploiter les différentes reprises informationnelles en vue d’engendrer de nouvelles requêtes visant à optimiser la qualité des descripteurs posées aux moteurs de recherche. La réalisation du Système de Recherche d’Information décrit dans ce mémoire se fonde en partie sur ces observations. La finalité est de permettre la localisation d’une vidéo de référence mise en ligne sur les plateformes d’UGC par l’analyse des échanges textuels sur les blogs et les forums. 2. Analyse et Conception du Système de Recherche d’Information : Spy-der Définition des besoins et contraintes du SRI En préambule, on rappellera que les besoins recensés guident l’ensemble des aspects du projet. La finalité principale de ce projet est de fournir un service de localisation automatique des vidéos protégées diffusée sur les plateformes de partage vidéos (UGC). Ce service s’inscrit clairement dans le cœur de métier d’Advestigo à savoir : la protection des actifs incorporels numériques des industriels des médias dans le monde. En termes d’exigences fonctionnelles, on mentionnera principalement qu’il doit fouiller avec efficience13 son espace de recherche : le Web. Aussi, les moyens d’exploitation sont volontairement limités, ce qui exclue la réalisation d’un moteur d’indexation et justifie le choix de travailler en métamoteur. Les métamoteurs permettent de traduire une requête dans la syntaxe propre à plusieurs moteurs et de l’expédier à chacun d’entre eux, en éliminant en retour les doublons. L'intérêt est d'augmenter son pourcentage de couverture du web. On mentionnera d’autres fonctionnalités de haut niveau comme :  Capacité à évaluer la similarité entre deux contenus textuels et audiovisuels.  Permettre de visualiser et conserver les résultats des recherches. Par ailleurs, en termes d’exigences non fonctionnelles, on rappelle que le système doit offrir une couverture la plus large possible. Aussi, il doit conserver une relative insensibilité aux langues. Par conséquent, les techniques employées doivent, tout autant que possible, être indépendantes des langues. Le système doit limiter le nombre d’erreurs : faux négatif et faux positif. Les faux positifs étant plus gênant pour ce type de système. Aussi la réalisation du système doit tenir compte des contraintes légales et économiques qui en l’occurrence demeurent relativement fortes. 13 On mesure l’efficacité des techniques de recherche d’information en utilisant deux mesures distinctes et liées : la précision et le rappel explicités dans la section précédente « État de l’Art ».
  • 25. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 25/94 2006/2007 25/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Naturellement, la conception du système de recherche d’information visée s’emploie aussi à respecter les principes de base du génie logiciel suivants :  Séparation des problèmes,  Modularité : Décomposition en modules connectés entre eux par des interfaces bien définies mais aussi indépendantes que possible,  Abstraction,  Généricité,  Construction incrémentale,  Anticipation du changement. Pour tout problème spécifique, il existe plusieurs méthodes pour en appréhender sa complexité et les problèmes sous-jacents. Pour la conception et la réalisation des systèmes à dominante informatique une approche système est un choix naturel. En adoptant un point de vue externe (dit de « boite noire ») le « Tableau 1 - Vue système et environnement » ci- dessous permet d’identifier les éléments-clés de solutions et les relations de cause à effet : Tableau 1 - Vue système et environnement À partir de l’expression des besoins, la phase de conception proprement dite peut débuter. Dans la conception de systèmes, la complexité est l’une des raisons principales justifiant la modélisation. Les éléments qui suivront doivent permettre de se concentrer, de documenter et de communiquer les aspects importants de la conception du SRI. •Protéger les actifs incorporels numériques de l'industrie des médias sur les réseaux électroniquesProblème à résoudre •Fourniture d'un service de localisation automatique des vidéos protégées diffusées sur les plateformes de partage vidéos (UGC)Finalité du système •Fouiller efficacement le web (couverture) Exigences fonctionnelles (Faire) •FURPSE(Fonctionnality, Usability, Realibility, Performance, Serviceability, Evolutivity) ISO CEI 9126Exigences non fonctionnelles (Etre) •Moyen d'exploitation limité/espace de recherche -> métamoteur •Délai de réalisation de 8 mois/ engagement financier dans les limites du bugdet prévisionnelContraintes de l'environnement direct •Politique : des actions gouvernementales sont à prévoir (sujet sensible) •Economique : marché mondial; •Sociale : sentiment profondément ancré de gratuité des oeuvres audiovisuelles •Technologie : "immensité "du Web (passage à l'échelle de la fouille) •Environnementale: comsommation et bilan énergitiques des serveurs sous tension 24h/24h •Légale : contrainte très forte (Droit des exploitants de BD versus Droits d'Auteur) Contraintes de l'environnement indirect PESTEL •Promotion de la mise en ligne sur les blogs et forums •Information "semi-structurée" en HTML Nature et disponibilité des données •Connaissance structurelle et organisationnelle du WebEnsemble des connaissances et des compétences disponibles •Compétences linguistiquesEnsemble des connaissances et des compétences à développer/sous-traiter
  • 26. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 26/94 2006/2007 26/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Modélisation UML et conception architecturale orientée objet En préambule, on rappellera qu’un modèle est une abstraction de la réalité. Cette simplification du système réel doit permettre de comprendre, d’évaluer et de critiquer plus rapidement la conception et sa viabilité qu’en s’immisçant directement dans le système. Un élément important pour bien modéliser un système, c’est le langage permettant de décrire le modèle. Mon choix s’est porté vers UML14 qui est en passe de devenir un standard incontournable dans le génie logiciel, et plus encore lorsqu’on s’inscrit dans une architecture objet. En effet, ce type d’architecture se développe en entreprise principalement pour ses qualités de modularité, de maintenance et d’évolutivité que confère le paradigme objet. Les données sont encapsulées dans des composants (objets) et ils sont manipulés par des opérations (communication et coordination réalisées par les messages). Dans les langages orientés objet, une classe est un ensemble d’objets possédant une structure, un comportement et des relations similaires. Exigences du système : Diagramme des cas d’utilisation Le diagramme des cas d’utilisations (Figure 4) décrit ce que le système de recherche doit faire. Il fait apparaître les interactions entre le système et les utilisateurs externes ainsi qu’avec d’autres systèmes externes comme les moteurs de recherches et les plateformes UGC. Figure 4 - Diagramme de cas d'utilisation du SRI NB : Le lecteur plus intéressé pourra se reporter dans l’annexe au « Synopsis de l’architecture générale du Spy-der » page 81. 14 Unified Model Language : les raisons de ce choix sont développées dans la section Abstraction et modélisation en page 54.
  • 27. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 27/94 2006/2007 27/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Processus de haut niveau du système : diagramme d’activité de l’expansion de requêtes. A partir du diagramme des cas d’utilisations, on précise comment le système accomplira ces differentes tâches. C’est au travers d’un diagramme d’activité que l’on décrit des actions de haut niveau. Leur enchaînement représente un processus du système. Par souci de concision, je ne présente ici que la modélisation d’un processus central du système : l’expansion de requêtes (Figure 5). La stratégie mise en œuvre consiste à débuter par l’interrogation des moteurs de recherche généralistes (nombre de pages indexées importants). Ensuite, l’interrogation amène , via des moteurs de recherche spécialisés dans les blogs et forum, à une réduction du bruit introduit par les descripteurs précédents. La segmentation en bloc abouti à une analyse plus fine du texte. A l’issue de l’étape précédente, l’ensemble des descripteurs est exploité sur des moteurs indexant de la vidéo et les moteurs internes des plateformes UGC (figure ci-dessous lecture de gauche à droite suivant la fléche). Figure 5 - Diagramme d'activité de l'expansion de requêtes Moteur Généraliste • Large couverture • Large Introduction de "bruit" Moteur Spécialisé blog et forum • Faible couverture • Faible introduction de "bruit" Finalité : Moteur Spécialisé Vidéo et interne UGC
  • 28. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 28/94 2006/2007 28/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Architecture physique des composants : Web Services Gartner (1999) : la mise en oeuvre des flux de communication inter-applicatifs dépasse les 40% du coût total de développement d'un Système d’Information. En partant de ce constat dans les applications complexes (syndrome spaghetti classique des SI), il s’agit d’identifier pour le SRI une architecture assurant une réponse efficace aux problématiques rencontrées en termes de réutilisation, d'interopérabilité et de réduction de couplage15 . L’architecture orientée service (en anglais Service Oriented Architecture, ou SOA) est une architecture logicielle s'appuyant sur un ensemble de services simples avec un objectif double:  décomposer une fonctionnalité en un ensemble de fonctions basiques, appelées services, fournies par des composants logiciels ;  décrire finement le schéma d'interaction entre ces services (composants logiciels). Les Web Services constituent une concrétisation majeure du concept d'architectures de services qui sont en passe de s'imposer comme une référence incontournable en matière de développement de grands systèmes en environnement fortement distribué. Parmi les caractéristiques notables de cette implantation, citons :  une standardisation systématique des protocoles de communication et des interfaces de services pour garantir un haut niveau d'interopérabilité ;  une méthodologie de construction de systèmes complexes par couplage faible de composants distribués aux frontières clairement définies ;  la définition d'un cadre non propriétaire d'intégration d'applications, potentiellement supporté par plusieurs infrastructures logicielles (J2EE, Mono .Net). Les Web Services sont des composants métiers ou techniques accessibles par des protocoles standard. De plus, ils garantissent un haut niveau d'interopérabilité tout en permettant à des composants distants d'échanger des objets relativement complexes. D’autant que les infrastructures associées prennent totalement en charge les opérations d'encodage et de décodage requises pour transporter ces objets à travers les réseaux. Sous l'impulsion d'organismes de standardisation comme le W3C, OASIS et WSI, le socle technologique des Web Services s'est construit par élaboration progressive et cumulative de recommandations techniques fondées sur le formalisme XML, pour couvrir les différentes facettes de la communication entre logiciel (consulter Figure 6 page suivante) :  Formalisation des messages échangés entre services distants (SOAP16 ) ;  Composition de services en passant par la description d'interfaces (WSDL17 ) ;  Publication de services (UDDI18 ). 15 L'idée générale du couplage faible consiste à établir un protocole d'échange et à effectuer le moins d'hypothèses (ou à imposer le moins de contraintes) possible entre les composants. Les structures fonctionnant sur du couplage faible sont donc plus souples et plus ouvertes. 16 Simple Object Access Protocol (SOAP) est un protocole d’appel de procédures à distance orienté objet bâti sur XML. Il permet la transmission de messages entre objets distants, ce qui veut dire qu'il autorise un objet à invoquer des méthodes d'objets physiquement situés sur un autre serveur. Le transfert se fait le plus souvent à l'aide du protocole http. 17 Web Service Description Language (WSDL) est le langage de description pour décrire une Interface publique d'accès à un Service Web. 18 Universal Description Discovery and Integration (UDDI) est un annuaire qui permet de localiser sur le réseau le service Web recherché.
  • 29. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 29/94 2006/2007 29/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Figure 6 - Architecture conceptuelle des Web Services Prolongement des travaux d’analyses et conception du SRI À moyen terme cette architecture fondée sur les Web services doit intégrer une couche d’orchestration. Dans un système d’informatique distribuée, mais en particulier pour les Web services, l'orchestration est un système qui permet d’enchaîner les services. L’orchestration assure la succession des tâches, le contrôle de la bonne exécution, les reprises en cas d’incident, etc. Plusieurs camps s'affrontent dans la production de standard d'orchestration. En l’attente d’un standard mature, le Spy-der s’appuie sur un système d’orchestration développé en interne.