3. «Le texteexprimeunegammevaste et riche d’information, mais encode cette information dansuneforme qui estdificileàdéchiffrerautomatiquement.»-- Marti A. Hearst, “Untangling Text Data Mining,” 1999
4. Input et traitement des documents L’extractiond’information La gestion des connaissances Hans Peter Luhn, “A Business Intelligence System,” IBM Journal, Octobre1958
5. «L’information statistique obtenue de la fréquence et de la distribution des mots est utilisée par la machine afin de calculer une mesure relative de leur importance.» -- Hans Peter Luhn, “The Automatic Creation of Literature Abstracts,” IBM Journal, Avril1958
6. «Cette argumentation assez simple sur la ‘signification’ ignore de tels aspects linguistiquesque la grammaire et la syntaxe... Aucune attention n’estaccordée aux rapports logiques et sémantiquesétablis par l’auteur.» -- Hans Peter Luhn, 1958
7. Miranda: O, merveille! Combien de belles créatures vois-je ici réunies! Que l'humanité est admirable! O splendide Nouveau Monde, Qui compte de pareils habitants ! Prospero: C’est nouveau pour toi. Le naufrage dans la Tempête, l'acte I, la Scène 1, dans une gravure 1797 basée sur une peinture par George Romney.
8. New York Times, 8 septembre, 1957 Anaphore / coréférence: “They”
9. “Kind” = genre, variété, pasune indication de sentiment. Répetitions non filtrés Référenceexterne
10. “L'émission, les médias et les industries de récréation recueillent environ 4% des revenus du monde, mais produisent déjà, dirigent, ou supervisent autrement 50% de l'univers numérique.” Environs 70% de l’universe numériqueestcréépar les individus. “The Diverse and Exploding Digital Universe,” (IDC, 2008)
11. Le défide “l’information non structurée”: Les sites Web, les articles des journaux et des magazines, les images, le video. Les blogs, les forums, et les médiassociales. Le mél, les notes et les transcriptions de centres de contact; les interactions enregistrées. Les sondages, le feed-back, les demandesd’indemnité et de garantie. Les documents, les rapports, les papiersscientifiques,. Et chaquesorte de document imaginable. Est-ce que la recherche est suffisante?
12. Comment sont la qualité, la valeur et l'autorité de résultats de recherche? L’opinion de l’hôtel À qui profitela recherche? L’opinion de l’invité… à propos de Priceline
13. Comment pouvons-nous faire mieux? “«Nous avons en place plusieurs instruments -- des technologies Web 2.0…» “The Diverse and Exploding Digital Universe,” (IDC, 2008)
14. «Le Web 2.0 est la révolution d'affaires dans l'industrie de l'informatique provoquée par le mouvement à Internet comme une plate-forme.»-- Tim O’Reilly, 2004 Le Web 2.0 marque un «mouvement des sites Internet personnels aux blogs et l'agrégation de sites blogs, de publier à la participation, … un processus en cours et interactif ... vers les liens basés sur le balisage.» -- Terry Flew, “New Media: An Introduction,” 2008
15. Le Web 2.0 est affectueux, interactif, collaboratif, dynamique. Mais comment pouvons-nous faire mieux? «Nous avons en place plusieurs instruments -- des technologies Web 2.0… aux logiciels qui fouillent les données non structurées et le Web Sémantique -- pour apprivoiser l'univers numérique. Fait correctement, nous pouvons transformer la croissance d'information en croissance économique.» “The Diverse and Exploding Digital Universe,” (IDC, 2008)
16. Le text analytics soutientrechercheplus intelligente, qui cible les buts de l’utilisateur, par exemple, qui répond aux questions –
17. Pour trouvabilité même mieux: «Le Web sémantique est un web de données, sous certains aspects comme une base de données globale.» -- Tim Berners-Lee, 1998 Le Web 3.0 = le Web 2.0 + le Web sémantique + les outilssémantiques. Des thèmesfréquents du Web 3.0: Contenusenrichi en sémantique. LinkedData (donnéesreliées) Sensible au contexte. Conscientd’endroit.
18.
19. Le text mining soutient le Web 3.0 et le Web sémantique. La catégorisation et la classification automatique du contenu. L’augmentation de texte: la création de metadonnées; le balisage du contenu. L’extractiond’informationvers les bases de données. L’analyseexploratoire et la visualisation. Concepts techniques: Les microformats RDF, SPARQL OWL
20. J’ai publié récemment un rapport, “Text Analytics 2009: User Perspectives on Solutions and Providers” («TextAnalytics 2009: les perspectives des utilisateurs sur les solutions et les fournisseurs»). J’ai estimé un marché global de $350 millions en 2008, une croissance de 40% de 2007. J’ai présenté les résultats d’un sondage dans lequel j’ai posé les questions…
21. Quelles sont vos applications primaires où le texte joue un rôle?