Voir la notice de l'article provenant de la source Numdam
La quantité d'information textuelle augmente de façon exponentielle aussi bien comme archives que documents de travail dans les organisations académiques, dans les administrations et dans les entreprises. Une solution pour structurer cette montagne de données textuelles est de construire un modèle de connaissances pour indexer cette information. L'acquisition de connaissances doit permettre d'extraire et classifier les données pour aboutir à une indexation conceptuelle. Traditionnellement, les méthodes de classification d'analyse de données étaient adaptées pour des tables classiques de données de la forme objet/attribut/valeur. Nous présentons Galex (Graph Analyzer for LEXicometry) qui développe une structuration de la connaissance grâce à une méthode de clustering de termes. Cette structuration a pour but de synthétiser le contenu d'information présentant un intérêt majeur dans des applications de filtrage d'information ou de navigation hypertextuelle sur des documents similaires. Galex prend en compte la nature des données sur lesquelles il s'applique : le langage naturel. La complexité du langage naturel est bien connue : ambiguité de sens, constructions grammaticales multiples de la phrase, style, création de termes... Nous montrons qu'à travers l'intégration de notions mal définies mais utiles telles que «concept», «ontologie» et «corpus», le clustering peut être amélioré par adjonctions de connaissances linguistiques. Nous basons notre approche sur des phénomènes typiques tels que des relations graphe-statistiques entre termes, des relations de schéma dans un contexte et la réduction canonique de formes variantes.
The huge amount of electronic textual information increases exponentially just as easily as archives and working documents in academic organizations, in administration and in firms. A solution for structuring this mountain of textual database is to build a knowledge model to index this information. One way can be obtained by data extraction and classification producing conceptual indexing by knowledge acquisition. Traditionally the classification methods of Data Analysis were adapted while used for the classical table of data under an object/characteristics/value format. We present Galex (Graph Analyzer for LEXicometry) which develops structuration of knowledge by a term clustering method. This structuration synthetizes the content of information providing the mapping data to information filtering or hypertextual navigation on similar documents. Galex aims at taking into account the nature of the data to which it is applied : natural language. The complexity of natural language is well known: sense ambiguity, multiple grammatical construction of sentence, style, term creation...We show through integration of poorly defined, though useful as concept, ontology, term and corpus, notions that clustering can be improved by adding linguistic knowledge. We base our approach on typical phenomena such as graph-statistical relations between terms, scheme relations in a context and canonical reduction of variants.
@article{MSH_1999__148__41_0, author = {Turenne, Nicolas}, title = {Apprentissage d'un ensemble pr\'e-structur\'e de concepts d'un domaine : l'outil {GALEX}}, journal = {Math\'ematiques informatique et sciences humaines}, pages = {41--71}, publisher = {Ecole des hautes-\'etudes en sciences sociales}, volume = {148}, year = {1999}, language = {fr}, url = {http://geodesic.mathdoc.fr/item/MSH_1999__148__41_0/} }
TY - JOUR AU - Turenne, Nicolas TI - Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil GALEX JO - Mathématiques informatique et sciences humaines PY - 1999 SP - 41 EP - 71 VL - 148 PB - Ecole des hautes-études en sciences sociales UR - http://geodesic.mathdoc.fr/item/MSH_1999__148__41_0/ LA - fr ID - MSH_1999__148__41_0 ER -
%0 Journal Article %A Turenne, Nicolas %T Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil GALEX %J Mathématiques informatique et sciences humaines %D 1999 %P 41-71 %V 148 %I Ecole des hautes-études en sciences sociales %U http://geodesic.mathdoc.fr/item/MSH_1999__148__41_0/ %G fr %F MSH_1999__148__41_0
Turenne, Nicolas. Apprentissage d'un ensemble pré-structuré de concepts d'un domaine : l'outil GALEX. Mathématiques informatique et sciences humaines, Tome 148 (1999), pp. 41-71. http://geodesic.mathdoc.fr/item/MSH_1999__148__41_0/