ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 16/1 - 2013  - pp.73-96  - doi:10.3166/dn.16.1.73-96
TITRE
Classification de sentiments sur un corpus arabe. Une étude croisée préliminaire

TITLE
Sentiment classification on arabic corpora. A preliminary cross-study

RÉSUMÉ

Le développement des médias sociaux (tels que les forums web en ligne et les sites de réseaux sociaux) a provoqué l’intérêt de fouiller et d’analyser les opinions disponibles sur le web. Ainsi, l’opinion en ligne est devenue l’objet d’étude dans plusieurs domaines de recherche ; en l’occurrence le domaine dit « Opinion Mining and Sentiment Analysis ». Plusieurs travaux intéressants et avancés ont été menés dans peu de langues (notamment l’anglais). Les langues dites riches morphologiquement, comme l’arabe, ont développé très peu d’études. Le présent papier détaille l’étude que nous avons menée dans le but d’investiguer la classification supervisée de sentiment dans un contexte arabe. Nous avons utilisé deux corpus arabes différents à plusieurs niveaux. Nous avons utilisé trois classificateurs standard et connus pour leur efficacité, à savoir Naïve Bayes, Support Vector Machines et k-Nearest Neighbor. Nous investiguons un ensemble de settings pour identifier ceux permettant de donner les meilleurs résultats. Les settings ainsi étudiés concernent le type de racination, le seuillage de fréquence des termes, la pondération des termes et les n-grammes mots. Nous montrons que Naïve Bayes et Support Vector Machines sont efficaces et compétitifs. Néanmoins, la performance de k-Nearest Neighbor dépend du corpus. Nous recommandons, à travers cette étude, d’utiliser la pseudo-racination plutôt que la racination, de supprimer les termes apparaissant une seule fois, de combiner les unigrammes avec les bigrammes mots et d’utiliser une pondération à base de présence plutôt qu’une pondération à base de fréquence. Les résultats de notre étude montrent également que la performance de classification peut être influencée par la longueur et l’homogénéité des documents ainsi que par la nature des auteurs des documents. Par contre, la taille des corpus n’a pas d’impact sur les résultats de classification.



ABSTRACT

The rise of social media (such as online web forums and social networking sites) has attracted interests to mining and analyzing opinions available on the web. The online opinion has become the object of studies in many research areas; especially that called “Opinion Mining and Sentiment Analysis”. Several interesting and advanced works were performed on few languages (in particular English). However, there were very few studies on Morphologically Rich Languages such as Arabic. This paper presents the study we have carried out to investigate supervised sentiment classification in an Arabic context. We use two Arabic Corpora which are differ ent in many aspects. We use three common classifiers known by their effectiveness, namely Naïve Bayes, Support Vector Machines and k-Nearest Neighbor. We investigate some settings to identify those that allow achieving the best results. These settings are about stemming type, term frequency thresholding, term weighting and n-gram words. We show that Naïve Bayes and Support Vector Machines are competitively effective; however k-Nearest Neighbor’s effectiveness depends on the corpus. Through this study, we recommend to use light-stemming rather than stemming, to remove terms that occur once, to combine unigram and bigram words and to use presence-based weighting rather than frequency-based one. Our results show also that classification performance can be influenced by documents length, documents homogeneity and the nature of document authors. However, the size of data sets does not have an impact on classification results.



AUTEUR(S)
Asmaa MOUNTASSIR, Houda BENBRAHIM, Ilham BERRADA

MOTS-CLÉS
Analyse de sentiment, fouille d’opinion, apprentissage automatique, classification de texte, traitement automatique de langues, langue arabe, corpus, état de l’art

KEYWORDS
Sentiment analysis, opinion mining, machine learning, text classification, natural language processing, arabic language, corpora, state of the art

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (233 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier