Participation à SemEval – Task6 : annotation de tweets

Dans le cadre de ma thèse, j’ai participé à une tâche d’évaluation internationale : SemEval. Depuis quelques années, cette organisation propose des « exercices » sémantiques concernant, entre autres, Twitter. Les tweets prennent de plus en plus de place dans notre monde, ils sont difficiles à résumer et présentent un défi intéressant dans les problématiques de traitement automatique de la langue et des textes. Le site web décrivant la tâche est accessible ici :

http://alt.qcri.org/semeval2016/task6/

Il s’agit de déterminer si des tweets sont en faveur ou contre une thématique donnée (par exemple, Donald Trump ou Hillary Clinton). Les résultats montrent que l’état de l’art n’est pas encore tout à fait au point pour prédire ce type d’annotation. Sur un corpus d’apprentissage supervisé, le meilleur F1-score est de 0.67. Mon score personnel sur ce même corpus est de 0.61.

La difficulté repose dans la variabilité des tweets : sur Twitter, personne ne parle le « vrai » anglais. Les textes sont courts, parfois incompréhensibles -selon le lecteur. L’annotation « en faveur » / « contre » repose souvent sur des implications voire des raisonnements par induction effectués par l’expert annotateur : il faut bien connaitre la thématique !

C’est la première fois que cette tâche est proposée, et des améliorations importantes sont attendues. Différents algorithmes étaient en compétition, des publications devraient suivre bientôt.