Sujet de thèse : opinions et groupes d’influence sur Twitter

Propagation des opinions et détection des groupes d’influence dans les media sociaux

Introduction :

La détection d’acteurs-clés dans un réseau social est un champ de recherche offrant de multiples défis et applications. Notre champ d’intérêt, les media sociaux, englobent le micro-blogging (Twitter), les blogs, forums, la presse en ligne et ses commentaires. Les applications ne manquent pas : veille économique, détection de la radicalisation, dialogue avec les acteurs-clés d’une région après une catastrophe naturelle.

Ces dernières années, le traitement automatique de la langue a bénéficié des recherches en classification de textes, en résumés ou en détection de la subjectivité. La combinaison de la polarité d’un texte et la détection d’entités nommées permet de mieux comprendre de quoi parle un tweet. Notre objectif est d’utiliser à la fois l’information du réseau (théorie de graphes, interactions) et le contenu échangé (informations, opinions) pour modéliser les groupes d’influence grâce à un système multi-agents.

Première partie : extraction et détection d’opinion

La détection d’opinion et l’analyse de sentiments permettent d’associer une polarité (positive, négative) à un texte, souvent une critique de produit ou de cinéma. Une nouvelle branche de ce domaine est la détection de position (« stance detection ») qui classe un texte de cible connue comme POUR ou CONTRE la cible.

Pour cette tâche, différentes approches existent et sont considérées : le recours aux dictionnaires de synonymes (SentiWordNet par exemple), à l’apprentissage supervisé et non-supervisé selon le vocabulaire (approche Bag-of-Words), mais aussi aux méthodes de projection de texte dans un espace vectoriel sémantique (LSA, LDA, word2vec).

Seconde partie : modélisation du réseau social

Dans un second temps, nous comparerons les définitions de l’influence et évaluerons différentes méthodes de la littérature (topologie de graphe principalement), de l’approche la plus évidente (faculté à faire changer d’opinion) à la prise en compte d’éléments plus cachés (auditeurs muets, rôle d’autorité, discours diffus). Le formalisme utilisé dans le domaine des systèmes multi-agents servira de socle dans ce travail.

Il nous faudra aussi comprendre comment l’information circule dans le réseau, prendre en compte son évolution temporelle (graphe dynamique) et tenter d’appréhender le monde ouvert : nous ne pouvons pas considérer Twitter comme un monde clos. Nous combinerons les métriques usuelles (link-mining) avec l’information provenant des tweets eux-mêmes (opinion-mining) afin d’améliorer notre système. Une simulation multi-agents nous permettra de mettre en scène ces comportements et interactions, et de vérifier la vraisemblance de notre modèle.

Informations pratiques :

Thèse CIFRE, débutée le 1/9/15 chez Airbus Defence & Space au sein de l’équipe Advanced Information Processing. Je suis encadré côté Airbus par Khaled Khelif et Stéphan Brunessaux. Côté académique, je suis dirigé par Alexandre Pauchet, Laurent Vercouter et Nicolas Malandain du Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes (LITIS), à l’INSA de Rouen, dans l’équipe MIND (Multi-Agent, Interaction, Décision;  http://www.litislab.fr/equipe/mind/ ).

Participation à SemEval – Task6 : annotation de tweets

Dans le cadre de ma thèse, j’ai participé à une tâche d’évaluation internationale : SemEval. Depuis quelques années, cette organisation propose des « exercices » sémantiques concernant, entre autres, Twitter. Les tweets prennent de plus en plus de place dans notre monde, ils sont difficiles à résumer et présentent un défi intéressant dans les problématiques de traitement automatique de la langue et des textes. Le site web décrivant la tâche est accessible ici :

http://alt.qcri.org/semeval2016/task6/

Il s’agit de déterminer si des tweets sont en faveur ou contre une thématique donnée (par exemple, Donald Trump ou Hillary Clinton). Les résultats montrent que l’état de l’art n’est pas encore tout à fait au point pour prédire ce type d’annotation. Sur un corpus d’apprentissage supervisé, le meilleur F1-score est de 0.67. Mon score personnel sur ce même corpus est de 0.61.

La difficulté repose dans la variabilité des tweets : sur Twitter, personne ne parle le « vrai » anglais. Les textes sont courts, parfois incompréhensibles -selon le lecteur. L’annotation « en faveur » / « contre » repose souvent sur des implications voire des raisonnements par induction effectués par l’expert annotateur : il faut bien connaitre la thématique !

C’est la première fois que cette tâche est proposée, et des améliorations importantes sont attendues. Différents algorithmes étaient en compétition, des publications devraient suivre bientôt.