Sujet de thèse : opinions et groupes d’influence sur Twitter

Propagation des opinions et détection des groupes d’influence dans les media sociaux

Introduction :

La détection d’acteurs-clés dans un réseau social est un champ de recherche offrant de multiples défis et applications. Notre champ d’intérêt, les media sociaux, englobent le micro-blogging (Twitter), les blogs, forums, la presse en ligne et ses commentaires. Les applications ne manquent pas : veille économique, détection de la radicalisation, dialogue avec les acteurs-clés d’une région après une catastrophe naturelle.

Ces dernières années, le traitement automatique de la langue a bénéficié des recherches en classification de textes, en résumés ou en détection de la subjectivité. La combinaison de la polarité d’un texte et la détection d’entités nommées permet de mieux comprendre de quoi parle un tweet. Notre objectif est d’utiliser à la fois l’information du réseau (théorie de graphes, interactions) et le contenu échangé (informations, opinions) pour modéliser les groupes d’influence grâce à un système multi-agents.

Première partie : extraction et détection d’opinion

La détection d’opinion et l’analyse de sentiments permettent d’associer une polarité (positive, négative) à un texte, souvent une critique de produit ou de cinéma. Une nouvelle branche de ce domaine est la détection de position (« stance detection ») qui classe un texte de cible connue comme POUR ou CONTRE la cible.

Pour cette tâche, différentes approches existent et sont considérées : le recours aux dictionnaires de synonymes (SentiWordNet par exemple), à l’apprentissage supervisé et non-supervisé selon le vocabulaire (approche Bag-of-Words), mais aussi aux méthodes de projection de texte dans un espace vectoriel sémantique (LSA, LDA, word2vec).

Seconde partie : modélisation du réseau social

Dans un second temps, nous comparerons les définitions de l’influence et évaluerons différentes méthodes de la littérature (topologie de graphe principalement), de l’approche la plus évidente (faculté à faire changer d’opinion) à la prise en compte d’éléments plus cachés (auditeurs muets, rôle d’autorité, discours diffus). Le formalisme utilisé dans le domaine des systèmes multi-agents servira de socle dans ce travail.

Il nous faudra aussi comprendre comment l’information circule dans le réseau, prendre en compte son évolution temporelle (graphe dynamique) et tenter d’appréhender le monde ouvert : nous ne pouvons pas considérer Twitter comme un monde clos. Nous combinerons les métriques usuelles (link-mining) avec l’information provenant des tweets eux-mêmes (opinion-mining) afin d’améliorer notre système. Une simulation multi-agents nous permettra de mettre en scène ces comportements et interactions, et de vérifier la vraisemblance de notre modèle.

Informations pratiques :

Thèse CIFRE, débutée le 1/9/15 chez Airbus Defence & Space au sein de l’équipe Advanced Information Processing. Je suis encadré côté Airbus par Khaled Khelif et Stéphan Brunessaux. Côté académique, je suis dirigé par Alexandre Pauchet, Laurent Vercouter et Nicolas Malandain du Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes (LITIS), à l’INSA de Rouen, dans l’équipe MIND (Multi-Agent, Interaction, Décision;  http://www.litislab.fr/equipe/mind/ ).