Ben_kab Bonjour à tous, J’effectue un projet de reconnaissance d’interlocuteur dans le cadre de mon master en data science. Je m’explique : on nous donne un texte représentant un débat entre Mitterrand et Chirac (ou Chirac et Mitterrand, je n’ai pas de préférence). Le but du projet est de construire un modèle informatique permettant de reconnaître à qui appartient telle ou telle phrase. Je vous sollicite donc afin que vous me donniez des conseils. Quels sont les choses à prendre en compte dans le script pour reconnaître qui des deux parle ? Merci d’avance.
france2100 Il suffit sans doute de compter les fréquences des n-grammes du texte (groupes de 1 mot, 2 mots, 3 mots) et de les comparer à celles de leurs corpus habituels. Mitterrand parlera souvent de "solidarité", Chirac de "croissance" et "sécurité".