Vous êtes ici : Accueil / Recherche Ingénieur / Ingénieur traitement image & machine learning #3517

REMARQUE ! Ce site utilise des cookies et autres technologies similaires.

Si vous ne changez pas les paramètres de votre navigateur, vous êtes d'accord.

J'ai compris

Ingénieur traitement image & machine learning #3517

Retrouvez tous les CV ingénieur de Freejob

-Machine learning
-C/C++
-traitement image
-Super personnalité
toutes les régions
immédiate

Expérience(s) professionnelle(s)

Ingénieur R&D / Doctorant

Orange Labs - Rennes

2013

2016

Date / Durée Contexte du Projet

Détection et reconnaissance de textes incrustés dans les vidéos (OCR vidéo)
Les outils d'indexation et de structuration des vidéos utilisent des systèmes d'analyse des contenus
multimédia pour en extraire des métadonnées. L'objectif de ce projet est de mettre en place un
système de détection et de reconnaissance automatiques de texte dans les vidéos (OCR vidéo). On
s'intéresse principalement aux techniques d'OCR à base d'apprentissage artificiel en application à
la vision par ordinateur ( Deep Learning et Machine Learning). On vise, premièrement, la mise en
place d'un système de détection et de localisation automatiques du texte incrusté dans les vidéos.
Ce système doit être performant en termes de taux de détection et de précision de localisation. Le
deuxième objectif est de développer un système pertinent de reconnaissance automatique du texte
détecté. Cette solution permettra de transcrire le texte figurant sur la région détectée en un texte
éditable par la machine (passage du niveau «pixels » au niveau «caractères »). Une application
particulière est consacrée aux contenues multimédia arabes.
L'évaluation finale des systèmes proposés doit souligner un apport considérable par rapport aux
systèmes d'OCR arabes existants en termes de performances et temps de réponse toute en gardant une
robustesse face à la complexité de l'arrière-plan, aux différentes fontes et conditions
d'acquisition.


Réalisations / Tâches

Partie 1 : Etude, conception et préparation des données
* Étude des systèmes d'OCR commerciaux et non commerciaux existants
* Définition du cahier des charges
* Conception globale des différentes rubriques de la chaîne d'OCR
* Étude en parallèle des algorithmes, librairies et techniques d'apprentissage artificiel (Deep
learning, réseaux de neurones, etc.)
* Anticipation de la phase de mise en place de deux corpus annotés de textes issus des vidéos
1. Développement d'un logiciel pour l'annotation automatique de
2. Encadrement de deux stages d'exécution pour l'annotation
3. Vérification des erreurs et développement des algorithmes de transfert des annotations
à plusieurs formats
Partie 2 : Développement de systèmes de détection automatique de texte dans les vidéos
* Développent de 2 solutions de détection à base de Boosting
1. Implémentation des algorithmes d'extraction des descripteurs visuels
2. Implémentation des algorithmes de Boosting (Adaboost, Gentleboost, cascade)
3. Évaluations des apprentissages automatiques de classification
* Développement d'une 3ième solution à base de Réseaux de Neurones à Convolution (ConvNet ou
CNN)
1. Développement de l'algorithme d'apprentissage (C/C++)
2. Évaluation et test de classification
* Développement de l'algorithme de localisation de texte dans les frames vidéo (analyse
multi-échelle, clustering)
* Tests, évaluations exhaustives et comparaison des 3 solutions de détection en application au
texte arabe (test sur plusieurs chaînes TV)
* Mise en place d'un démonstrateur en ligne pour la meilleure solution de détection
Partie 3 : Mise en place des solutions de reconnaissance de texte
* Conception de la méthodologie de reconnaissance à base du Deep Learning
* Étude des Réseaux de Neurones Récurrents (RNN et BLSTM) pour l'apprentissage séquentiel de la
transcription automatique à partir d'images de texte
* Décortication des librairies d'apprentissage à utiliser (LSTM, ConvNet, DBN)
* Développement des algorithmes d'extraction d'attributs visuels : 4 types d'attributs à base de
Deep Learning ont été mis en place (Auto-encodage et classification caractères)
* Développement d'un schéma d'apprentissage automatique de transcription en utilisant les RNNs
et la base déjà développée (Partie 1)
* Développement de deux autres solutions de reconnaissance de texte à base d'attributs manuels
existants (attributs empiriques après binarisation et caractéristiques HOG)
* Test et évaluation des systèmes de reconnaissance proposés
* Étude comparative entre les différentes solutions mises en place et avec des solutions d'OCR
commerciales
Partie 4 : Intégration de la modélisation linguistique
* Développement de différents modèles de langage à base de Deep Learning et d'autres modèles
fréquentiels (application au texte arabe)
* Mise en place d'un algorithme d'intégration des modèles de langage avec les réponses du
système d'OCR (décodage conjoint/Viterbi)
* Intégration d'autres paramètres de décodage pour améliorer les performances et optimiser
l'espace mémoire et le temps de réponse
* Test et évaluation du schéma global * amélioration considérable des résultats de
reconnaissance (le test est fait sur des flux TV)
Autres :
Présentations orales des travaux (dans des réunions et séminaires internes et externes, des
conférences, etc.), communication orale et écrite et gestion de grandes masses de données tout au
long du projet



Résultats
* 3 systèmes de détection de texte dans les vidéos
* Meilleur détecteur mis sous forme de démonstrateur en ligne
* Différentes méthodes de reconnaissance (OCR) de texte dans les vidéos à base de modèles
connexionnistes (principalement le Deep Learning) avec hautes performances
* Le meilleur système de reconnaissance de texte dépasse une des meilleures solutions
commerciales (en taux de reconnaissance)
* Amélioration considérable des résultats de reconnaissance par des modèles de langage
connexionnistes intégrés en décodage conjoint (plus que 16 points de gain en plus en taux de
reconnaissance mots)
* Différents corpus de texte annotés issus des flux TV (grandes masses) pour la mise en place et
le test des solutions de détection et d'OCR + développement d'un logiciel pour l'annotation
des corpus
* Publications scientifiques
* Présentations dans des séminaires (internes à Orange Labs et externes), dans des conférences
et des réunions




Environnement Technique

Langages C/C++, OpenCV, Matlab, Ruby, PHP, HTML, XML, Perl
Latex for pour la rédaction des documents
Systèmes Windows/Ubuntu

---------





Deep Learning, réseaux de neurones (CNN

2008

2010

Logiciels Visual studio , Matlab, WampServer, Strawberry, Kaldi Toolkit
Outils Machine learning:

---------

Langues

Anglais
Intermédiaire

Etudes

INSA de Lyon
Bac
2014
2014
ENSI Tunisie
Bac
2014
2012
ENSI Tunisie
Bac
2014
2011
IPEIM Tunisie
Bac
2014
2008
Bac
2014
2006
400

Logo de partage Viadeo

 

Pour proposer une offre à ce profil, inscrivez-vous gratuitement :

Published