2. INTRODUCTION
SOMMAIRE
LES MODELES MATHEMATIQUES
L’EXEMPLE DU FOOTBALL
L’EXEMPLE DU TENNIS
CONCLUSION
Les éléments de bas niveau
Les Modèles de Markov Cachés
2
3. LE CONTEXTE TECHNIQUE ET COMMERCIAL
INTRODUCTION
L’AMELIORATION :
Segmentation automatique des scènes
L’annotation sémantique
La détection des objets
La recherche des fins de cadres
LA NECESSITE DE L’INDEXATION AUTOMATIQUE
3
4. UN EXEMPLE D’ALGORITHME
INTRODUCTION
Vidéo
Eléments
visuels :
Couleur,
forme,
mouvement
Texte
Son
Analyse
bas-niveau
Segmentation
des scènes
Identification
des évènements
Séquences
d’apprentissage
Résumé
Vécteurs de
caractéristiques
Algorithmes
de décision
4
6. LES COULEURS (I)
LES ELEMENTS DE BAS NIVEAU
Les moments de la couleur
Les moments centraux
Les moments d’ordre I
La composante « r » centrée
6
7. LES COULEURS (I)
LES ELEMENTS DE BAS NIVEAU
Pour détecter le type de cadre :
M100 (r) et M010 (g)
7
8. LES COULEURS (II)
LES ELEMENTS DE BAS NIVEAU
La couleur dominante (CD)
Le terrain a une couleur uniforme => un domaine de teinte (le H de HSV) assez étroit
La proportion de la CD :
Si la proportion de la CD > ε (ex. 0,2), on va calculer la
proportion du terrain et des joueurs dans chaque cadre
8
9. LES COULEURS (II)
LES ELEMENTS DE BAS NIVEAU
La couleur dominante (CD) : pour détecter
le type de cadre et aussi les transitions
Les transitions
Des terrains différents, mais
toujours un spectre de teinte étroit
9
10. LES COULEURS (II)
LES ELEMENTS DE BAS NIVEAU
La couleur dominante (CD)
La projection horizontale :
…sous-échantillonnée =
(10 éléments)
La proportion du terrain dans l’image :
10
11. LES COULEURS (II)
LES ELEMENTS DE BAS NIVEAU
La couleur dominante (CD)
La projection verticale :
…sous-échantillonnée =
(30 éléments)
La proportion des joueurs dans l’image :
11
12. LES COULEURS (II)
LES ELEMENTS DE BAS NIVEAU
La couleur dominante (CD) – les régions de décision
12
13. LES FORMES
LES ELEMENTS DE BAS NIVEAU
Les moments de la forme
Les moments centraux
Les moments d’ordre I
13
14. LES FORMES
LES ELEMENTS DE BAS NIVEAU
La norme (N) :
Ix, Iy – composantes
du gradient
Pour comparer les formes :
Le moment d’ordre 2 de la norme : Le moment d’ordre 2 de la TH :
14
15. LES FORMES
LES ELEMENTS DE BAS NIVEAU
M2 de la norme
M2 de la TH
15
16. LE MOUVEMENT
LES ELEMENTS DE BAS NIVEAU
Les vecteurs de mouvement (VM)
L’approche courante met l’accent sur la distribution et la pertinence des VM,
et non pas sur la magnitude ou la direction => on a crée un algorithme :
1. Sous-échantillonnage pour arriver à une taille de 192 x 128
2. Division dans des blocs de 16 x 16
3. Prise des 10 x 7 blocs centraux
4. Etablissement des blocs pertinents
5. Application d’une masque de poids :
16
17. LE MOUVEMENT
LES ELEMENTS DE BAS NIVEAU
Les vecteurs de mouvement (VM)
Exemple de vecteurs de mouvement MPEG
A : Zoom | B : Panoramique | C : Statique | D : Objet en mouvement
17
18. LE TEXTE
LES ELEMENTS DE BAS NIVEAU
On utilise les sous-titres affichés ou même le texte généré pendant une
transmission pour trouver les scènes importantes. On peut faire une
classification des mots-clés dans l’ordre attendue :
18
19. LE SON
LES ELEMENTS DE BAS NIVEAU
On peut distinguer deux façons différentes d’utiliser le son :
- Pour reconnaître des mots ou des sons de référence
- Pour détecter l’intensité des réactions du commentateur, du publique etc.
Transition
Type de
cadre
Evénements
Mots/sons
clés 19
26. Détection de jeux dans une vidéo de baseball
Non
jeu
S2
Dans le
jeu
S4
Fin de
jeu
S3
Début
de jeu
S1
a12
a21
a22
a11
a14
a31
a32
a43
a44
a33
v1
v2
v3
v4
26
27. Hidden Markov Model
N: le nombre d’états
M: le nombre des symboles distinct observables par états, la taille de l’alphabet
La matrice des probabilités de transitions A={aij}
aij= P[qt+1 = Sjqt = Si] 1≤ i,j ≤ N
La distribution des probabilités d’observation des symboles à l’état j B= {bj(k ) }
bj(k ) = P[vk at tqt = Sj] 1≤ j ≤ N
1≤ k ≤ M
La distribution initiale π = {πi}
πi = P[q1= Si] 1≤ i ≤ N
Caractéristiques d’une HMM:
27
28. Hidden Markov Model
Pour des mesures de commodité nous utilisons la notation :
λ = (A,B,π)
Notation:
Les chaines de Markov cachées présentent aussi quelque
problèmes :
28
29. Hidden Markov Model
Ayant une séquence d’observation O= O1O2…OT, et le modèle ƛ ,
comment peut on choisir une séquence Q= q1q2….qT optimale au sens d’un critère
prédéfinie?
Problème 1:
29
30. Hidden Markov Model
Comment peut on ajuster les paramètres λ = (A,B,π) pour
maximaliser P[Q λ]?
Problème 2:
30
31. L’algorithme de Viterbi
Solution au Problème 1:
le critère: maximiser P[QO, λ]
on définit :
δt(i) = max P[q1q2….qT = i, O1O2…OT λ]
δt(i) est la plus grande probabilité au long d’un même chemin, à
l’instant t, qui prend en compte les t premières observations, et fini à
l’état Si
δt+1(i) = [max δt(i) aij ]. bj(Ot+1 )
31
32. L’algorithme de Viterbi
Initialisation:
δ1(i) = πi bi(O1 ) 1≤ i ≤ N
Ψ1(i) = 0
Itérations :
δt(j)= max [δt-1(i) aij ]. bi(Ot ) 2≤ t ≤ T
Ψt(i)= argmax[δt-1(i) aij ] 1≤ j ≤ N
Fin:
P*= max [δT(i)]
q*= argmax[δT(i)]
Déroulement de l’algorithme
La séquence Q
maximisant P[QO, λ]
32
33. l’algorithme de Baum-Welch
On définit d ’abord :
ξt(i,j)= P(qt = Si , qt+1= Sj Q, λ)
Ainsi :
ɣt(i)= P(qt = SiQ, λ) =
le nombre de passage par l’états Si .
le nombre de transition de l’état i à l’état j.
Solution au Problème 2:
33
34. En utilisant ces formules on estimes les paramètre d’un nouveau modèle qui
maximise la probabilité d’avoir la séquence d’observation P(Q ƛ)> P(Q λ ):
l’algorithme de Baum-Welch
34
36. Détection de jeux dans une vidéo de baseball
Non
jeu
S2
Dans le
jeu
S4
Fin de
jeu
S3
Début
de jeu
S1
a12
a21
a22
a11
a14
a31
a32
a43
a44
a33
v1
v2
v3
v4
36
38. Détection de jeux dans une vidéo de baseball
Segmentation
de la vidéo
Algorithme
de Viterbi
Séquence
optimale
vidéo à
traiter
Détection des segments de jeu
Modélisation
HMM
38
39. Dans ce cas on utilise des
descripteur basé sur la
distributions des couleurs, la
géométrie du terrain …
Etude de cas
Baseball
39
40. Détection en utilisant les HMM
Rien qu’avec un vecteur de
caractéristiques à 3 éléments ,
on obtient 89% de détection
des jeu
Etude de cas
Sumo Japonais
40
42. Indexation vidéo football
Besoin:
✓ indexation des vidéo de football
Pour cela on doit:
✓ détecter et suivre la balle, les joueurs et l’arbitre
Difficultés:
✓ les occlusions
✓ similarité entre joueurs
✓ variation du nombre de joueurs
✓ mouvements de caméras
✓ bruit
✓ flou caméra
42
43. Suivi de la balle
La balle a en général une forme circulaire sur les plans
rapprochés.
Elle peut ne pas l’être sur les plans larges:
• Eclairage, ombre, occlusion, vitesse de la balle...
la balle est l’élément qui bouge le plus
43
44. Suivi de la balle (suite)
Choix de la trajectoire de la balle (Viterbi)
44
45. Suivi des joueurs
Segmentation en types de plans:
Plan large Plan moyen Plan rapproché Hors cadre
Modèles positifs et négatifs pour le détecteur
Apprentissage:
45
46. Détection des joueurs
Image originale Sélection du plan de jeu Appliquer un masque
sur les joueurs
Réponse initiale
du détecteur de joueurs
Classification par méthode de Sac de caractéristiques
Modèle du joueur
46
49. Détection d’hors jeu
Modèle simplifié de l’action d’hors jeuHors jeu
Disposition des 16 caméras
La détection
d’événements de jeux se
fait à l’aide de l’analyse
des vecteurs de vitesse
49
53. Plan d’étude:
Modèle du court de tennis
Vue globale du système
Algorithme de « tracking » du joueur
Module d’analyse sémantique ( high level )
Méthode d’arbitrage vidéo
53
54. Modèle du court de tennis
H1 : Les dimensions et la forme des lignes du court de
tennis sont connues.
54
55. Modèle du court de tennis
H2: La géométrie de la caméra est gérée par les équations
[1] et [2]
55
56. Modèle du court de tennis
H3: A partir d’une image d’un court de tennis, il est
possible d’extraire les trois segments projetés du
court correspondant à P0P1, P0P2 et P1P3.
56
59. Algorithme de suivi du joueur
1/Soit T le modèle de taille w*w centré à la position
(p,q) dans le cadre actuel C. Soit F le cadre suivant
et Soit N le cadre d’après.
2/Générer une image binaire H contenant
uniquement les segments du court restructuré en F
H(i,j)= { 1 sinon
0 si ligne du court de tennis passe par (i,j)
3/Fixer Max-value = 256*w²
4/Pour chaque pixel sur (i,j) dans une fenêtre B
autour de (p,q) sur F : 59
60. Algorithme de suivi du joueur
a/ Calculer « match_value » au point (p+i,q+j)
Match_value=∑(u,v)ϵ (w*w) |T(u,v)-F(p+i+u,q+j+v)|. H(p+u,q+v)
b/ Si Max_value>match_value, do
Max_value= match_value
Min_p = p + i , min_q = q + j
5/ La localisation correspondante au joueur sur F est
(min_p, min_q).Mettre à jour la localisation du joueur
avec(p,q)=(min_p,minq). Mettre à jour le contenu de T sur
(p,q)
6/Mettre à jour les cadres : C=F ; F=N60
63. High-level Reasoning Module
BL => Baseline
SL => Service line ( horizontal )
NN => Near the line
BLC => Center of the Baseline
SLC => Centre of the Service line
High level Annotations
63
64. 1/Donner des annotations aux vidéos
Net game
Serve and volley
Passing shot
2 /Orientation du jeu :
Défensif
Offensif
64
68. INTEL AUTOMATED SPORTS HIGHLIGHTS
Résumé automatique
Une application assez récente, encore en développement (2006-présent), qui
propose de résoudre tous les problèmes qu’on a adressé dans cette
présentation. Venant de Intel, c’est un outil qui tend aussi vers l’optimisation
des calculs et des ressources utilisées.
72. Browsing Sports Video
R. Dahyot, N. Rea, and A. Kokaram, “Sport video shot segmentation and classification”, in Proc. PIE Int. Conf. Visual
Communication and Image Processing, July 2003, pp. 404–413.
N. Babaguchi, Y. Kawai, and T. Kitahashi, “Event based indexing of broadcasted sports video by intermodal
collaboration,” IEEE Trans. Multimedia, vol. 4, no. 1, pp. 68–75, Mar. 2002.
B. Li, J. Errico, H. Pan, and M.I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” J. Vis.
Commun. Image Represent., vol. 15, pp. 393–424, 2004.
Lawrence R. Rabiner « A tutorial on Hidden Markov Models and selected applications in speech recognition »
B. Li and M.I. Sezan, “Event detection and summarization in sports video,” in Proc. IEEE Workshop Content-based Access
of Image and Video Libraries CAIVL01, 2001, pp. 132–138.
N. Rea, R. Dahyot, and A. Kokaram, “Semantic event detection in sports through motion understanding,” in Proc. 3rd
Int. Conf. Image and Video Retrieval (CIVR 04), July 2004, pp. 88–97.
J. Assfalg, M. Bertini, C. Colombo, A. del Bimbo, and W. Nunziati, “Semantic annotation of soccer videos: Automatic
highlights identification” Comput. Vis.Image Understand., vol. 92, no. 2–3, pp. 285–305, Nov. 2003.
H. Denman, N. Rea and A. Kokaram, “Content Based analysis for video from Snooker Broadcasts”
Baoxin Li and M. Ibrahim Sezan, « Event Detection and Summarization in Sports Video»
G.Sudhir, John C. M. Lee and Anil K. Jain, « Automatic Classification of Tennis Video for High-Level Content-based
Retrieval »
http://eric.cabrol.free.fr/dotclear/index.php/2008/07/29/727-hawkeye
V. Pallavi, J. Mukherjee, A.K. Majumdar, S. Sural, Ball detection from broadcast soccer videos using static and dynamic
features, Journal Visual Communica- tion and Image Representation 19 (7) (2008) 426–436.
J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, H. Wang, B. Yang, L. Sun, S. Yang, Automatic player detection, Labeling and
Tracking in Broadcast Soccer Video, in: British Machine Vision Conference, University of Warwick, UK, 10–13 September
2007.
J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, H. Wang, Automatic player detection, labeling and tracking in broadcast soccer
video, Pattern Recognition Letters 30 (2) (2009) 103–113.
REFERENCES
72
Editor's Notes
Des décisions logiques sont prises en fonction des valeurs des cases de notre tableau. Plus exactement, ces décisions sont prises en fonction de la position de chaque joueur sur le court. Sur ce, on pourra juger ou commenter le style de jeu de chaque joueur .. Parler éventuellement du développement de certaines techniques .. Les points forts, faibles .. Etc bd3 !!