Sports video indexing

L’INDEXATION DES
TRANSMISSIONS SPORTIVES
Mohamed Amine BERGACH
Mohammed Salim BOUHADDIOUI
Soukaina FAROUKI
Adrian-Victor MANOLIU
20 Octobre 2010TELECOM SudParis
1

 INTRODUCTION
SOMMAIRE
 LES MODELES MATHEMATIQUES
 L’EXEMPLE DU FOOTBALL
 L’EXEMPLE DU TENNIS
 CONCLUSION
 Les éléments de bas niveau
 Les Modèles de Markov Cachés
2

 LE CONTEXTE TECHNIQUE ET COMMERCIAL
INTRODUCTION
 L’AMELIORATION :
 Segmentation automatique des scènes
 L’annotation sémantique
 La détection des objets
 La recherche des fins de cadres
 LA NECESSITE DE L’INDEXATION AUTOMATIQUE
3

 UN EXEMPLE D’ALGORITHME
INTRODUCTION
Vidéo
Eléments
visuels :
Couleur,
forme,
mouvement
Texte
Son
Analyse
bas-niveau
Segmentation
des scènes
Identification
des évènements
Séquences
d’apprentissage
Résumé
Vécteurs de
caractéristiques
Algorithmes
de décision
4

 LES COULEURS (I)
LES ELEMENTS DE BAS NIVEAU
Les moments de la couleur
Les moments centraux
Les moments d’ordre I
La composante « r » centrée
6

 LES COULEURS (I)
Pour détecter le type de cadre :
M100 (r) et M010 (g)
7

 LES COULEURS (II)
La couleur dominante (CD)
Le terrain a une couleur uniforme => un domaine de teinte (le H de HSV) assez étroit
La proportion de la CD :
Si la proportion de la CD > ε (ex. 0,2), on va calculer la
proportion du terrain et des joueurs dans chaque cadre
8

La couleur dominante (CD) : pour détecter
le type de cadre et aussi les transitions
Les transitions
Des terrains différents, mais
toujours un spectre de teinte étroit
9

La projection horizontale :
…sous-échantillonnée =
(10 éléments)
La proportion du terrain dans l’image :
10

La projection verticale :
…sous-échantillonnée =
(30 éléments)
La proportion des joueurs dans l’image :
11

La couleur dominante (CD) – les régions de décision
12

 LES FORMES
Les moments de la forme
Les moments centraux
Les moments d’ordre I
13

 LES FORMES
La norme (N) :
Ix, Iy – composantes
du gradient
Pour comparer les formes :
Le moment d’ordre 2 de la norme : Le moment d’ordre 2 de la TH :
14

 LES FORMES
M2 de la norme
M2 de la TH
15

 LE MOUVEMENT
Les vecteurs de mouvement (VM)
L’approche courante met l’accent sur la distribution et la pertinence des VM,
et non pas sur la magnitude ou la direction => on a crée un algorithme :
1. Sous-échantillonnage pour arriver à une taille de 192 x 128
2. Division dans des blocs de 16 x 16
3. Prise des 10 x 7 blocs centraux
4. Etablissement des blocs pertinents
5. Application d’une masque de poids :
16

 LE MOUVEMENT
Les vecteurs de mouvement (VM)
Exemple de vecteurs de mouvement MPEG
A : Zoom | B : Panoramique | C : Statique | D : Objet en mouvement
17

 LE TEXTE
On utilise les sous-titres affichés ou même le texte généré pendant une
transmission pour trouver les scènes importantes. On peut faire une
classification des mots-clés dans l’ordre attendue :
18

 LE SON
On peut distinguer deux façons différentes d’utiliser le son :
- Pour reconnaître des mots ou des sons de référence
- Pour détecter l’intensité des réactions du commentateur, du publique etc.
Transition
Type de
cadre
Evénements
Mots/sons
clés 19

 LE SVM
(Support Vector Model)
LA CLASSIFICATION
20

ANALYSE MOYEN & HAUT NIVEAU
21

Schéma directeur
Vidéo
Eléments
visuels :
Couleur,
forme,
mouvement
Texte
Son
Analyse
bas-niveau
Segmentation
des scènes
Identification
des évènements
Séquences
d’apprentissage
Résumé
Vécteurs de
caractéristiques
Algorithmes
de décision
22

Détection de jeux dans une vidéo de baseball
23

24

Non
jeu
S2
Dans le
jeu
S4
Fin de
jeu
S3
Début
de jeu
S1
a12
a21
a22
a11
a14
a31
a32
a43
a44
a33
v1
v2
v3
v4
26

Hidden Markov Model
 N: le nombre d’états
M: le nombre des symboles distinct observables par états, la taille de l’alphabet
La matrice des probabilités de transitions A={aij}
aij= P[qt+1 = Sjqt = Si] 1≤ i,j ≤ N
La distribution des probabilités d’observation des symboles à l’état j B= {bj(k ) }
bj(k ) = P[vk at tqt = Sj] 1≤ j ≤ N
1≤ k ≤ M
La distribution initiale π = {πi}
πi = P[q1= Si] 1≤ i ≤ N
 Caractéristiques d’une HMM:
27

Hidden Markov Model
Pour des mesures de commodité nous utilisons la notation :
λ = (A,B,π)
 Notation:
Les chaines de Markov cachées présentent aussi quelque
problèmes :
28

Hidden Markov Model
Ayant une séquence d’observation O= O1O2…OT, et le modèle ƛ ,
comment peut on choisir une séquence Q= q1q2….qT optimale au sens d’un critère
prédéfinie?
 Problème 1:
29

Hidden Markov Model
Comment peut on ajuster les paramètres λ = (A,B,π) pour
maximaliser P[Q λ]?
 Problème 2:
30

L’algorithme de Viterbi
 Solution au Problème 1:
le critère: maximiser P[QO, λ]
on définit :
δt(i) = max P[q1q2….qT = i, O1O2…OT λ]
δt(i) est la plus grande probabilité au long d’un même chemin, à
l’instant t, qui prend en compte les t premières observations, et fini à
l’état Si
δt+1(i) = [max δt(i) aij ]. bj(Ot+1 )
31

L’algorithme de Viterbi
 Initialisation:
δ1(i) = πi bi(O1 ) 1≤ i ≤ N
Ψ1(i) = 0
 Itérations :
δt(j)= max [δt-1(i) aij ]. bi(Ot ) 2≤ t ≤ T
Ψt(i)= argmax[δt-1(i) aij ] 1≤ j ≤ N
 Fin:
P*= max [δT(i)]
q*= argmax[δT(i)]
 Déroulement de l’algorithme
La séquence Q
maximisant P[QO, λ]
32

l’algorithme de Baum-Welch
On définit d ’abord :
ξt(i,j)= P(qt = Si , qt+1= Sj Q, λ)
Ainsi :
ɣt(i)= P(qt = SiQ, λ) =
le nombre de passage par l’états Si .
le nombre de transition de l’état i à l’état j.
 Solution au Problème 2:
33

En utilisant ces formules on estimes les paramètre d’un nouveau modèle qui
maximise la probabilité d’avoir la séquence d’observation P(Q ƛ)> P(Q λ ):
l’algorithme de Baum-Welch
34

35

Non
jeu
S2
Dans le
jeu
S4
Fin de
jeu
S3
Début
de jeu
S1
a12
a21
a22
a11
a14
a31
a32
a43
a44
a33
v1
v2
v3
v4
36

Séquence d’apprentissage:
Extraction
de trames
Calcule de Vk
Estimation
des
paramètres
du model
Algorithme
de Baum
Weltch
Une vidéo
traitée
Le modèle λ
approprié
37

Segmentation
de la vidéo
Algorithme
de Viterbi
Séquence
optimale
vidéo à
traiter
Détection des segments de jeu
Modélisation
HMM
38

Dans ce cas on utilise des
descripteur basé sur la
distributions des couleurs, la
géométrie du terrain …
Etude de cas
 Baseball
39

Détection en utilisant les HMM
Rien qu’avec un vecteur de
caractéristiques à 3 éléments ,
on obtient 89% de détection
des jeu
Etude de cas
 Sumo Japonais
40

Indexation vidéo football
 Besoin:
✓ indexation des vidéo de football
 Pour cela on doit:
✓ détecter et suivre la balle, les joueurs et l’arbitre
 Difficultés:
✓ les occlusions
✓ similarité entre joueurs
✓ variation du nombre de joueurs
✓ mouvements de caméras
✓ bruit
✓ flou caméra
42

Suivi de la balle
 La balle a en général une forme circulaire sur les plans
rapprochés.
 Elle peut ne pas l’être sur les plans larges:
• Eclairage, ombre, occlusion, vitesse de la balle...
 la balle est l’élément qui bouge le plus
43

Suivi de la balle (suite)
Choix de la trajectoire de la balle (Viterbi)
44

Suivi des joueurs
Segmentation en types de plans:
Plan large Plan moyen Plan rapproché Hors cadre
Modèles positifs et négatifs pour le détecteur
Apprentissage:
45

Détection des joueurs
Image originale Sélection du plan de jeu Appliquer un masque
sur les joueurs
Réponse initiale
du détecteur de joueurs
Classification par méthode de Sac de caractéristiques
Modèle du joueur
46

interpolation de vues
Différents point de vue d’un joueur
47

Détection d’hors jeu
Modèle simplifié de l’action d’hors jeuHors jeu
Disposition des 16 caméras
La détection
d’événements de jeux se
fait à l’aide de l’analyse
des vecteurs de vitesse
49

Autre approche
La tactique de l’équipe La distance parcourue La préparation des tirs
51

Plan d’étude:
 Modèle du court de tennis
 Vue globale du système
 Algorithme de « tracking » du joueur
 Module d’analyse sémantique ( high level )
 Méthode d’arbitrage vidéo
53

Modèle du court de tennis
 H1 : Les dimensions et la forme des lignes du court de
tennis sont connues.
54

 H2: La géométrie de la caméra est gérée par les équations
[1] et [2]
55

 H3: A partir d’une image d’un court de tennis, il est
possible d’extraire les trois segments projetés du
court correspondant à P0P1, P0P2 et P1P3.
56

Algorithme de suivi du joueur
58

 1/Soit T le modèle de taille w*w centré à la position
(p,q) dans le cadre actuel C. Soit F le cadre suivant
et Soit N le cadre d’après.
 2/Générer une image binaire H contenant
uniquement les segments du court restructuré en F
H(i,j)= { 1 sinon
0 si ligne du court de tennis passe par (i,j)
 3/Fixer Max-value = 256*w²
 4/Pour chaque pixel sur (i,j) dans une fenêtre B
autour de (p,q) sur F : 59

 a/ Calculer « match_value » au point (p+i,q+j)
Match_value=∑(u,v)ϵ (w*w) |T(u,v)-F(p+i+u,q+j+v)|. H(p+u,q+v)
 b/ Si Max_value>match_value, do
 Max_value= match_value
 Min_p = p + i , min_q = q + j
 5/ La localisation correspondante au joueur sur F est
(min_p, min_q).Mettre à jour la localisation du joueur
avec(p,q)=(min_p,minq). Mettre à jour le contenu de T sur
(p,q)
 6/Mettre à jour les cadres : C=F ; F=N60

Noms des différents ségments
62

High-level Reasoning Module
 BL => Baseline
 SL => Service line ( horizontal )
 NN => Near the line
 BLC => Center of the Baseline
 SLC => Centre of the Service line
 High level Annotations
63

1/Donner des annotations aux vidéos
 Net game
 Serve and volley
 Passing shot
2 /Orientation du jeu :
 Défensif
 Offensif
64

 INTEL AUTOMATED SPORTS HIGHLIGHTS
Résumé automatique
Une application assez récente, encore en développement (2006-présent), qui
propose de résoudre tous les problèmes qu’on a adressé dans cette
présentation. Venant de Intel, c’est un outil qui tend aussi vers l’optimisation
des calculs et des ressources utilisées.

All Sports Analysis Program
69

 Browsing Sports Video
 R. Dahyot, N. Rea, and A. Kokaram, “Sport video shot segmentation and classification”, in Proc. PIE Int. Conf. Visual
Communication and Image Processing, July 2003, pp. 404–413.
 N. Babaguchi, Y. Kawai, and T. Kitahashi, “Event based indexing of broadcasted sports video by intermodal
collaboration,” IEEE Trans. Multimedia, vol. 4, no. 1, pp. 68–75, Mar. 2002.
 B. Li, J. Errico, H. Pan, and M.I. Sezan, “Bridging the semantic gap in sports video retrieval and summarization,” J. Vis.
Commun. Image Represent., vol. 15, pp. 393–424, 2004.
 Lawrence R. Rabiner « A tutorial on Hidden Markov Models and selected applications in speech recognition »
 B. Li and M.I. Sezan, “Event detection and summarization in sports video,” in Proc. IEEE Workshop Content-based Access
of Image and Video Libraries CAIVL01, 2001, pp. 132–138.
 N. Rea, R. Dahyot, and A. Kokaram, “Semantic event detection in sports through motion understanding,” in Proc. 3rd
Int. Conf. Image and Video Retrieval (CIVR 04), July 2004, pp. 88–97.
 J. Assfalg, M. Bertini, C. Colombo, A. del Bimbo, and W. Nunziati, “Semantic annotation of soccer videos: Automatic
highlights identification” Comput. Vis.Image Understand., vol. 92, no. 2–3, pp. 285–305, Nov. 2003.
 H. Denman, N. Rea and A. Kokaram, “Content Based analysis for video from Snooker Broadcasts”
 Baoxin Li and M. Ibrahim Sezan, « Event Detection and Summarization in Sports Video»
 G.Sudhir, John C. M. Lee and Anil K. Jain, « Automatic Classification of Tennis Video for High-Level Content-based
Retrieval »
 http://eric.cabrol.free.fr/dotclear/index.php/2008/07/29/727-hawkeye
 V. Pallavi, J. Mukherjee, A.K. Majumdar, S. Sural, Ball detection from broadcast soccer videos using static and dynamic
features, Journal Visual Communica- tion and Image Representation 19 (7) (2008) 426–436.
 J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, H. Wang, B. Yang, L. Sun, S. Yang, Automatic player detection, Labeling and
Tracking in Broadcast Soccer Video, in: British Machine Vision Conference, University of Warwick, UK, 10–13 September
2007.
 J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, H. Wang, Automatic player detection, labeling and tracking in broadcast soccer
video, Pattern Recognition Letters 30 (2) (2009) 103–113.
REFERENCES
72

Sports video indexing

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Sports video indexing

Editor's Notes