Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Master_Thesis

153 views

Published on

  • Login to see the comments

  • Be the first to like this

Master_Thesis

  1. 1. ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα Σπουδών ‘Συστήματα Επεξεργασίας Σημάτων και Επικοινωνιών (ΣΕΣΕ)’ Διπλωματική Εργασία Σταθμισμένη Αντιστοίχιση Εικόνων Λαμπρινού Νεφέλη ΑΜ 192 Επιβλέπων Καθηγητής Ψαράκης Εμμανουήλ , Επίκουρος Καθηγητής ΤΜΗΥΠ Πάτρα , Σεπτέμβριος 2014
  2. 2. Περιεχόμενα 1 Εισαγωγή 1 1.1 Υπολογιστική ΄Οραση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Ευθυγράμμιση Εικόνων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Οργάνωση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Αντιστοίχιση Εικόνων 4 2.1 Παραμετρικά μοντέλα γεωμετρικών μετασχηματισμών . . . . . . . . . . . . . 6 2.1.1 Μετατόπιση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Ευκλείδειος Μετασχηματισμός . . . . . . . . . . . . . . . . . . . . . . 7 2.1.3 Μετασχηματισμός ομοιότητας . . . . . . . . . . . . . . . . . . . . . . 8 2.1.4 Μετασχηματισμός συγγένειας . . . . . . . . . . . . . . . . . . . . . . 9 2.1.5 Μετασχηματισμός προβολής . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Ορισμός του προβλήματος Αντιστοίχισης . . . . . . . . . . . . . . . . . . . . 10 2.3 Feature-based Τεχνικές . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 Area-based τεχνικές . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3 Μοντέλα Active Appearance 17 3.1 Active Μοντέλα Σχήματος . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1.1 Στατιστικά Μοντέλα Σχήματος . . . . . . . . . . . . . . . . . . . . . 18 3.1.2 Στατιστικά Appearance Μοντέλα . . . . . . . . . . . . . . . . . . . . 19 3.1.3 Αναπαράσταση ακμών με χρήση προσανατολισμού . . . . . . . . . . . 22 3.1.4 Εντοπισμός χαρακτηριστικών προσώπου . . . . . . . . . . . . . . . . . 24 3.2 Active Appearence Μοντέλα . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.1 Ανεξάρτητα Μοντέλα . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2.2 Συνδυαστικά μοντέλα . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 i
  3. 3. ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ 4 Αλγόριθμοι βασισμένοι στο Τετραγωνικό Σφάλμα 29 4.1 Αλγόριθμος Lucas-Kanade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.1.1 Γραμμικοποίηση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.2 Compositional και Inverse Compositional αλγόριθμοι . . . . . . . . . 31 4.2 Lucas-Kanade με βάρη . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3 Fourier Lucas-Kanade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5 Αλγόριθμοι Συσχέτισης 37 5.1 Αλγόριθμος ECC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2 Ευθυγράμμιση Προσώπων . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2.1 Inverse-Compositional Αλγόριθμος . . . . . . . . . . . . . . . . . . . 42 6 Σταθμισμένη Αντιστοίχιση Εικόνων 43 6.1 Αλγόριθμος P- ECC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.1.1 Μεγιστοποίηση του μέτρου ομοιότητας . . . . . . . . . . . . . . . . . 44 6.2 Σταθμισμένη Αντιστοίχιση εικόνων . . . . . . . . . . . . . . . . . . . . . . . 46 6.2.1 Λύση βασισμένη στα Ελάχιστα Τετράγωνα . . . . . . . . . . . . . . . 46 6.2.2 Διαχωρισμός εξισώσεων . . . . . . . . . . . . . . . . . . . . . . . . . 48 7 Πειράματα 52 7.1 Περιγραφή Πειραματικών Δεδομένων . . . . . . . . . . . . . . . . . . . . . . 52 7.2 Αποτελέσματα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 7.2.1 Χωρίς φωτομετρικές παραμορφώσεις (Yale B) . . . . . . . . . . . . . . 53 7.2.2 Με φωτομετρικές παραμορφώσεις . . . . . . . . . . . . . . . . . . . . 56 Σψμπεράσματα 60 Παράρτημα Α 62 Παράρτημα Β 65 ii
  4. 4. Κατάλογος Σχημάτων 1.1 Σχέση ανάμεσα στην Υπολογιστική ΄Οραση και άλλα επιστημονικά πεδία . . . 2 1.2 Εικόνες με παραμορφώσεις που οφείλονται σε διαφορετικούς παράγοντες . . . 2 2.1 Εφαρμογές της αντιστοίχισης εικόνων στις οποίες έμμεσα ή άμεσα πρέπει να λυθεί το πρόβλημα της αντιστοίχισης εικόνων . . . . . . . . . . . . . . . . . 4 2.2 Παράδειγμα μετασχηματισμών . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Μετασχηματισμός μετατόπισης . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Ευκλείδειος μετασχηματισμός . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Μετασχηματισμός ομοιότητας . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.6 Μετασχηματισμός συγγένειας . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.7 Μετασχηματισμός προβολής . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.8 Εξαγωγή χαρακτηριστικών σε εικόνα . . . . . . . . . . . . . . . . . . . . . . 13 2.9 Σάρωση εικόνας με παράθυρο . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1 Παράδειγμα μοντέλων προσώπων με τροποποιημένες παραμέτρους κατά ±3 τυπική απόκλιση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Το κάθε παράδειγμα διαιρείται σε ένα σύνολο σημείων και ένα μοντέλο υφής . 20 3.3 (α΄) Μεταβολή σχήματος (±3 τ.α), (β΄) Μεταβολή φωτεινότητας (±3 τ.α), (γ΄) Μεταβολή appearance (±3 τ.α) . . . . . . . . . . . . . . . . . . . . . . . 22 3.4 Ο αλγόριθμος TST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.5 Στις εικόνες (α)-(δ) το κεφάλι περιστρέφεται σε σχέση με την κάμερα ενώ στις (ε)-(η) η επιτυχημένη ανίχνευση χαρακτηριστικών στις προηγούμενες εικόνες. 25 3.6 Το γραμμικό μοντέλο σχήματος ενός ΑΑΜ. Το αρχικό μοντέλο s0 και τα τρία πρώτα διανύσματα σχήματος s1, s2, s3 . . . . . . . . . . . . . . . . . . . . . . 26 1
  5. 5. ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ 3.7 Το γραμμικό μοντέλο εμφάνισης ενός ανεξάρτητου ΑΑΜ. Η βασική εμφάνιση A0 και οι τρεις πρώτες εικόνες εμφάνισης A1, A2, A3 . . . . . . . . . . . . . . 27 3.8 Δημιουργία παραδείγματος από το ανεξάρτητο ΑΑΜ μοντέλο. . . . . . . . . 27 4.1 Σχηματικό διάγραμμα του αλγορίθμου των Lucas-Kanade . . . . . . . . . . . 31 4.2 Εκτίμηση γεωμετρικού μετασχηματισμού σε εικόνα με διαφορετικές φωτομε- τρικές συνθήκες από το πρότυπο . . . . . . . . . . . . . . . . . . . . . . . . . 36 6.1 (a) Η εικόνα αναφοράς και (b) η εικόνα προς αντιστοίχιση . . . . . . . . . . . 51 7.1 Παράδειγμα εικόνας (a) παραμορφωμένης για (b)σ = 7 και (c)σ = 15 . . . . . 53 7.2 Ποσοστά σύγκλισης των συγκρινόμενων αλγορίθμων για θόρυβο με σ = 5 : 15. 54 7.3 Η επιλογή σημείων για σ = 5 (a) στην 1η επανάληψη, (b) στην 4η επανάληψη και (c) στην 7η επανάληψη που ο αλγόριθμος έχει συγκλίνει . . . . . . . . . . 55 7.4 Η επιλογή σημείων για σ = 15 (a) στην 1η επανάληψη, (b) στην 18η επανάληψη και (c) στην 28η επανάληψη που ο αλγόριθμος έχει συγκλίνει . . . . . . . . . 56 7.5 (α) Εικόνα αναφοράς και (β)-(ε) φωτομετρικά παραμορφωμένες εικόνες προς αντιστοίχιση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.6 Επιλογή σημείων στην 1η επανάληψη για (a) σ = 5 και (b)σ = 10 και (c) όταν ο αλγόριθμος έχει συγκλίνει . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.7 Εφαρμογή PCA σε δισδιάστατα διανύσματα. p είναι ο βασικός άξονας. Κάθε σημείο x μπορεί να προσεγγιστεί από το πλησιέστερο σημείο στη γραμμή, x . 65 7.8 Το μέσο πρόσωπο και τα κυρίαρχα ιδιοπρόσωπα (a) κατά την αρχικοποίηση και (b) μετά τη δεύτερη επανάληψη. . . . . . . . . . . . . . . . . . . . . . . . 69 2
  6. 6. Κατάλογος Πινάκων 2.1 Δισδιάστατοι γεωμετρικοί μετασχηματισμοί . . . . . . . . . . . . . . . . . . . 6 7.1 Μέσο σφάλμα των επιτυχημένων περιπτώσεων σε εικόνες χωρίς φωτομετρικές παραμορφώσεις . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 7.2 Ποσοστά επιτυχίας % για σ = 5 . . . . . . . . . . . . . . . . . . . . . . . . . 58 7.3 Ποσοστά επιτυχίας % για σ = 10 . . . . . . . . . . . . . . . . . . . . . . . . . 58 3
  7. 7. Πρόλογος Το πρόβλημα της αντιστοίχισης εικόνων είναι ένα από τα σημαντικότερα στο πεδίο της υ- πολογιστικής όρασης, αφού η ευθυγράμμιση δύο ή περισσότερων εικόνων χρησιμοποιείται τουλάχιστον σαν στάδιο προεπεξεργασίας σε ένα μεγάλο αριθμό εφαρμογών. Στην εργα- σία αυτή μας απασχόλησε το πρόβλημα της στοίχισης εικόνων στις οποίες οι φωτομετρικές παραμορφώσεις είναι τοπικές και δεν μπορούν να μοντελοποιηθούν με το γενικό σφαιρικό μοντέλο της αντίθεσης και της φωτεινότητας, ή/και τμήματα των προς στοίχιση εικόνων είναι αποκλεισμένα από τη μια από αυτές. Για την αντιμετώπιση των παραπάνω προβλημάτων, η αντιστοίχηση των εικόνων προσεγ- γίστηκε μέσω της σταθμισμένης ελαχιστοποίησης μετρικών σφάλματος που βασίζονται στο τετραγωνικό σφάλμα. Συγκεκριμένα, εκμεταλλευόμαστε την αμεταβλητότητα της κανονικο- ποιημένης κλίσης μιας εικόνας σε τοπικές φωτομετρικές παραμορφώσεις και τη δυνατότητα στοίχισης κάθε ζεύγους αντίστοιχων εικονοστοιχείων των υπό στοίχιση εικόνων με την με- γιστοποίηση της μεταξύ τους συσχέτισης. ΄Ετσι πετυχαίνουμε την αποσύνδεση του αρχικού προβλήματος σε δύο υποπροβλήματα η λύση των οποίων καταλήγει σε δύο υπερκαθορισμένα συστήματα γραμμικών εξισώσεων, καθένα εκ των οποίων έχει ως αγνώστους τις ανά κατεύ- θυνση παράμετρες του μετασχηματισμού που αναζητούμε για την εξάλειψη της γεωμετρικής παραμόρφωσης και ως δεξιό μέλος τις τιμές των φωτομετρικών παραμορφώσεων. Τελικά, με την επιλογή δύο κατάλληλων υποσυνόλων των προαναφερθέντων γραμμικών εξισώσεων, που εξασφαλίζουν την εφικτότητα των επιμέρους λύσεων οδηγούμαστε στον προσδιορισμό των βέλτιστων παραμέτρων. Η προτεινόμενη τεχνική δοκιμάστηκε στη βάση προσώπων Yale Β που έχει χρησιμοποιη- θεί από άλλες τεχνικές αντιστοίχισης που είναι ειδικά προσαρμοσμένες για την αντιστοίχιση προσώπων. Η απόδοση της προτεινόμενης τεχνικής είναι πολύ καλή και υπερτερεί και στα ποσοστά σύγκλισης αλλά και στην ακρίβεια των λύσεων από την απόδοση των άλλων τεχνι- κών τόσο στη στοίχιση εικόνων που έχουν υποστεί γεωμετρικές παραμορφώσεις (από πολύ μικρές μέχρι και πολύ έντονες) όσο και σε εικόνες με διαφορετικές έντονες φωτομετρικές παραμορφώσεις. Επίσης, η προτεινόμενη τεχνική δοκιμάστηκε στις βάσεις του Affine Covari- ance Regions του University of Oxford στις οποίες το περιεχόμενο των εικόνων είναι γενικό και οι ειδικού σκοπού τεχνικές αποτυγχάνουν, με εξίσου πολύ καλή απόδοση.
  8. 8. Abstract The image registration problem is one of the most important problems in the field of computer vision, since the process of aligning two or more images is used, at least as a preprocessing step, in many applications. In this work, we employed the problem of image alignment in which the photometric deformations are local and can not be modeled with the general spherical model of contrast and brightness, and / or portions of images to align are occluded. To address these problems, the image registration was approached by minimizing the weighted error metric based on squared error. In particular, we exploit the invariance of the normalized image gradient in local photometric deformations so we can align each pair of corresponding pixels in the images by maximizing the correlation between them. Thus, we achieve to dissolve the original problem into two subproblems the solution of which leads to two over-determined systems of linear equations, each of which has the direction parameters of the transformation we seek to estimate as unknowns and as right member the values of photometric deformations. Ultimately, the choice of two suitable subsets of the above linear equations, ensuring the feasibility of individual solutions we are lead to the identification of best parameters. The proposed technique was tested in Yale B face database which has been used by other mapping techniques adapted to matching persons. The performance of the proposed tech- nique is very good and superior at the convergence rates and the accuracy of the solutions to the performance of other techniques concerning both images that have undergone ge- ometrical deformation (from very small to very intense) and images in different intense photometric deformations. Also, the proposed technique was tested on database of Affine Covariance Regions of the University of Oxford in which the content of the images is general and special-purpose techniques fail, with equally good performance.
  9. 9. Κεφάλαιο 1 Εισαγωγή Η όραση είναι η διαδικασία όπου βλέπουμε ενώ ταυτόχρονα κατανοούμε. ΄Οταν βλέπουμε πράγματα τα μάτια μας (η αισθητήρια συσκευή) συλλαμβάνουν την εικόνα και στη συνέχεια στέλνουν την πληροφορία στο μυαλό (η συσκευή ερμηνείας) που την ερμηνεύει και δίνει νόημα σε αυτά που βλέπουμε. Στην υπολογιστική όραση η κάμερα είναι η αισθητήρια συσκευή και ο υπολογιστής λειτουργεί ως συσκευή ερμηνείας[16]. 1.1 Υπολογιστική ΄Οραση Η Υπολογιστική ΄Οραση είναι μια από τους μεγαλύτερους και συνεχώς εξελισσόμενους τομείς της επιστήμης των υπολογιστών και έχει ως στόχο τη δημιουργία συστημάτων που θα μπορούν να εξάγουν πληροφορίες από εικόνες. Πολλές από τις σύγχρονες εφαρμογές της όπως η πλοήγηση ρομπότ, οι δορυφορικοί χάρτες, τα συστήματα ιατρικής διάγνωσης από ακολουθίες εικόνων μαγνητικής τομογραφίας ή ακτινογραφίες και χρησιμοποιούν τεχνικές αντιστοίχισης εικόνων. Η υπολογιστική όραση είναι ένας τομέας που αφορά την επεξεργασία, ανάλυση και κατανόηση των εικόνων με σκοπό την παραγωγή αριθμητικών ή συμβολικών πληροφοριών, για παράδειγ- μα με τη μορφή αποφάσεων. ΄Ενας στόχος της ανάπτυξης του τομέα αυτού είναι να μπορέσει να αντιγράψει τις δυνατότητες της ανθρώπινης όρασης στην αντίληψη και κατανόηση των εικόνων. 1
  10. 10. ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ Σχήμα 1.1: Σχέση ανάμεσα στην Υπολογιστική ΄Οραση και άλλα επιστημονικά πεδία ΄Οπως μπορούμε να δούμε στο Σχήμα 1 είναι προφανής η στενή σχέση της υπολογιστικής όρασης με το πεδίο της επεξεργασίας εικόνας και της μηχανικής όρασης, όμως και πολλά άλλα επιστημονικά πεδία χρησιμοποιούν τεχνικές της, όπως για παράδειγμα η τεχνητή νοημοσύνη στην αναγνώριση προτύπων και η νευροβιολογία στη μελέτη του βιολογικού συστήματος όρασης. 1.2 Ευθυγράμμιση Εικόνων ΄Ενα από τα σημαντικότερα προβλήματα της υπολογιστικής όρασης είναι η αντιστοίχιση εικό- νων, δηλαδή η διαδικασία ‘ευθυγράμμισης’ δυο ή περισσότερων εικόνων, η οποία χρησιμοποιεί- ται, τουλάχιστον στο στάδιο προεπεξεργασίας, στις περισσότερες εφαρμογές υπολογιστικής όρασης. ΄Ενα αρκετά απαιτητικό πρόβλημα της αντιστοίχισης εικόνων είναι η ευθυγράμμιση προσώπων, ιδιαίτερα όταν αυτή αφορά σε πραγματικές εικόνες. Η δυσκολία προκύπτει κυρίως από τις πολλές διαφορετικές συνθήκες που μπορεί να επικρατούν κατά την λήψη της εικόνας, όπως ισχυρές παραμορφώσεις, έντονα διαφορετικές συνθήκες φωτισμού, τις διαφορετικές εκφράσεις που μπορεί να πάρει ένα πρόσωπο όπως και η χρήση αντικειμένων που μπορεί να κρύβουν μέρος του όπως γυαλιά ηλίου ή φουλάρια, όπως μπορούμε να δούμε στο Σχήμα 2. Σχήμα 1.2: Εικόνες με παραμορφώσεις που οφείλονται σε διαφορετικούς παράγοντες Το πρόβλημα αυτό είναι υπαρκτό και σε εικόνες που δεν έχουν το πρόσωπο ως βασικό τους 2
  11. 11. ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ περιεχόμενο, αν σε αυτές βρίσκουμε παραμορφώσεις ή επικαλύψεις βασικών χαρακτηριστικών της σκηνής, σημείων ή αντικειμένων που θα βοηθούσαν στην ευθυγράμμιση. Εφαρμογές της ευθυγράμμισης αντικειμένων είναι η ιχνηλάτιση, η αναγνώριση και στην περίπτωση εικόνων με πρόσωπα μοντελοποίηση προσώπου και η αλληλεπίδραση ανθρώπου υπολογιστή. 1.3 Οργάνωση Στη συνέχεια η εργασία οργανώνεται ως εξής: Στο 2ο Κεφάλαιο παρουσιάζονται οι δι- σδιάστατοι μετασχηματισμοί εικόνων, ορίζεται το πρόβλημα της αντιστοίχισης εικόνων και προσδιορίζονται οι διαφορές ανάμεσα στις διαφορετικές κατηγορίες αντιστοίχισης. Στο 3ο Κεφάλαιο παρουσιάζονται τα Active Μοντέλα Σχήματος και τα Active Appearance Μοντέλα που χρησιμοποιούνται για τον εντοπισμό και την αναγνώριση προσώπων. Στο 4ο Κεφάλαιο αναλύεται ο αλγόριθμος Lucas-Kanade, όπως και οι παραλλαγές του με βάρη και με χρήση του μετασχηματισμού Fourier. Στο 5ο Κεφάλαιο παρουσιάζονται αλγόριθμοι βασισμένοι στο κριτήριο της συσχέτισης, ο ECC (Enhanced Correlation Coefficient) και ένας αλγόριθμος αναγνώρισης προσώπων. Τέλος στο 6ο Κεφάλαιο παρουσιάζεται ο προτεινόμενος αλγόριθμος στοίχισης εικόνων και αποτιμάται η απόδοσή του από την εφαρμογή του σε βάσεις εικόνων γενικού και ειδικού περιεχομένου. 3
  12. 12. Κεφάλαιο 2 Αντιστοίχιση Εικόνων Το πρόβλημα της αντιστοίχισης εικόνων το συναντάμε σε πολλές σύγχρονες εφαρμογές της υπολογιστικής όρασης και της επεξεργασίας εικόνας, που όπως βλέπουμε και στην Εικόνα (2.1) αγγίζουν διαφορετικές πτυχές του προβλήματος αφού έχουν να κάνουν με διαχείριση ποικίλων τύπων εικόνων (υψηλής ανάλυσης, έγχρωμες, grayscale) και στοχεύουν σε διαφο- ρετικό αποτέλεσμα. Η αντιστοίχιση εικόνων έχει ως στόχο την εύρεση αντίστοιχων σημείων σε δυο ή περι- σσότερες εικόνες, τα οποία αποτελούν προβολές του ίδιου σημείου της σκηνής. Δηλαδή η αντιστοίχιση εικόνων είναι η διαδικασία μετατροπής δυο διαφορετικών συνόλων δεδομένων στο ίδιο σύστημα συντεταγμένων. Σχήμα 2.1: Εφαρμογές της αντιστοίχισης εικόνων στις οποίες έμμεσα ή άμεσα πρέπει να λυθεί το πρόβλημα της αντιστοίχισης εικόνων 4
  13. 13. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ Η αντιστοίχιση εικόνων είναι βασικό κομμάτι σε όλα σχεδόν τα μεγάλα συστήματα που διαχει- ρίζονται εικόνες, τα οποία χρησιμοποιούν την αντιστοίχιση ή μια σχετική διαδικασία σαν εν- διάμεσο βήμα επεξεργασίας. Αποτελεί προαπαιτούμενο για τη διαδικασία του remote sensing για την παρακολούθηση του περιβάλλοντος, στη δημιουργία πανοραμικών εικόνων, ανάλυση κίνησης και αναγνώριση αντικειμένων. Χρησιμοποιείται ακόμα στο medical imaging για το συνδυασμό δεδομένων από διαφορετικές πηγές (π.χ CT - Computed Tomography και MRI - Magnetic Resonance Imaging) ώστε να υπάρχει πιο πλήρης πληροφορία που θα οδηγεί σε ασφαλέστερη διάγνωση. Πολλές τεχνικές αντιστοίχισης μπορούν επίσης να τρέξουν σε πραγματικό χρόνο σε ενσωματωμένες συσκευές σε κάμερες ή σε κινητά με κάμερα. ΄Ενας αλγόριθμος αντιστοίχισης που έχει σχεδιαστεί για μια εφαρμογή μπορεί να μην δουλεύει ή να είναι αναποτελεσματικός σε κάποια άλλη εφαρμογή. Εξαιτίας της μεγάλης ποικιλίας των εικόνων και του διαφορετικού τύπου υποβαθμίσεων που αυτές υφίστανται, είναι αδύνατος ο σχεδιασμός μιας τεχνικής που να είναι βέλτιστη σε όλες τις περιπτώσεις. Κάθε τεχνική πρέπει να λαμβάνει υπόψη, εκτός από τον τύπο της παραμόρφωσης, το είδος της εικόνας, την ύπαρξη θορύβου, την επιθυμητή ακρίβεια της αντιστοίχισης καθώς και άλλα χαρακτηριστικά που εξαρτώνται από το είδος της εφαρμογής. Ακόμα και σε αυτή την περίπτωση οι αλγόριθμοι έχουν περιορισμούς ως προς το μέγεθος των μετατοπίσεων ή τη γωνία της περιστροφής που μπορούν να χειριστούν. Η έρευνα της Brown[1] αναφέρει πολλές διαφορετικές τεχνικές που βασίζονται σε συνδυασμούς των ακόλουθων βασικών στοιχείων/συστατικών: 1. Το χώρο των χαρακτηριστικών, που περιλαμβάνει τα στοιχεία της εικόνας που θα χρησιμοποιηθούν για την αντιστοίχιση. 2. Το χώρο αναζήτησης, που καθορίζει τους επιτρεπτούς μετασχηματισμούς μεταξύ των εικόνων. 3. Τη στρατηγική αναζήτησης, που ορίζει τη μέθοδο με την οποία θα αναζητήσουμε ανάμεσα στους μετασχηματισμούς ώστε να βρούμε τον κατάλληλο, και 4. Το μέτρο ομοιότητας, που θα χρησιμοποιήσουμε για να υπολογίσουμε την καταλληλό- τητα της κάθε πιθανής λύσης. Η πλειοψηφία των τεχνικών αντιστοίχισης χωρίζονται σε δυο μεγάλες κατηγορίες, τις feature- based και τις area-based τεχνικές. Οι feature-based τεχνικές εντοπίζουν σημεία ‘ενδιαφέροντος’ όπως γωνίες, τομή ευθειών κτλ και στη συνέχεια τα χρησιμοποιούν για να υπολογίσουν μια προσέγγιση του μετασχη- ματισμού. Οι area-based τεχνικές χειρίζονται το πρόβλημα αντιμετωπίζοντας την εικόνα ως σύνολο και προσπαθούν να συσχετίσουν τις εικόνες υπολογίζοντας καθολικούς περιγραφείς ή χρησιμοποιώντας την ένταση των εικονοστοιχείων (pixels) (intensity-based method). 5
  14. 14. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ 2.1 Παραμετρικά μοντέλα γεωμετρικών μετασχηματισμών Οι δισδιάστατοι γεωμετρικοί μετασχηματισμοί μπορούν γενικά να κατηγοριοποιηθούν όπως φαίνεται στον Πίνακα ;; Μετασχηματισμός Βαθμοί ελευθερίας Διατηρούνται Μετατόπιση 2 Προσανατολισμός Ευκλείδειος (Μετατόπιση + Περιστροφή) 3 Μήκος, Εμβαδόν Ομοιότητας (Μετατόπιση + Περιστροφή + Κλίμακα) 4 Αναλογία μηκών, Γωνίες Συγγένειας 6 Παραλληλία ευθειών, Αναλογία περιοχών Προβολής 8 Ευθείες γραμμές Πίνακας 2.1: Δισδιάστατοι γεωμετρικοί μετασχηματισμοί Το μοντέλο που θα επιλέξουμε να χρησιμοποιήσουμε σε μια εφαρμογή εξαρτάται από το είδος της εφαρμογής. Για παράδειγμα στην περίπτωση που εξετάζουμε μια ακολουθία εικόνων βίντεο, η οποία έχει προκύψει από υψηλή δειγματοληψία και υποθέτοντας ότι υπάρχει κίνηση ενός αντικειμένου στη σκηνή, ένα μοντέλο μετατόπισης αρκεί για να περιγράψουμε την κίνηση ανάμεσα σε δυο διαδοχικές εικόνες. Στις περιπτώσεις αντιστοίχισης πραγματικών εικόνων συνήθως θεωρούμε ότι έχουμε μετασχηματισμό συγγένειας (affine), ο οποίος καλύπτει και τις περιπτώσεις των πιο απλών μετασχηματισμών. Στην επόμενη παράγραφο παρουσιάζονται αναλυτικά οι παραπάνω μετασχηματισμοί. Σε ότι ακολουθεί με x = [x,y]t συμβολίζουμε το εικονοστοιχείο της αρχικής εικόνας και x = [x ,y ]t το αντίστοιχο εικονοστοιχείο της εικόνας όπου έχουμε εφαρμόσει το μετασχηματισμό, οι παραπάνω μετασχηματισμοί παρουσιάζονται αναλυτικά. Σχήμα 2.2: Παράδειγμα μετασχηματισμών 6
  15. 15. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ 2.1.1 Μετατόπιση Το πιο απλό μοντέλο, η μετατόπιση ορίζεται ως εξής: x = x+t (2.1) όπου t = [tx,ty]t. Ο μετασχηματισμός αυτός διατηρεί όλα τα χαρακτηριστικά της εικόνας εκτός από τη θέση της. Σχήμα 2.3: Μετασχηματισμός μετατόπισης 2.1.2 Ευκλείδειος Μετασχηματισμός Ο μετασχηματισμός αυτός περιλαμβάνει εκτός από μετατόπιση και περιστροφή και ορίζεται ως: x = Rx+t (2.2) όπου το R το ακόλουθο μητρώο περιστροφής είναι R = cos(θ) −sin(θ) sin(θ) cos(θ) (2.3) για το οποίο ισχύει RRT = I, είναι δηλαδή ορθοκανονικό και |R| = 1, ενώ το R−1 = RT δηλώνει περιστροφή κατά γωνία −θ. Ο μετασχηματισμός αυτός διατηρεί τα μήκη των ευθειών και το εμβαδόν του σχήματος. 7
  16. 16. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ Σχήμα 2.4: Ευκλείδειος μετασχηματισμός 2.1.3 Μετασχηματισμός ομοιότητας Ο μετασχηματισμός προσθέτει στον ευκλείδειο τη δυνατότητα κλιμάκωσης της εικόνας και ορίζεται ως: x = sRx+t (2.4) όπου s ένας οποιοσδήποτε αριθμός που δείχνει την κλιμάκωση. Υπάρχει η δυνατότητα να έχουμε διαφορετική κλιμάκωση σε κάθε άξονα. Στην περίπτωση αυτή ο παράγοντας κλιμά- κωσης αντικαθίσταται από ένα μητρώο κλιμάκωσης S = sx 0 0 sy (2.5) Ο μετασχηματισμός αυτός διατηρεί τις αναλογίες των μηκών και τις γωνίες του σχήματος, όπως μπορούμε να δούμε στο σχήμα που ακολουθεί. 8
  17. 17. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ Σχήμα 2.5: Μετασχηματισμός ομοιότητας 2.1.4 Μετασχηματισμός συγγένειας Ο μετασχηματισμός συγγένειας (affine transformation) ορίζεται από τη σχέση: x = Ax+t (2.6) όπου τα στοιχεία του 2×2 πίνακα A μπορούν να πάρουν οποιαδήποτε τιμή. Οι προηγούμε- νοι μετασχηματισμοί αποτελούν ειδικές περιπτώσεις του affine μετασχηματισμού. Λόγω της στρέβλωσης ο μετασχηματισμός αυτός διατηρεί μόνο την παραλληλία των ευθειών καθώς και την αναλογία μεταξύ των περιοχών. Σχήμα 2.6: Μετασχηματισμός συγγένειας 9
  18. 18. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ 2.1.5 Μετασχηματισμός προβολής Αντίθετα από όλους τους προηγούμενους μετασχηματισμούς που είναι γραμμικοί, ο μετασχη- ματισμός προβολής είναι ένας μη γραμμικός μετασχηματισμός που ορίζεται ως εξής: ˆx = Hˆx (2.7) όπου ˆx = [ˆx/ ˆw, ˆy/ ˆw,1]t και ˆx = [x,y,1]t οι ομογενείς συντεταγμένες και H ένα 3×3 μητρώο με h33 = 1. Στην περίπτωση που έχουμε h31 = h32 = 0 τότε έχουμε έναν affine μετασχημα- τισμό. Ο μετασχηματισμός προβολής διατηρεί μόνο τις ευθείες γραμμές δηλαδή όσες γραμμές ή- ταν ευθείες παραμένουν έτσι και μετά το μετασχηματισμό, ενώ συχνά αναφέρεται και ως ομογραφία (homography). Σχήμα 2.7: Μετασχηματισμός προβολής 2.2 Ορισμός του προβλήματος Αντιστοίχισης Η αντιστοίχιση εικόνων (image registration) είναι η διαδικασία κατά την οποία δημιουργούμε ευθυγράμμιση (alignment) δυο διαφορετικών λήψεων της ίδιας σκηνής, μεταφέροντας τα δεδομένα τους σε κοινό σύστημα συντεταγμένων. Οι λήψεις μπορεί να έχουν γίνει από διαφορετικούς αισθητήρες, σε διαφορετικές χρονικές στιγμές, από διαφορετικές θέσεις ή σε διαφορετικές συνθήκες φωτισμού. Η ευθυγράμμιση έχει την έννοια της αποκατάστασης των γεωμετρικών και φωτομετρικών παραμορφώσεων που μπορεί να υπάρχουν ανάμεσα στις συγκεκριμένες εικόνες. Η αντιστοίχιση μπορεί να οριστεί ως η διαδικασία αναζήτησης αντίστοιχων σημείων σε δυο εικόνες που αποτελούν προβολές της ίδιας σκηνής. ΄Εχουμε μια εικόνα T(x,y), η οποία 10
  19. 19. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ χρησιμοποιείται ως πρότυπο (template) με το οποίο συγκρίνονται οι υπόλοιπες εικόνες (ob- servations), I(x,y) και η αντιστοίχιση στοχεύει στην ‘ευθυγράμμισή’ τους απαντώντας στο ερώτημα • Ποιο σημείο της I(x,y) αντιστοιχεί στο σημείο T(xi,yi) Διαφορετικά μπορούμε να ορίσουμε την αντιστοίχιση ως την αναζήτηση της σχέσης του συ- στήματος συντεταγμένων της μιας εικόνας με αυτό της άλλης, δηλαδή την αναζήτηση του γεωμετρικού μετασχηματισμού τον οποίο αν εφαρμόσουμε στη μια εικόνα θα έχουμε ως α- ποτέλεσμα μια προσέγγιση της άλλης. Ο μετασχηματισμός αυτός δεν εφαρμόζεται στις τιμές έντασης των εικόνων, αλλά μόνο στις συντεταγμένες των εικονοστοιχείων, με αποτέλεσμα το πρόβλημα να είναι εξορισμού μη γραμμικό, αφού δεν υπάρχει συσχέτιση των συντεταγμένων των εικονοστοιχείων και των τιμών έντασης που αυτά εμφανίζουν. Στις περισσότερες περι- πτώσεις δεν χρειάζεται καν η αντιστοίχιση και στις τιμές έντασης, εκτός αν για παράδειγμα αλλάζει ο τύπος του αισθητήρα. Το πρόβλημα της αντιστοίχισης απαιτεί την εκτίμηση της σχέσης των ανεξάρτητων μετα- βλητών κάνοντας χρήση της πληροφορίας που παίρνουμε από τις εξαρτημένες μεταβλητές. Στην περίπτωση των εικόνων η εξαρτημένη μεταβλητή είναι η τιμή της φωτεινότητας των εικονοστοιχείων. ΄Αρα ο μόνος τρόπος για να πάρουμε χρήσιμες πληροφορίες για την αντι- στοίχιση μέσω της φωτεινότητας είναι να συσχετίσουμε τις παρατηρήσεις με το γεωμετρικό μετασχηματισμό. Για να είναι αυτό δυνατό θα πρέπει να ισχύει μια υπόθεση που είναι γνωστή ως υπόθεση σταθερής φωτεινότητας (brightness constancy assumption). Θεωρούμε δηλαδή ότι το κάθε εικονοστοιχείο έχει την ίδια ένταση φωτεινότητας και στις δυο εικόνες. Αν το εικονοστοιχείο (x0,y0) του πρότυπου εμφανίζεται μετατοπισμένο κατά ∆x και ∆y στους ά- ξονες x και y αντίστοιχα στην εικόνα παρατήρησης τότε σύμφωνα με την παραπάνω υπόθεση ισχύει: T(x0,y0) = I(x0 +∆x,y0 +∆y) (2.8) Γενικά η υπόθεση αυτή ισχύει σε ελάχιστες, πολύ ειδικές περιπτώσεις. ΄Εχουμε ορίσει τις εικόνες ως δυο δισδιάστατους πίνακες T(x,y) και I(x,y) το πρότυπο και την παρατήρηση αντίστοιχα, όπου σε κάθε κελί υπάρχει ένας πίνακας με την ένταση του κάθε χρώματος στην περίπτωση της έγχρωμης εικόνας, την ένταση του γκρι στην περίπτωση της grayscale εικόνας και 0 ή 1 στην περίπτωση της δυαδικής εικόνας. Η σχέση μεταξύ των εικόνων περιγράφεται από τη σχέση: I(ˆx, ˆy) = f(T(x,y)) (2.9) όπου f() συνάρτηση η οποία παραμορφώνει φωτομετρικά την αρχική εικόνα ώστε να έχουμε σαν αποτέλεσμα την παρατήρηση. Αναζητούμε τις περιοχές T=(x,y) του προτύπου και τις 11
  20. 20. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ παραμέτρους μιας διανυσματικής συνάρτησης μετασχηματισμού συντεταγμένων w(x,y;p) : R2 → R2, όπου p = [p1,p2,...,pn]t το διάνυσμα των παραμέτρων του μετασχηματισμού, για την οποία ελαχιστοποιείται κάποια μετρική απόστασης (T,p) = argmin p Φr[T(x,y)]−Φt{I[w(x,y;p)]} (2.10) με τον επιπλέον περιορισμό ότι η περιοχή T μεγιστοποιείται. Θεωρούμε ότι οι εικόνες έχουν υποστεί κάποια παραμόρφωση των εντάσεων του κάθε εικονοστοιχείου τους που είναι ανε- ξάρτητη από τις συντεταγμένες του. Οι πραγματικές συναρτήσεις Φr και Φt είναι αυτές που αντιστρέφουν την παραμόρφωση αυτή με αποτέλεσμα οι εντάσεις των εικονοστοιχείων στις προκύπτουσες εικόνες να ακολουθούν όμοια κατανομή. Η αντιστοίχιση αφορά είτε σε ολόκληρες εικόνες είτε σε σύνολα σημείων στην περίπτωση όπου έχουμε shape matching, object recognition κτλ. Στην περίπτωση όπου έχουμε σύνολα σημείων πρέπει να προσδιορίσουμε το μετασχηματισμό που έχουν υποστεί τα σημεία του αντικειμένου, ώστε εφαρμόζοντάς τον αντίστροφα να έ- χουμε την αρχική απεικόνιση. Υπάρχουν περιπτώσεις, όπως για παράδειγμα η αναγνώριση χειρόγραφων ψηφίων, όπου τα σημεία του σχήματος δεν έχουν υποστεί όλα τον ίδιο μετασχη- ματισμό και άρα η αντιστοίχιση εκτιμά έναν μετασχηματισμό που ελαχιστοποιεί την παραπάνω μετρική. Αν έχουμε εικόνες τότε συχνά η μια εικόνα είναι δυνατό να περιλαμβάνει περιοχές που δεν υπάρχουν στην άλλη. Για να ικανοποιείται η Σχέση (2.10) θα πρέπει φυσικά να υπάρχουν οι κοινές περιοχές T και να περιλαμβάνουν αρκετά μεγάλες περιοχές των εικόνων. Το μέ- γεθος της κοινής περιοχής μπορεί να θεωρηθεί μια μετρική της κοινής πληροφορίας των δυο εικόνων και, όπως είναι αναμενόμενο, όσο μεγαλύτερη είναι αυτή η μετρική τόσο εγκυρότερα αποτελέσματα λαμβάνουμε. ΄Οπως αναφέρθηκε ο κάθε αλγόριθμος είναι προσανατολισμένος στη λύση συγκεκριμένου τύπου προβλήματος αντιστοίχισης, για διαφορετικό είδος και ποιότητα εικόνων. 2.3 Feature-based Τεχνικές Η αντιστοίχιση με βάση τα χαρακτηριστικά (feature-based) προσπαθεί να προσδιορίσει το μετασχηματισμό με βάση τα χαρακτηριστικά που είναι κατανεμημένα στην εικόνα, χωρίς να λαμβάνει υπόψη τις εντάσεις φωτεινότητας των εικονοστοιχείων. Στις feature-based τεχνικές οι αντιστοιχίσεις οδηγούν στην εκτίμηση του παραμετρικού μο- ντέλου. Πλεονέκτημα των τεχνικών αυτών είναι ότι είναι πιο εύρωστες σε πολλούς διαφορετι- κούς τύπους μετασχηματισμών και παραμορφώσεων. Επίσης λόγω του ότι η σύγκριση γίνεται 12
  21. 21. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ συνήθως ανάμεσα σε διανύσματα μικρού μήκους, σε σχέση με το μέγεθος της εικόνας, το κό- στος αυτών των τεχνικών είναι μικρό. ΄Ομως το πρόβλημα εντοπισμού των χαρακτηριστικών είναι πολύπλοκο και συνήθως η απόδοση των τεχνικών αυτών εξαρτάται άμεσα από την ποιό- τητα των χαρακτηριστικών και του αλγορίθμου εξαγωγής τους. Σε συγκεκριμένες εφαρμογές μπορούν να χρησιμοποιηθούν σαν στάδιο αρχικοποίησης μιας area-based τεχνικής. Σχήμα 2.8: Εξαγωγή χαρακτηριστικών σε εικόνα Το πρώτο και πιο σημαντικό βήμα σε μια feature-based τεχνική είναι η ανίχνευση των χα- ρακτηριστικών που θα χρησιμοποιηθούν για την αντιστοίχιση, κάνοντας χρήση ενός τελεστή αναγνώρισης χαρακτηριστικών. Τα χαρακτηριστικά πρέπει να δίνουν επαρκή πληροφορία για την εικόνα, για αυτό επιλέγονται αντιπροσωπευτικά σημεία όπως ακμές, γωνίες, τοπικά ακρό- τατα της έντασης φωτεινότητας ή σε κάποιες εφαρμογές και ολόκληρες περιοχές της εικόνας. Επίσης πρέπει να είναι ομοιόμορφα κατανεμημένα, να είναι ευδιάκριτα και στις δυο συγκρι- νόμενες εικόνες και να παραμένουν ανεπηρέαστα από το μετασχηματισμό που έχει επιδράσει στην παρατήρηση [1]. Αφού έχουν προσδιοριστεί τα χαρακτηριστικά, το δεύτερο βήμα αφορά στην αντιστοίχιση αυτών ή/και των περιοχών γύρω από αυτά, η εκτίμηση δηλαδή του μετασχηματισμού με χρήση κάποιου κριτηρίου ομοιότητας. ΄Ενα ευρέως χρησιμοποιούμενο κριτήριο είναι το άθροισμα των τετραγωνικών διαφορών (Sum of Squared Differences - SSD). 2.4 Area-based τεχνικές Οι τεχνικές αντιστοίχισης περιοχής (area-based), που αναφέρονται και ως απευθείας μέθοδοι χρησιμοποιούν την πληροφορία που περιέχει ολόκληρη η εικόνα, ή πιο σωστά η περιοχή εν- διαφέροντος (ROI), προκειμένου να εκτιμήσουν τις παραμέτρους του μετασχηματισμού. Στις τεχνικές αυτές πρέπει αρχικά να ορίσουμε μια συνάρτηση κόστους μεταξύ της εικόνας προτύ- που και της εικόνας παρατήρησης. ΄Ετσι η αναζήτηση των παραμέτρων του μετασχηματισμού 13
  22. 22. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ ανάγεται σε πρόβλημα βελτιστοποίησης της συνάρτησης κόστους ως προς τις παραμέτρους. ΄Αρα η τιμή των παραμέτρων εξαρτάται από το κριτήριο ομοιότητας που θα χρησιμοποιηθεί, αλλά και από τον τρόπο που θα εκτιμηθούν. Η μέθοδος που χρησιμοποιείται για την εκτίμηση των παραμέτρων διαχωρίζει τους αλγορίθ- μους αναζήτησης, σε αλγορίθμους πλήρους ή εξαντλητικής αναζήτησης (exhaustive search) και αλγορίθμους διαφορικής αντιστοίχισης που βασίζονται στην πληροφορία της παραγώγου της συνάρτησης έντασης φωτεινότητας των εικόνων (gradient-based). ΄Οπως και στην περίπτωση των feature-based τεχνικών, ένα ευρέως χρησιμοποιούμενο κριτή- ριο ομοιότητας είναι το άθροισμα των τετραγωνικών διαφορών (Sum of Squared Differences - SSD) που ορίζεται ως: ESSD(u) = K i=1 [T(xi)−I(xi +u)]2 (2.11) όπου u = [u,v]t το διάνυσμα μετατοπίσεων στους δυο άξονες και K ο αριθμός των εικονο- στοιχείων της ROI. Σε αυτή την περίπτωση η εκτίμηση των παραμέτρων δίνεται από τη λύση του προβλήματος ελαχιστοποίησης: min u ESSD(u) (2.12) Ο προφανής τρόπος επίλυσης του προβλήματος είναι η εξαντλητική αναζήτηση, δηλαδή ο υπολογισμός της τιμής της συνάρτησης κόστους για κάθε δυνατό διάνυσμα u και επιλογή του διανύσματος που ελαχιστοποιεί τη συνάρτηση. Αν η ακρίβεια που απαιτείται είναι μικρό- τερη του εικονοστοιχείου τότε θα πρέπει να ληφθούν υπόψη και μη ακέραιες τιμές του u. Αυτός ο τρόπος αναζήτησης μπορεί να χρησιμοποιηθεί στην περίπτωση που στόχος είναι η εκτίμηση μετασχηματισμού μετατόπισης, που όπως είδαμε είναι ο απλούστερος γεωμετρικός μετασχηματισμός, οι δυνατές τιμές του u είναι λίγες και δεν απαιτείται μεγάλη ακρίβεια στις εκτιμήσεις. Στην αντίθετη περίπτωση το κόστος υπολογισμού είναι απαγορευτικό. Βασικό πλεονέκτημα της εξαντλητικής αναζήτησης είναι το ότι μπορεί να εκτιμήσει οσοδήποτε με- γάλες μετατοπίσεις, αφού δεν υπάρχει περιορισμός της περιοχής αναζήτησης των τιμών τους [2]. 14
  23. 23. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ Σχήμα 2.9: Σάρωση εικόνας με παράθυρο Οι αλγόριθμοι διαφορικής αντιστοίχισης είναι επαναληπτικοί αλγόριθμοι, αν και μπορεί να είναι αποδοτικοί λειτουργώντας μια φορά[3]. Οι επαναλήψεις έχουν ως στόχο την καλύτερη ακρίβεια των εκτιμήσεων. Η χρήση των αλγορίθμων αυτών ενδείκνυται στις περιπτώσεις όπου η μετατόπιση είναι μικρή, ενώ η ακρίβεια των εκτιμήσεων είναι της τάξης του (eps) της μηχανής που χρησιμοποιείται. Βασικό χαρακτηριστικό τους είναι η γραμμικοποίηση μέ- σω αναπτύγματος Taylor γύρω από μια αρχική τιμή u0, ώστε η είσοδος να γίνει γραμμικά εξαρτημένη από τις παραμέτρους, όπως φαίνεται στη Σχέση (2.13): I(x+u0 +∆u) = I(x+u0)+ xI(x+u0)t ∆u+e(u0,x,∆u) (2.13) όπου xI(x + u0) = [∂I(x+u0) ∂x , ∂I(x+u0) ∂y ]t το διάνυσμα κλίσης (gradient) της εικόνας στη θέση x+u0, ∆u το διάνυσμα διορθώσεων και e(u0,x,∆u) οι όροι υψηλής τάξης. Οι πρώτοι που κάνουν χρήση του αναπτύγματος Taylor στη συνάρτηση κόστους είναι οι Lucas και Kanade[4]. Λαμβάνοντας υπόψη μόνο τον πρώτης τάξης όρο του αναπτύγματος η συνάρτηση κόστους είναι: ELK(∆u) = K i=1 [T(xi)−I(x+u0)+ xI(x+u0)t ∆u]2 (2.14) Μηδενίζοντας τις μερικές παραγώγους της συνάρτησης κόστους ως προς τα στοιχεία του διανύσματος ∆u καταλήγουμε στις εξισώσεις: A∆u = b (2.15) όπου A η Hessian και b το διάνυσμα των σταθερών όρων. Η Hessian εξαρτάται μόνο από 15
  24. 24. ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ τις χωρικές παραγώγους ενώ το διάνυσμα σταθερών όρων εξαρτάται και από τη διαφορά των εικόνων. Αν χρησιμοποιείται επαναληπτική διαδικασία τότε σε κάθε επανάληψη οι παράμετροι ενημε- ρώνονται με τον κανόνα u1 = u0 +∆u ώστε να δημιουργηθεί μια νέα εκτίμηση της εικόνας εισόδου. Τα βήματα αυτά επαναλαμβάνονται για έναν ορισμένο αριθμό επαναλήψεων ή ώσπου το σφάλμα της εκτίμησης να γίνει σχεδόν μηδενικό. Με βάση τον αλγόριθμο των Lucas-Kanade έχουν προταθεί πολλοί αλγόριθμοι προσανατολι- σμένοι στο πρόβλημα της ευθυγράμμισης εικόνων [++], που θα παρουσιαστούν στα Κεφάλαια 4 και 5 . Η χρήση του αναπτύγματος Taylor ενδείκνυται για μετατοπίσεις μικρότερες του ενός εικο- νοστοιχείου ή σε περίπτωση επαναληπτικής διαδικασίας λίγο μεγαλύτερες. Σημαντικό ρόλο στο μέγεθος της μετατόπισης που είναι δυνατό να εκτιμηθεί παίζει και ο αριθμός των ει- κονοστοιχείων της περιοχής προς αντιστοίχιση. Στις περιπτώσεις όπου η ROI είναι αρκετά μεγάλη, για παράδειγμα ολόκληρη η εικόνα, τότε μπορούν να εκτιμηθούν, μέσω αρκετών επαναλήψεων, μεγαλύτερες μετατοπίσεις. Στην περίπτωση μεγάλων μετατοπίσεων υπάρχει ο κίνδυνος εγκλωβισμού του αλγορίθμου σε τοπικό ακρότατο, μακριά από το ολικό ακρότατο που αναζητάμε. 16
  25. 25. Κεφάλαιο 3 Μοντέλα Active Appearance Η πλειοψηφία των προβλημάτων της υπολογιστικής όρασης που αφορούν πραγματικές εφαρ- μογές παρουσιάζουν δυσκολίες που έχουν να κάνουν με το γεγονός ότι απαιτείται από το σύστημα να ‘καταλάβει’ τις εικόνες που χειρίζεται, δηλαδή να ανακτήσει τη δομή της εικονας και να μάθει τι σημαίνει αυτή. Πολλές φορές η δομή αυτή μπορεί να είναι ιδιαίτερα σύνθετη και μεταβλητή, όπως στην αναγνώριση προσώπων, ή να παρέχει δεδομένα ελλειπή και με θόρυβο, όπως στις ιατρικές εικόνες. Οι μέθοδοι που βασίζονται σε μοντέλα [6, 7, 8, 9, 20], χρησιμοποιούν ήδη υπάρχουσα γνώση ώστε να λύσουν τα προβλήματα αυτά. Επειδή στις πραγματικές εφαρμογές εμφανίζονται ομάδες αντικειμένων που δεν είναι ίδια, παράδειγμα τα πρόσωπα, τα μοντέλα είναι γενικά, δηλαδή κρατούν τα βασικά χαρακτηριστικά της τάξης που αντιπροσωπεύουν αλλά μπορούν να προσαρμοστούν ώστε να δημιουργήσουν οποιοδήποτε παράδειγμα της τάξης αυτής. Επίσης είναι συγκεκριμένα, δηλαδή περιορίζονται στο να δημιουργούν έγκυρα παραδείγματα. Οι μέθοδοι που βασίζονται σε μοντέλα χρησιμοποιούν ένα μοντέλο που καθορίζει τι αναμένε- ται να βρεθεί στην εικόνα και αντιστοιχίζουν το μοντέλο αυτό στα δεδομένα της εικόνας. Τα Active Μοντέλα Εμφάνισης (Active Appearance Models - AAM’s) είναι μη γραμμικά, γενι- κευμένα, παραμετρικά μοντέλα για ένα συγκεκριμένο οπτικό φαινόμενο. Η πιο συνηθισμένη χρήση του σήμερα είναι η μοντελοποίηση προσώπων, αν και μπορούν να χρησιμοποιηθούν και σε διαφορετικές εφαρμογές. Η προσαρμογή ενός μοντέλου σε μια εικόνα είναι ένα μη γραμμικό πρόβλημα βελτιστοποίησης, όμως μπορεί να προσεγγιστεί με προσθετικό τρόπο υπολογίζοντας updates των παραμέτρων ή με inverse compositional τρόπο. 17
  26. 26. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE 3.1 Active Μοντέλα Σχήματος 3.1.1 Στατιστικά Μοντέλα Σχήματος Για τη δημιουργία του μοντέλου επιλέγονται χαρακτηριστικά σημεία του σχήματος, δηλαδή, όπως αναφέρθηκε και προηγούμενα, σημεία τομής ακμών, τα όρια του σχήματος ή σημεία με μεγάλη κυρτότητα. ΄Ομως επειδή αυτά τα σημεία είναι συνήθως λίγα, συμπληρώνονται με σημεία επάνω στο περίγραμμα, ώστε να δημιουργηθεί μια πλήρης περιγραφή του σχήματος. ΄Ενα δισδιάστατο σχήμα περιγράφεται από ένα διάνυσμα των σημείων {(xi,yi)} s = (x1,...,xny1,...yn)t Για j παραδείγματα δημιουργούνται j τέτοια διανύσματα sj , χρησιμοποιούνται για τη σύνθεση του μοντέλου. Για τη μετατροπή των διανυσμάτων sn στο ίδιο σύστημα συντεταγμένων, η πιο συνηθισμένη μέθοδος είναι η ανάλυση του Προκρούστη, που ελαχιστοποιεί το άθροισμα των αποστάσεων από το μέσο D = n i=1 |si −¯s|2 και η οποία παρουσιάζεται αναλυτικά στο Παράρτη- μα Α. Τα κανονικοποιημένα διανύσματα sj σχηματίζουν μια κατανομή στο 2n-διάστατο χώρο, από όπου εξάγεται ένα παραμετρικό μοντέλο της μορφής s = M(b), όπου b ένα διάνυσμα με τις παραμέτρους του μοντέλου, χρησιμοποιώντας PCA (Παράρτημα Β). Χρησιμοποιώντας αυτό το γενικό μοντέλο μπορούμε να δημιουργήσουμε νέα παραδείγματα και να καθορίσουμε κατά πόσο ένα σχήμα είναι κατάλληλο για χρήση ως παράδειγμα. Αν V το μητρώο με τα ιδιοδιανύσματα που αντιστοιχούν στις k μεγαλύτερες ιδιοτιμές του μητρώου του οποίου κάθε στήλη είναι ένα από τα παραδείγματα που έχουμε στη διάθεσή μας, μπορούμε να προσεγγίσουμε το σύνολο των παραδειγμάτων x χρησιμοποιώντας την ακόλουθη σχέση: s ≈ ¯s+Vb (3.1) ή ισοδύναμα: s = ¯s+ k i=1 bivi όπου V = (v1 v2... vk) και b ένα k-διάστατο διάνυσμα που προκύπτει ως: b = Vt (s−¯s) (3.2) και ορίζει τις παραμέτρους του μοντέλου παραμόρφωσης. Μεταβάλλοντας τα στοιχεία του b μπορούμε να μεταβάλλουμε το σχήμα s χρησιμοποιώντας την Εξίσωση (3.1). Η μετα- 18
  27. 27. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE βολή της i-οστής παραμέτρου, bi, δίνεται από τη λi. Θέτοντας ως όριο στη μεταβολή το ±3 √ λi , εξασφαλίζουμε ότι το σχήμα που θα δημιουργηθεί είναι όμοιο με το αρχικό σύνολο εκπαίδευσης. Σχήμα 3.1: Παράδειγμα μοντέλων προσώπων με τροποποιημένες παραμέτρους κατά ±3 τυπική απόκλιση 3.1.2 Στατιστικά Appearance Μοντέλα Για να συνθέσουμε την πλήρη εικόνα ενός αντικειμένου, πρέπει να μοντελοποιήσουμε εκτός από το σχήμα και την υφή του, δηλαδή την ένταση ή το χρώμα στο τμήμα της εικόνας που εξετάζουμε. Για να δημιουργήσουμε ένα στατιστικό μοντέλο υφής, μετασχηματίζουμε το κάθε παράδειγ- μα, έτσι ώστε τα χαρακτηριστικά σημεία να ταιριάζουν με το μέσο σχήμα. Στη συνέχεια δειγματοληπτούμε την πληροφορία της έντασης στην περιοχή που καλύπτει το μέσο σχήμα ώστε να δημιουργηθεί ένα διάνυσμα υφής gim. 19
  28. 28. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE Σχήμα 3.2: Το κάθε παράδειγμα διαιρείται σε ένα σύνολο σημείων και ένα μοντέλο υφής Για να ελαχιστοποιήσουμε την επίδραση της φωτεινότητας κανονικοποιούμε το διάνυσμα: g = (gim −β1n)/α (3.3) Οι τιμές των α και β επιλέγονται ώστε να προσαρμόσουν βέλτιστα το διάνυσμα στον κανο- νικοποιημένο μέσο όρο. Αν ¯g ο μέσος των κανονικοποιημένων δεδομένων τότε: α =< gim, ¯g >, β = < gim,1n > n όπου 1n διάνυσμα με μονάδες με n τον αριθμό των στοιχείων του διανύσματος. Από την εφαρμογή της PCA έχουμε ένα γραμμικό μοντέλο: g = ¯g+Pgbg (3.4) όπου ¯g το μέσο διάνυσμα έντασης, Pg ορθοκανονικό σύνολο διασπορών και bg παράμετροι που ρυθμίζουν την ένταση. Η υφή της εικόνας μπορεί να παραχθεί από τις παραμέτρους υφής και τις παραμέτρους κανονικοποίησης ως ακολούθως: gim = α(¯g+Pgbg)+β1n (3.5) 20
  29. 29. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE Το σχήμα και η υφή κάθε παραδείγματος μπορεί να παρασταθεί συνδυασμένα από τις παρα- μέτρους bs και bg. Για κάθε παράδειγμα έχουμε ένα διάνυσμα: b = Wsbs bg = WsPt s(x− ¯x) Pt g(g−¯g) όπου Ws ένα διαγώνιο μητρώο βαρών για κάθε παράμετρο του σχήματος. Επειδή μπορεί να υπάρχουν συσχετίσεις ανάμεσα στη διακύμανση του σχήματος και της υφής εφαρμόζουμε ξανά PCA στα διανύσματα αυτά παίρνοντας το μοντέλο: b = Pcc όπου Pc τα ιδιοδιανύσματα και c το διάνυσμα των παραμέτρων εμφάνισης (appearance) που ελέγχουν το σχήμα και την υφή του μοντέλου. Η γραμμικότητα του μοντέλου μας επιτρέπει να εκφράσουμε άμεσα το σχήμα και τα επίπεδα φωτεινότητας συναρτήσει του c ως ακολούθως: s = ¯s+PsW−1 s Pcsc g = ¯g+PgPcgc (3.6) όπου : Pc = Pcs Pcg ή ισοδύναμα: s = ¯s+Qsc g = ¯g+Qgc (3.7) όπου: Qs = PsW−1 s Pcs Qg = PgPcg Μπορούμε να συνθέσουμε μια εικόνα για δεδομένο c δημιουργώντας μια grayscale και ανεξάρ- τητη από το σχήμα εικόνα χρησιμοποιώντας το g και παραμορφώνοντάς την χρησιμοποιώντας 21
  30. 30. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE τα σημεία που ορίζονται στο s. (αʹ) (βʹ) (γʹ) Σχήμα 3.3: (α΄) Μεταβολή σχήματος (±3 τ.α), (β΄) Μεταβολή φωτεινότητας (±3 τ.α), (γ΄) Μεταβολή appearance (±3 τ.α) Για να ερμηνεύσουμε μια εικόνα χρησιμοποιώντας το μοντέλο, πρέπει να ορίσουμε το σύνολο των παραμέτρων που αντιστοιχίζουν βέλτιστα το μοντέλο στην εικόνα. Το σύνολο αυτό ορίζει το σχήμα, τη θέση και πιθανόν και την εμφάνιση του αντικειμένου μέσα στην εικόνα και μπορεί να χρησιμοποιηθεί για επιπλέον επεξεργασία, όπως κάποιες μετρήσεις ή την ταξινόμηση του αντικειμένου. Η αντιστοίχιση ενός μοντέλου σε μια εικόνα μπορεί να γίνει μέσω της ελαχιστοποίησης μιας συνάρτησης κόστους. Το ελάχιστο ορίζεται μόνο από την επιλογή της συνάρτησης κόστους, το μοντέλο και την εικόνα και είναι ανεξάρτητο από τη μέθοδο βελτιστοποίησης που θα χρησιμοποιηθεί. 3.1.3 Αναπαράσταση ακμών με χρήση προσανατολισμού Τα appearance μοντέλα αναπαριστούν την περιοχή ενδιαφέροντος χρησιμοποιώντας γραμμικά κανονικοποιημένες τιμές έντασης. ΄Ομως αυτή η αναπαράσταση είναι ευαίσθητη σε αλλαγές 22
  31. 31. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE του φωτισμού και σε διαφορές ανάμεσα στις κάμερες. Πιο σταθερή αναπαράσταση μπορεί να είναι είτε τα gradients είτε η μετρική του προσανατολισμού ακμών[8]. Ο πιο απλός τρόπος για την αναπαράσταση του προσανατολισμού είναι μέσω των gradi- ents gx και gy στο σημείο, όπου θ = tan−1(gx/gy). ΄Ομως επειδή υπάρχει ‘αναδίπλωση’ γωνιών, η θ δεν είναι χρήσιμη στην περίπτωση όπου θέλουμε να συγκρίνουμε δυο γωνίες. Μια εναλλακτική αναπαράσταση της γωνίας είναι μέσω των τριγωνομετρικών συναρτήσεων (cosθ,sinθ) = (gx/g,gy/g) όπου g = g2 x +g2 y, και έτσι η σύγκριση των γωνιών μπορεί να γίνει απλά με τη χρήση της Ευκλείδειας απόστασης. Ο προσανατολισμός μπορεί να παρασταθεί είτε modulo 2π είτε modulo π, για την περίπτωση όπου η πολικότητα της γωνίας μπορεί να αλλάξει. Για κάθε εικονοστοιχείο x = [x,y]t η διαδικασία είναι η ακόλουθη: Εκτίμηση των τοπικών κλίσεων, gx, gy, του εικονοστοιχείου (x,y)t με χρήση κατάλληλου φίλτρου Υπολογισμός του μέτρου g = g2 x +g2 y Εφαρμογή μιας μη γραμμικής συνάρτησης f(g) για την αναπαράσταση της κατεύθυνσης και της δύναμης της ακμής, (gx,gy) = f(g)(gx/g,gy/g) Η συνάρτηση κανονικοποίησης f(g) για την οποία ισχύει 0 ≤ f(g) ≤ 1 για κάθε g, επιλέγεται ώστε να δίνει μεγάλο βάρος σε πιθανές ακμές και να καταστέλλει ακμές που η εμφάνισή τους οφείλεται στο θόρυβο. Μια αποτελεσματική συνάρτηση είναι η f(g) = |g|/(|g|+g0) όπου g0 η μέση τιμή ή ο median της αναμενόμενης τιμής της g. Η συνάρτηση έχει την ιδιότητα ότι οι τιμές μικρότερες από g0 τείνουν να κανονικοποιούνται στο 0 ενώ οι μεγαλύτερες από g0 , που είναι πιθανό να είναι ακμές, κανονικοποιούνται στο 1. Μια άλλη επιλογή είναι η f(g) = Pn(g), όπου η Pn(x) είναι η αθροιστική κατανομή πιθανό- τητας των ακμών. Και πάλι οι τιμές της g που πιθανόν να οφείλονται στην επίδραση του θορύβου κανονικοποιούνται προς το 0 ενώ οι ακμές τονίζονται. Σε κάποιες περιπτώσεις είναι καλύτερα η αναπαράσταση του προσανατολισμού των ακμών να γίνεται modulo π, ορίζοντας έτσι την κατεύθυνση του gradient αλλά όχι την πολικότητά του, κάτι που είναι χρήσιμο αν δεν γνωρίζουμε από την αρχή αν το αντικείμενο είναι πιο φωτεινό ή πιο σκοτεινό από την υπόλοιπη εικόνα. ΄Αρα αναπαριστούμε την κατεύθυνση σε πολικές συντεταγμένες (gx,gy) → (g,θ) , επιστρέφουμε σε (hx,hy) = (gcos2θ,gsin2θ) = (g2 x −g2 y,2gxgy) και εφαρμόζουμε μη γραμμική κανονικοποίηση (gx,gy) = f(g)(hx/g,hy/g) = f(g)(g2 x −g2 y,2gxgy)/g2. Για την κατασκευή του μοντέλου appearance, αντί για το διάνυσμα με τις τιμές φωτεινότητας, χρησιμοποιείται ένα διάνυσμα με διπλάσιο μήκος που περιέχει τα gradients κανονικοποιημένα 23
  32. 32. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE με μια μη γραμμική συνάρτηση. Με αυτό τον τρόπο, περιοχές με θόρυβο εμφανίζονται με σχεδόν μηδενικές τιμές και έτσι έχουν ελάχιστη επίδραση στη διαδικασία βελτιστοποίησης. 3.1.4 Εντοπισμός χαρακτηριστικών προσώπου Η αυτόματη εύρεση χαρακτηριστικών προσώπου, όπως τα μάτια, οι γωνίες του στόματος κτλ είναι σημαντικό κομμάτι αρκετών διαδικασιών όπως η αναγνώριση προσώπου. Ο αλγόριθμος Επιλογής Template (Template Selection Tracker - TST)[9] αποτελείται από ένα μοντέλο σχήματος και ένα σύνολο εκπαίδευσης με πιθανά templates χαρακτηριστικών σε εικόνες όπου τα χαρακτηριστικά είναι ήδη σημειωμένα. Ο αλγόριθμος εκτελείται σε δυο βήματα, στο πρώτο βήμα γίνεται η επιλογή του template και στο δεύτερο η αναζήτησή του με βάση το σχήμα. Το στατιστικό μοντέλο σχήματος μπορεί να δημιουργηθεί από το σύνολο εικόνων εκπαίδευ- σης, όπως έχει περιγραφεί προηγουμένως και ορίζεται από τις ακόλουθες σχέσεις: s = ¯s+Vb b = Vt (s−¯s) Σχήμα 3.4: Ο αλγόριθμος TST Σε κάθε εικόνα με προσημειωμένα features μπορεί να επιλεγεί ένα τμήμα γύρω από το κάθε 24
  33. 33. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE feature, που κανονικοποιείται για την περίπτωση που υπάρχει κλιμάκωση, και τα feature tem- plates που υπολογίζονται αποθηκεύονται μαζί με το διάνυσμα παραμέτρων b του σχήματος. Αν δοθεί μια καινούρια εικόνα και μια προσέγγιση των σημείων των features τότε μπορεί να δημιουργηθεί ένα πιθανό σύνολο από feature templates. Το μοντέλο σχήματος αντιστοιχίζε- ται στα σημεία και υπολογίζονται οι παράμετροι b του σχήματος. Οι παράμετροι συγκρίνονται με τα αποθηκευμένα σχήματα και επιλέγονται τα K κοντινότερα σχήματα με χρήση της Ευ- κλείδειας απόστασης. Στη συνέχεια αυτά συγκρίνονται με την υφή της τρέχουσας εικόνας με χρήση της κανονικοποιημένης συσχέτισης και τα καλύτερα από αυτά χρησιμοποιούνται για τη δημιουργία ανιχνευτών για κάθε feature του προσώπου. Στο Σχήμα (3.5) φαίνεται η επιτυχής ανίχνευση χαρακτηριστικών σε πρόσωπο ακόμα και όταν αυτό περιστρέφεται σε σχέση με την κάμερα. Σχήμα 3.5: Στις εικόνες (α)-(δ) το κεφάλι περιστρέφεται σε σχέση με την κάμερα ενώ στις (ε)-(η) η επιτυχημένη ανίχνευση χαρακτηριστικών στις προηγούμενες εικόνες. Οι ανιχνευτές features που δημιουργήθηκαν με την παραπάνω διαδικασία εφαρμόζονται στην εικόνα ώστε να υπολογιστούν οι αποκρίσεις τους. ΄Εστω (Xi,Yi) η θέση του i-οστού feature σημείου και Ii(Xi,Yi) η απόκριση του i-οστού feature template σε αυτό το σημείο. Οι θέσεις βρίσκονται στο διάνυσμα: X = (X1,...,Xn,Y1,...Yn)t όπου το X υπολογίζεται από τις παραμέτρους b του σχήματος και έναν μετασχηματισμό ομοιότητας Tt που εφαρμόζεται στο μοντέλο σχήματος για να δημιουργηθεί η απόκριση, δηλαδή: X ≈ Tt(¯s+Vb) (3.8) Μπορούμε να γράψουμε τις παραμέτρους σε ένα διάνυσμα p = (tt|bt) οπότε και το X γίνεται συνάρτηση του p, δηλαδή X(p). Για κάποια αρχική τιμή του p η αναζήτηση γίνεται βελτιστο- ποιώντας μια συνάρτηση f(p), των αποκρίσεων I και του στατιστικού μοντέλου σχήματος, που είναι η: 25
  34. 34. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE f(p) = n i=1 Ii(Xi,Yi)+R s j=1 −b2 j λj (3.9) Ο δεύτερος όρος είναι μια εκτίμηση της λογαριθμικής πιθανοφάνειας του σχήματος δεδομέ- νων των παραμέτρων bj και των ιδιοτιμών λj, υποθέτοντας ότι τα bj είναι ανεξάρτητα και ακολουθούν κανονική κατανομή. Το R είναι μια παράμετρος βάρους που η τιμή της μπορεί να καθοριστεί από το λόγο των n i=1 Ii(Xi,Yi) και s j=1 −b2 j λj . 3.2 Active Appearence Μοντέλα Υπάρχουν δύο είδη μοντέλων σχήματος και εμφάνισης. Τα μοντέλα που μοντελοποιούν ξεχωριστά, σε διαφορετικό σύνολο παραμέτρων, το σχήμα από την εμφάνιση και ονομάζονται ανεξάρτητα μοντέλα και τα μοντέλα που μοντελοποιούν σχήμα και εμφάνιση σε ένα κοινό σύνολο γραμμικών παραμέτρων και ονομάζονται συνδυαστικά μοντέλα. 3.2.1 Ανεξάρτητα Μοντέλα Σχήμα Το σχήμα ορίζεται από ένα mesh και σημεία τοποθετημένα πάνω σε αυτό. Το σχήμα s εκφράζεται με τη μορφή της Σχέσης (3.1) . Σχήμα 3.6: Το γραμμικό μοντέλο σχήματος ενός ΑΑΜ. Το αρχικό μοντέλο s0 και τα τρία πρώτα διανύσματα σχήματος s1, s2, s3 Εμφάνιση Η εμφάνιση ενός ανεξάρτητου ΑΑΜ ορίζεται μέσα στο βασικό mesh s0, και έτσι είναι μια εικόνα A(x) που ορίζεται στα pixels x ∈ s0. ΄Οπως το σχήμα έτσι και η εμφάνιση επιτρέπει την γραμμική διαφοροποίηση, δηλαδή η A(x) μπορεί να εκφραστεί ως: A(x) = A0(x)+ m i=1 λiAi(x) ∀x ∈ s0 (3.10) 26
  35. 35. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE όπου A0(x) η βασική (ή μέση) εμφάνιση και Ai(x) διαφορετικές εικόνες εμφάνισης, που προκύπτουν από την εφαρμογή της PCA στις κανονικοποιημένες ως προς το σχήμα εικόνες. Σχήμα 3.7: Το γραμμικό μοντέλο εμφάνισης ενός ανεξάρτητου ΑΑΜ. Η βασική εμφάνιση A0 και οι τρεις πρώτες εικόνες εμφάνισης A1, A2, A3 Οι εικόνες εκπαίδευσης είναι κανονικοποιημένες ως προς το σχήμα πριν εφαρμόσουμε PCA σε αυτές, κάτι που οδηγεί σε ένα συμπαγή ιδιοχώρο από όπου εξάγονται οι ιδιοεικόνες εμφάνισης. Δημιουργία μοντέλου Από τις Σχέσεις (3.9) και (3.10) και έχοντας τις παραμέτρους σχήματος p και εμφάνισης λ, μπορούμε να δημιουργήσουμε ένα παράδειγμα βασισμένο σε αυτό το μοντέλο, χρησιμο- ποιώντας γραμμικούς συνδυασμούς των ιδιοσχημάτων και των ιδιοεικόνων εμφάνισης, όπως φαίνεται στο παρακάτω Σχήμα: Σχήμα 3.8: Δημιουργία παραδείγματος από το ανεξάρτητο ΑΑΜ μοντέλο. Στο παραπάνω παράδειγμα υπολογίζεται ένας μετασχηματισμός παραμόρφωσης W(x;p) ο οποίος εφαρμόζεται στην εικόνα εμφάνισης και στο σχήμα. 27
  36. 36. ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑ ACTIVE APPEARANCE 3.2.2 Συνδυαστικά μοντέλα Στην περίπτωση των συνδυαστικών μοντέλων χρησιμοποιούμε ένα κοινό διάνυσμα παραμέ- τρων c = [c1,c2,...,ck]t για να παραμετροποιήσουμε τόσο το σχήμα όσο και την εικόνα: s = s0 + k i=1 cisi (3.11) A(x) = A0(x)+ k i=1 ciAi(x) (3.12) Αυτός ο συνδυασμός έχει κάποια μειονεκτήματα, για παράδειγμα δεν μπορούμε πλέον να υποθέσουμε ότι το σχήμα και η εμφάνιση είναι ορθοκανονικά, όπως επίσης περιορίζει την επιλογή του αλγορίθμου αντιστοίχισης. Από την άλλη αν θεωρήσουμε ότι c = [p1,p2,...,pn,λ1,λ2,..,λm]t η αναπαράσταση αυτή είναι πιο γενική, ενώ πρακτικά συνήθως ισχύει ότι k ≤ m + n, δηλαδή ο αλγόριθμος είναι πιο αποδοτικός. Τα συνδυαστικά ΑΑΜ υπολογίζονται εφαρμόζοντας PCA σε ένα ανεξάρτητο ΑΑΜ και γραμ- μικοποιώντας τις παραμέτρους σε σχέση με τα νέα ιδιοδιανύσματα. ΄Εχοντας το γενικό μοντέλο εμφάνισης πλέον μπορούμε να εφαρμόσουμε κάποιον αλγόριθμο αντιστοίχισης από αυτούς που παρουσιάζονται στα επόμενα κεφάλαια για τον υπολογισμό του γεωμετρικού μετασχηματισμού, στο σχήμα και την εμφάνιση, είτε ανεξάρτητα είτε συνδυα- σμένα, του μοντέλου. 28
  37. 37. Κεφάλαιο 4 Αλγόριθμοι βασισμένοι στο Τετραγωνικό Σφάλμα 4.1 Αλγόριθμος Lucas-Kanade Ο αλγόριθμος των Lucas-Kanade[4, 10] χρησιμοποιεί ως συνάρτηση κόστους το άθροισμα τετραγωνικού σφάλματος μεταξύ των δυο εικόνων δηλαδή: min p x [I(w(x;p)−T(x))]2 (4.1) όπου T(x) το template και I(w(x;p)) η παραμορφωμένη εικόνα στην οποία έχει εφαρμοστεί ο μετασχηματισμός w(x;p). Η ελαχιστοποίηση της (4.1) είναι μη γραμμική διαδικασία, ακόμα και αν ο w(x;p) είναι γραμμικός ως προς p. Ο αλγόριθμος υποθέτει ότι μια εκτίμηση του p είναι γνωστή και λύνει επαναληπτικά για την εκτίμηση των διορθώσεων ∆p οπότε η συνάρτηση κόστους γίνεται: x [I(w(x;p+∆p))−T(x)]2 (4.2) και ελαχιστοποιείται ως προς ∆p, ενώ οι παράμετροι ενημερώνονται σύμφωνα με τον ακό- λουθο προσθετικό κανόνα: p ← p+∆p (4.3) Τα βήματα αυτά επαναλαμβάνονται μέχρι να συγκλίνουν οι παράμετροι p, κάτι που συνήθως ελέγχεται με το κριτήριο ∆p 2 ≤ , όπου ένα κατώφλι. 29
  38. 38. ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟ ΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ 4.1.1 Γραμμικοποίηση Για να μπορέσει να λυθεί το πρόβλημα, η μη γραμμική συνάρτηση I(w(x;p+∆p)) της (4.2) γραμμικοποιείται ως προς τις παραμέτρους που περιέχονται στη συνάρτηση κόστους με χρήση του αναπτύγματος Taylor πρώτης τάξης: x I(w(x;p))+ I ∂w ∂p ∆p−T(x) 2 (4.4) όπου I = (∂I ∂x , ∂I ∂y ) η κλίση της I , που στη συνέχεια εφαρμόζεται σε αυτή ο τρέχων μετασχη- ματισμός w(x;p), και ∂w ∂p η Jacobian του μετασχηματισμού. Αν w(x;p) = (wx(x;p),wy(x;p))t τότε: ∂w ∂p =   ∂wx ∂p1 ∂wx ∂p2 ··· ∂wx ∂pn ∂wy ∂p1 ∂wy ∂p2 ··· ∂wy ∂pn   Για παράδειγμα στην περίπτωση του affine μετασχηματισμού: ∂w ∂p = x 0 y 0 1 0 0 x 0 y 0 1 Η ελαχιστοποίηση της (4.4) ως προς τις παραμέτρους είναι πρόβλημα ελαχίστων τετραγώνων, άρα υπάρχει και κλειστής μορφής λύση. Η μερική παράγωγος ως προς ∆p είναι: 2 x I ∂w ∂p t I(w(x;p))+ I ∂w ∂p ∆p−T(x) με ελάχιστο στο: ∆p = H−1 x I ∂w ∂p t [T(x)−I(w(x;p))] όπου H το n×n Hessian μητρώο: H = x I ∂w ∂p t I ∂w ∂p με μόνη προϋπόθεση οι μετασχηματισμοί να είναι παραγωγίσιμοι ως προς τις παραμέτρους p ώστε να είναι δυνατό να υπολογιστεί η Jacobian ∂w ∂p . 30
  39. 39. ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟ ΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ Σχήμα 4.1: Σχηματικό διάγραμμα του αλγορίθμου των Lucas-Kanade Το υπολογιστικό κόστος του αλγορίθμου ανά επανάληψη είναι O(n2N +n3), όπου n ο αριθ- μός των παραμέτρων του μετασχηματισμού και N ο αριθμός των pixel. 4.1.2 Compositional και Inverse Compositional αλγόριθμοι Για τη μείωση του υπολογιστικού κόστους, που όπως είδαμε είναι αρκετά μεγάλο, χρησιμο- ποιούνται ο compositional και κυρίως ο inverse compositional αλγόριθμος. Στην compositional προσέγγιση η συνάρτηση κόστους που ελαχιστοποιείται είναι: x [I(w(w(x;∆p);p))−T(x)]2 (4.5) ως προς ∆p σε κάθε επανάληψη, ενώ ο κανόνας ενημέρωσης του μετασχηματισμού είναι: w(x;p) ← w(x;p)◦w(x;∆p) (4.6) όπου η σύνθεση ορίζεται ως: w(x;p)◦w(x;∆p) ≡ w(w(x;∆p);p) (4.7) 31
  40. 40. ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟ ΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ Το ανάπτυγμα Taylor της συνάρτησης κόστους είναι: x I(w(w(x;0);p))+ I(w) ∂w ∂p ∆p−T(x) 2 (4.8) το οποίο απλοποιείται περαιτέρω δεδομένου ότι w(x;0) = x. Σε σχέση με το αρχικό αλ- γόριθμο το gradient της I αντικαθίσταται από το gradient της I(w). Επίσης η Jacobian υπολογίζεται στο (x;0) και άρα είναι σταθερή και μπορεί να υπολογιστεί εκτός της επανα- ληπτικής διαδικασίας. Η τελική λύση του ∆p είναι της ίδιας μορφής, παίρνοντας υπόψη τις τρεις διαφορές που αναφέρθηκαν. Το σύνολο των μετασχηματισμών θα πρέπει να περιέχει τον ταυτοτικό μετασχηματισμό και να είναι κλειστό ως προς τη σύνθεση, ιδιότητες που ισχύουν για τα περισσότερα είδη μετα- σχηματισμών. Το συνολικό υπολογιστικό κόστος ανά επανάληψη είναι της ίδιας τάξης, αφού τα βήματα που αλλάζουν έχουν κόστος μικρότερης τάξης, ενώ το κόστος του βήματος εκτός επαναλήψεων είναι O(nN). Ο inverse compositional αλγόριθμος ελαχιστοποιεί τη συνάρτηση κόστους: x [T(w(x;∆p))−I(w(x;p))]2 (4.9) ενώ η ενημέρωση του μετασχηματισμού γίνεται σύμφωνα με τον κανόνα: w(x;p) ← w(x;p)◦w(x;∆p)−1 (4.10) ΄Οπως φαίνεται η διαφορά στον κανόνα ενημέρωσης είναι ότι ο προσθετικός μετασχηματισμός w(x;∆p) αντιστρέφεται πριν τη σύνθεση με τον τρέχοντα μετασχηματισμό. Χρησιμοποιώντας το ανάπτυγμα Taylor της συνάρτησης: x T(w(x;0))+ T ∂w ∂p ∆p−I(w(x;p)) 2 (4.11) και θεωρώντας πάλι ότι ο w(x;0) είναι ο ταυτοτικός μετασχηματισμός, η λύση είναι: ∆p = H−1 x T ∂w ∂p t [I(w(x;p))−T(x)] (4.12) όπου H το Hessian μητρώο, ίδιας μορφής με προηγούμενα, που παράγεται από την T αντί για την I: H = x T ∂w ∂p t T ∂w ∂p 32
  41. 41. ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟ ΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ Η Jacobian υπολογίζεται στο (x;0) και επομένως είναι σταθερή και μπορεί να υπολογιστεί εκτός των επαναλήψεων, όπως και η Hessian που πλέον είναι ανεξάρτητη από το p. Εκτός από τους περιορισμούς που αφορούν τους μετασχηματισμούς στην περίπτωση του compositional αλγορίθμου, επιπλέον περιορισμός είναι ότι ο μετασχηματισμός w(x;∆p) θα πρέπει να είναι αντιστρέψιμος. Στις περισσότερες περιπτώσεις μετασχηματισμών οι περιορι- σμοί ικανοποιούνται, εκτός από τους τμηματικούς affine μετασχηματισμούς που συναντάμε στα Active Appearance Μοντέλα. Το υπολογιστικό κόστος ανά επανάληψη μειώνεται σημαντικά, αφού μεγάλης πολυπλοκότητας βήματα υπολογίζονται πλέον μια φορά. Το κόστος αυτών των βημάτων είναι O(n2N) ενώ το κόστος ανά επανάληψη γίνεται O(nN +n3). 4.2 Lucas-Kanade με βάρη Μια γενίκευση του LK αλγορίθμου δίνεται με τη χρήση ως συνάρτησης κόστους της SSD με βάρη, η οποία εκφράζεται από την ακόλουθη συνάρτηση κόστους: x y Q(x,y)[I(w(x;p))−T(x)][I(w(y;p))−T(y)] (4.13) όπου Q(x,y) ένα συμμετρικό, θετικά ορισμένο τετραγωνικό μητρώο. Η συνάρτηση κόστους της Σχέσης (4.9) είναι μια ειδική μορφή της Σχέσης (4.13) και προκύπτει αν θέσουμε Q(x,y) τον μοναδιαίο πίνακα. Εφαρμόζοντας ανάπτυγμα Taylor πρώτου βαθμού και παραγωγίζοντας ως προς ∆p και παίρνοντας υπόψη ότι το Q(x,y) είναι συμμετρικό καταλήγουμε στην ακό- λουθη σχέση: 2 x y Q(x,y) T(y)+ Ty ∂w ∂p ∆p−I(w(y;p)) Tx ∂w ∂p t (4.14) με λύση: ∆p = H−1 Q y x Q(x,y) Tx ∂w ∂p t [I(w(y;p))−T(y)] (4.15) όπου HQ το ακόλουθο σταθμισμένο Hessian μητρώο: HQ = x y Q(x,y) Tx ∂w ∂p t Ty ∂w ∂p (4.16) Μια ειδική αλλά ενδιαφέρουσα περίπτωση συναντάται όταν το μητρώο βαρών Q(x,y) είναι διαγώνιο, δηλαδή: 33
  42. 42. ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟ ΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ Q(x,y) = Q(x)δ(x−y) όπου δ(x − y) η ακολουθία Kronecker. Στην περίπτωση αυτή η συνάρτηση κόστους (4.13) απλοποιείται στην ακόλουθη: x Q(x)[I(w(x;p))−T(x)]2 (4.17) και αντίστοιχα οι (4.15),(4.16) εκφράζονται ως ακολούθως: ∆p = H−1 Q x Q(x,y) T ∂w ∂p t [I(w(x;p))−T(x)] (4.18) HQ = x Q(x,y) Tx ∂w ∂p t Tx ∂w ∂p (4.19) 4.3 Fourier Lucas-Kanade ΄Οπως είδαμε, ο αρχικός αλγόριθμος Lucas-Kanade και οι παραλλαγές του, χρησιμοποιούν συνάρτηση κόστους που βασίζεται στο άθροισμα των τετραγωνικών διαφορών (SSD). ΄Ενα βασικό θέμα σχετικά με την παραπάνω μετρική είναι η κακή απόδοση της σε περιπτώσεις όπου υπάρχουν διαφορές στην εμφάνιση, που οφείλονται σε φωτομετρικές κυρίως παραμορ- φώσεις. Το θέμα αυτό αντιμετωπίζεται με τις τεχνικές των AAM, κάτι που προϋποθέτει όπως είδαμε την ύπαρξη παραδειγμάτων που θα χρησιμοποιηθούν στη φάση της εκπαίδευσης του συστήματος. Μια λύση, που δίνει ανεξαρτησία σε περιπτώσεις ύπαρξης φωτομετρικών παραμορφώσεων, προτείνεται με τον αλγόριθμο Fourier Lucas-Kanade[11], που λύνει το πρόβλημα της αντι- στοιχίας μεταφέροντας τους αλγορίθμους LK στο πεδίο της δισδιάστατης συχνότητας με τη βοήθεια του μετασχηματισμού Fourier. Η χρήση τράπεζας φίλτρων χρησιμοποιείται στην προεπεξεργασία τεχνικών υπολογιστικής όρασης και βασίζεται σε δυο κυρίως ιδιότητες της ανθρώπινης όρασης. Συγκεκριμένα στο γεγονός • ότι είναι ευαίσθητη κυρίως στις αντανακλάσεις και δεν επηρεάζεται τόσο από τις συν- θήκες φωτισμού και ότι • αντιδρά σε διαφορές της αντίθεσης και όχι στο συνολικό επίπεδο φωτεινότητας 34

×