Η όραση από το μέλλον...


..
Τι κοινό έχουν τα αυτοκίνητα χωρίς οδηγό, οι κάθε λογής ρομποτικοί βοηθοί και τα αυτόνομα drone σε ρόλο ιπτάμενων κούριερ; Οτι είναι εφαρμογές που, για να αλλάξουν τη ζωή μας όπως «υπόσχονται», προϋποθέτουν πως όλα αυτά τα μηχανήματα θα μπορούν να «βλέπουν», δηλαδή να αντιλαμβάνονται τι βρίσκεται γύρω τους περίπου όπως ο άνθρωπος, αναλύοντας την εικόνα από κάμερες που θα είναι τα «μάτια» τους. Η λειτουργία αυτή ονομάζεται υπολογιστική όραση και έχει πάψει εδώ και χρόνια να ανήκει στη σφαίρα της επιστημονικής φαντασίας. Αντίθετα, χάρις στους ολοένα πιο εξελιγμένους αλγόριθμους που δημιουργούνται εδώ και περίπου μία πενταετία, έχουν γίνει σημαντικά βήματα ώστε να μιμηθεί την πιο σημαντική από τις ανθρώπινες αισθήσεις.
Χαρακτηριστική είναι η πρόσφατη ανακοίνωση από ερευνητές της Microsoft, ότι το λογισμικό που έχουν αναπτύξει έγινε το πρώτο software που, σε ένα ειδικό τεστ (ImageNet), έκανε λιγότερα λάθη από τους εθελοντές στην αναγνώριση αντικειμένων σε φωτογραφίες. Βέβαια, όπως ανέφεραν οι επιστήμονες, αυτό δεν σημαίνει πως το λογισμικό μπορεί να συγκριθεί με την όρασή μας, αφού δεν τα καταφέρνει εξίσου ικανοποιητικά σε όλες τις κατηγορίες οπτικών δεδομένων. Ωστόσο, πρόσθεσαν πως ήρθε ακόμη πιο κοντά η εποχή όπου τέτοιες τεχνολογίες θα επιτρέπουν σε μηχανήματα να «βλέπουν» τόσο καλά όσο ο άνθρωπος, τουλάχιστον για συγκεκριμένους σκοπούς. Ενας από τους βασικότερους σκοπούς είναι τα αυτοκίνητα που θα κινούνται χωρίς ανθρώπινη παρέμβαση, με τεχνολογίες αυτόματης πλοήγησης, εκτός από ασφαλείς, να έχουν προσιτό κόστος. Αυτό υποστηρίζει πως πέτυχε η Nvidia με το σύστημα Drive PX που ανακοίνωσε τον Ιανουάριο, με το οποίο ο «αυτόματος πιλότος» του Ι.Χ. θα «βλέπει» το περιβάλλον του χρησιμοποιώντας μόνο βιντεοκάμερες. Σε αντίθεση με το σύστημα της Google για τα αυτόνομα Ι.Χ., το οποίο βασίζεται σε ραντάρ, λέιζερ, αισθητήρες υπερήχων και 3D κάμερες, το Drive PX λειτουργεί αποκλειστικά με την ανάλυση βίντεο και επομένως θα είναι αρκετά πιο φθηνό. Παρ’ όλα αυτά, δεν θα υστερεί σε αξιοπιστία σύμφωνα με την εταιρεία, αφού ανά πάσα στιγμή θα αναγνωρίζει έως και 150 αντικείμενα στο «οπτικό» του πεδίο – από τα διερχόμενα αυτοκίνητα και τα φανάρια, μέχρι τους πεζούς και τους ποδηλάτες.
Η αναγνώριση αντικειμένων είναι επίσης στόχος της Intel και της Qualcomm για τα δικά τους συστήματα υπολογιστής όρασης, με τις δύο εταιρείες κατασκευής επεξεργαστών να προορίζουν, μεταξύ άλλων, τα συστήματά τους για drone που θα μπορούν έτσι να αποφεύγουν τα εμπόδια, καθώς θα πετούν αυτόνομα μεταφέροντας μικρά φορτία. Για να δείξει τις δυνατότητες της τεχνολογίας της, η Intel έχει αναρτήσει ένα βίντεο, στο οποίο φαίνεται ένα μικρό ελικόπτερο να διασχίζει ένα δάσος, περνώντας ανάμεσα στα δέντρα με ταχύτητα 20 χλμ./ώρα. Η Qualcomm, από την άλλη πλευρά, δεν περιορίζει το σύστημά της στα drone, αφού έχει παρουσιάσει κι ένα πρωτότυπο ρομπότ, το οποίο με τις κάμερές του μπορεί όχι μόνο να κινείται με ασφάλεια, αλλά και να καταλαβαίνει ποια από τα αντικείμενα που βρίσκονται γύρω του πρέπει να χρησιμοποιήσει για μια συγκεκριμένη εργασία.
Η υπολογιστική όραση μπορεί να φέρει όμως και με διαφορετικό τρόπο επανάσταση στη ρομποτική, δίνοντας τη δυνατότητα σε ένα τέτοιο μηχάνημα να αυτοεκπαιδεύεται παρακολουθώντας βίντεο. Ετσι, επιστήμονες από το πανεπιστήμιο του Michigan και το ερευνητικό κέντρο NICTA στην Αυστραλία δημιούργησαν λογισμικό, με τη βοήθεια του οποίου ένα ανδροειδές έμαθε να... μαγειρεύει, βλέποντας 88 βιντεοκλίπ μαγειρικής στο YouTube. Με βάση την εικόνα, αλλά και τις περιγραφές των ανθρώπων στα βίντεο, το ανδροειδές «κατάλαβε» χωρίς ανθρώπινη παρέμβαση πώς να χειρισθεί τα εργαλεία που βρίσκονταν μπροστά του.
Αν και έτσι ανοίγει ο δρόμος ώστε στο μέλλον τα ρομπότ στα εργοστάσια ή ακόμη και στα νοικοκυριά να αναλαμβάνουν ολοένα περισσότερες δουλειές, μαθαίνοντάς τες από βίντεο, οι επιστήμονες επισημαίνουν πως ακόμη βρίσκονται στην αρχή.
Πιο «έξυπνα»
Μπορεί οι μελλοντικές εφαρμογές της υπολογιστικής όρασης να αφορούν κυρίως ρομπότ ή αυτοκίνητα, ωστόσο τέτοιες τεχνολογίες χρησιμοποιούνται ήδη στο Ιντερνετ από κολοσσούς όπως το Facebook, η Google και η Microsoft, ώστε οι online υπηρεσίες τους να «καταλαβαίνουν» τα αντικείμενα που περιλαμβάνονται στις φωτογραφίες που αναρτούν οι χρήστες. Ετσι, για παράδειγμα, η Microsoft και η Google θέλουν να κάνουν πιο «έξυπνες» τις μηχανές αναζήτησης, για να μπορεί κανείς να βρει οπτικό υλικό που ταιριάζει στις «λέξεις-κλειδιά» που θα πληκτρολογήσει, ακόμη κι αν αυτές οι λέξεις δεν υπάρχουν στις λεζάντες ή στα κείμενα που συνοδεύουν τις εικόνες.
Επίσης, η υπολογιστική όραση έχει ήδη κάνει ακόμη πιο ευφυή τα «έξυπνα» τηλέφωνα, μέσω application όπως η Firefly της Amazon και η Google Goggles, οι οποίες αναλύουν τις φωτογραφίες από την κάμερα, για να αναγνωρίσουν ποια αξιοθέατα ή προϊόντα υπάρχουν σε αυτές. Μάλιστα, η εφαρμογή CamFind, που κυκλοφορεί για iPhone και κινητά Android, φιλοδοξεί να γίνει η «Google του πραγματικού κόσμου», δηλαδή η μηχανή αναζήτησης που χρησιμοποιεί ένας κάτοχος smartphone για να βρει πληροφορίες για κάποιο φυσικό αντικείμενο. Μεταξύ άλλων, με την CamFind μπορεί να φωτογραφίσει την αφίσα μιας ταινίας για να μάθει πού προβάλλεται.
Τέτοιες εφαρμογές οπτικής αναζήτησης χρειάζονται πρόσβαση στο Ιντερνετ, αφού η ανάλυση των εικόνων γίνεται online. Ωστόσο, η Qualcomm έχει στα σκαριά την τεχνολογία Zeroth για τους επεξεργαστές της, ώστε οι «έξυπνες» συσκευές που θα τους ενσωματώνουν να δίνουν την ίδια δυνατότητα χωρίς σύνδεση στο web.
kathimerini.gr