Αναμείνατε ολίγον τι
S.E.O.Τεχνολογία

Μία εικόνα χίλιες λέξεις: Η τεχνητή νοημοσύνη προσπαθεί να το κάνει πραγματικότητα

Ο Ιάπωνας εφευρέτης Seiichi Miyake δημιούργησε τα πρώτα πλακάκια για ανθρώπους με προβλήματα όρασης, το 1965.

Οι περισσότεροι από εμάς χρησιμοποιούμε το διαδίκτυο, για λόγους εργασίας, ενημέρωσης, κοινωνικής δικτύωσης κ.ο.κ. Καθημερινά  με λίγα μόνο κλικ βρισκόμαστε μπροστά σε πλήθος εικόνων, βίντεο, ήχων και κειμένων που μας δίνεται η δυνατότητα να ανακαλύψουμε.

Όμως  η πρόσβαση σε όλα τα παραπάνω δεν είναι πάντα τόσο εύκολη. Οι άνθρωποι με προβλήματα όρασης βασίζονται σε προγράμματα ανάγνωσης  οθόνης (screen readers) τα οποία παρέχουν στο χρήστη τη δυνατότητα της μετατροπής του υλικού μιας ιστοσελίδας σε ήχο.

Για τις εικόνες και τα γραφικά περιβάλλοντα, τα προγράμματα αυτά βασίζονται συνήθως στις περιγραφές που τους δίνουν οι κατασκευαστές των ιστοσελίδων – σε μορφή κειμένου. Ωστόσο, υπάρχουν εκατομμύρια εικόνων στο διαδίκτυο για τις οποίες δεν υπάρχει διαθέσιμη κάποια περιγραφή, με αποτέλεσμα τα προγράμματα ανάγνωσης οθόνης να προφέρουν φράσεις όπως «εικόνα», «εικόνα χωρίς ετικέτα» ή απλώς να διαβάζουν το όνομα του αρχείου στο οποίο είναι αποθηκευμένη η εικόνα.

Κάτι τέτοιο δεν βοηθά τα άτομα με προβλήματα όρασης να έχουν πρόσβαση στην πληροφορία, ειδικά όταν η ιστοσελίδα παρέχει τον κύριο όγκο πληροφοριών μέσω εικόνων (κοινωνικά μέσα δικτύωσης, ταξιδιωτικά γραφεία κ.λ.π).

Η Google έχοντας ως στόχο τη διευκόλυνση των χρηστών δημιούργησε ένα εργαλείο αυτόματης περιγραφής εικόνων, το οποίο ονομάζεται Get image descriptions on Chrome. Όταν το πρόγραμμα ανάγνωσης οθόνης συναντήσει κάποια εικόνα, εάν δεν έχει ήδη περιγραφή, ο Chrome θα δημιουργήσει μία αυτόματα.

Βέβαια, οι περιγραφές που δημιουργούνται αυτόματα από κάποιον υπολογιστή ενδεχομένως να μην είναι τόσο καλές σε σχέση με αυτές που έχει γράψει κάποιος προγραμματιστής. Ωστόσο μπορούν να είναι ακριβείς και βοηθητικές.

Η περιγραφή μίας εικόνας μπορεί να βοηθήσει ανθρώπους με προβλήματα όρασης να διαβάσουν το μενού ενός εστιατορίου ή να έχουν καλύτερη εικόνα σχετικά με τις δημοσιεύσεις των φίλων τους στα κοινωνικά δίκτυα (Instagram, Facebook κ.λ.π).

Αν κάποιος που είναι χρήστης κάποιου προγράμματος ανάγνωσης οθόνης επιλέξει να χρησιμοποιήσει το εργαλείο της Google μέσω των Ρυθμίσεων, μια εικόνα που  βρίσκεται στον Chrome χωρίς ετικέτα (alt tag ή alt attribute ή alternative text), στέλνεται με ασφάλεια σε ένα διακομιστή της Google που εκτελεί λογισμικό εκμάθησης μηχανών.

Η τεχνολογία που χρησιμοποιείται εκεί, συγκεντρώνει δεδομένα από πολλά μοντέλα εκμάθησης μηχανών. Ορισμένα μοντέλα αναζητούν κείμενο στην εικόνα, συμπεριλαμβανομένων σημάτων, ετικετών και χειρόγραφων λέξεων.

Άλλα μοντέλα που έχουν εκπαιδευτεί στη διαδικασία της αναγνώρισης αντικειμένων, αναζητούν αντικείμενα  – όπως ένα μολύβι, ένα δέντρο, έναν άνθρωπο που φοράει κοστούμι ή ένα ελικόπτερο. Το πιο εξελιγμένο μοντέλο μπορεί να περιγράψει την κύρια ιδέα μιας εικόνας χρησιμοποιώντας μια πλήρη πρόταση.

Η περιγραφή αξιολογείται ως προς την ακρίβεια και τις διαθέσιμες πληροφορίες:

Περιγράφεται καλά η εικόνα βάσει του σχολιασμού που δημιούργησε το μοντέλο; Είναι χρήσιμη η περιγραφή;

Με βάση το αν ο σχολιασμός πληροί αυτά τα κριτήρια, το μοντέλο μηχανικής μάθησης καθορίζει τι πρέπει να παρουσιαστεί στον χρήστη. Η περιγραφή γίνεται διαθέσιμη μόνο εάν το η πιθανότητα του να είναι σωστή η περιγραφή είναι υψηλή. Εάν κάποιο από τα μοντέλα υποδεικνύει ότι τα αποτελέσματα μπορεί να είναι ανακριβή ή παραπλανητικά, το εργαλείο της Google θα δώσει μια απλούστερη απάντηση, ή τίποτα απολύτως.

Ακολουθούν μερικά παραδείγματα των πραγματικών περιγραφών που δημιουργούνται από το Chrome όταν χρησιμοποιούνται με ένα πρόγραμμα ανάγνωσης οθόνης.

Pineapples, bananas and coconuts
Αποτελέσματα περιγραφής του μοντέλου μηχανικής μάθησης για αυτήν την εικόνα: “Εμφανίζεται να είναι: Φρούτα και λαχανικά στην αγορά.”

 

Man playing guitar on gray sofa
Αποτελέσματα περιγραφής του μοντέλου μηχανικής μάθησης για αυτήν την εικόνα: “Εμφανίζεται να είναι: Άνδρας που παίζει κιθάρα στον καναπέ.”

 

Σύμφωνα με την Google, κατά τους τελευταίους μήνες δοκιμών έχουν δημιουργηθεί περισσότερες από 10 εκατομμύρια περιγραφές, με εκατοντάδες χιλιάδες να προστίθενται καθημερινά. Προς το παρόν, η λειτουργία είναι διαθέσιμη στα Αγγλικά, όμως η εταιρεία σχεδιάζει σύντομα να προσθέσει περισσότερες γλώσσες.

Ο Ιάπωνας εφευρέτης Seiichi Miyake δημιούργησε τα πρώτα πλακάκια για ανθρώπους με προβλήματα όρασης, το 1965.
Για την κεντρική φωτογραφία το εναλλακτικό κείμενο είναι: “Ο Ιάπωνας εφευρέτης Seiichi Miyake δημιούργησε τα πρώτα πλακάκια για ανθρώπους με προβλήματα όρασης, το 1965.”

Πηγές

Μοιραστείτε το άρθρο

The following two tabs change content below.
Γιώτα Ζώτου

Γιώτα Ζώτου

Είμαι απόφοιτος του Τμήματος Εφαρμοσμένων Μαθηματικών του Πανεπιστημίου Κρήτης και κάθε προσπάθεια για περαιτέρω βελτίωση, που έχει σαν στόχο την διευκόλυνση της καθημερινότητας του ανθρώπου άπτεται των ενδιαφερόντων μου. Μέσα από αυτό το site λοιπόν θα μοιραζόμαστε ερευνητικά δεδομένα και εξελίξεις που αφορούν στις επιστήμες και την τεχνολογία, τα οποία έμμεσα ή άμεσα μας αφορούν και αξίζει να γνωρίζουμε.

Αφήστε ένα σχόλιο

Επιλογές της ομάδας
σκίτσο του Άλμπερτ Αϊνστάιν
Πώς τα μυστικά των πρώτων αριθμών κάνουν τον κόσμο μας ασφαλέστερο
Πώς ο Ερατοσθένης υπολόγισε την περιφέρεια της Γης πάνω από 2000 χρόνια πριν;
Τι θα γινόταν αν ο αυτισμός ήταν ... υπερδύναμη;
Εκπληκτικές φωτογραφίες του Cassini λίγο πριν τη συντριβή του στον Κρόνο