Αναμείνατε ολίγον τι
Τεχνολογία

Ρομπότ που μαθαίνουν από τα λάθη τους

Ρομπότ που μαθαίνουν από τα λάθη τους

Τους τελευταίους μήνες, στόχος των ερευνητών της εταιρείας OpenAI είναι η ανάπτυξη συστημάτων τεχνητής νοημοσύνης (AI) τα οποία θα έχουν την ικανότητα να μαθαίνουν ευκολότερα. Κατάφεραν λοιπόν να δημιουργήσουν ένα νέο λογισμικό το οποίο επιτρέπει στα ΑΙ συστήματά τους να μαθαίνουν από τα λάθη τους, σχεδόν όπως κάνουν και οι άνθρωποι.

Το νέο λογισμικό ανοιχτού κώδικα ονομάζεται Hindsight Experience Replay (HER) και όπως υποδηλώνει το όνομά του, βοηθά ένα σύστημα AI να «κοιτάζει πίσω», όταν ολοκληρώνει μια δοκιμασία. Συγκεκριμένα, το AI σύστημα επαναπροσδιορίζει τις αποτυχίες ως επιτυχίες, σύμφωνα με τα όσα αναφέρονται στο blog της OpenAI.

«Η βασική ιδέα βρίσκεται στο ότι το HER τυποποιεί όσα οι άνθρωποι κάνουν διαισθητικά. Ακόμη κι αν δεν επιτύχαμε έναν συγκεκριμένο στόχο, τουλάχιστον έχουμε επιτύχει έναν διαφορετικό«, γράφουν οι ερευνητές. «Γιατί λοιπόν να μην προσποιηθούμε ότι θέλαμε να επιτύχουμε αυτό τον στόχο εξ’ αρχής;»

Με απλά λόγια, αυτό σημαίνει ότι κάθε αποτυχημένη απόπειρα του συστήματος τεχνητής νοημοσύνης που εργάζεται για έναν συγκεκριμένο στόχο, προσμετράται ως επιτυχία για κάποιον άλλον, ακούσιο «εικονικό» στόχο.

Σκεφτείτε για παράδειγμα τότε που προσπαθούσατε να μάθετε πώς να οδηγείτε ένα ποδήλατο. Στις πρώτες προσπάθειες που κάνατε, αποτύχατε στο να κρατήσετε την ισορροπία σας. Ακόμη κι έτσι όμως, αυτές οι προσπάθειες σας δίδαξαν πώς είναι όταν δεν ισορροπείτε σωστά και τι πρέπει να αποφύγετε όταν οδηγείται ποδήλατο. Κάθε αποτυχία σάς έφερε ένα βήμα πιο κοντά στον στόχο σας- διότι αυτός είναι ο τρόπος που μαθαίνουν κάθε φορά κάτι νέο οι άνθρωποι.

Επιβραβεύοντας κάθε αποτυχία 

Με το HER η OpenAI θέλει τα ΑΙ συστήματα που αναπτύσσει να μαθαίνουν με τον ίδιο τρόπο που μαθαίνουν οι άνθρωποι. Την ίδια στιγμή, αυτή η μέθοδος μπορεί να αποτελέσει μία σοβαρή εναλλακτική και για τις υπάρχουσες μεθόδους επιβράβευσης. Για να είναι σε θέση το AI σύστημα να διδάξει τον εαυτό του, πρέπει να λειτουργήσει με ένα σύστημα ανταμοιβών: αν το ΑΙ σύστημα επιτυγχάνει το στόχο του, παίρνει ένα λογισμικό «cookie» , διαφορετικά όχι. Η εναλλακτική μέθοδος δίνει τα cookies ανάλογα με το πόσο κοντά είναι ένα AI σύστημα στην επίτευξη ενός στόχου.

Ωστόσο, καμία από τις δύο μεθόδους δεν είναι άψογες:

  • Η πρώτη υστερεί στην εκμάθηση, διότι το AI σύστημα είτε επιτυγχάνει τον στόχο, είτε όχι.
  • Η δεύτερη, από την άλλη πλευρά, μπορεί να είναι αρκετά δύσκολο να εφαρμοστεί, σύμφωνα με το IEEE Spectrum. Αντιμετωπίζοντας όμως κάθε προσπάθεια ως στόχο στο παρελθόν, το HER δίνει στο AI σύστημα μια ανταμοιβή, ακόμα και όταν αυτό δεν καταφέρνει να ολοκληρώσει την καθορισμένη εργασία – κάτι που βοηθά το AI σύστημα να μάθει γρηγορότερα και με υψηλότερη ποιότητα.

«Το λογισμικό ενισχυτικής μάθησης μπορεί να αποκτήσει ένα σήμα μάθησης αφού έχει επιτύχει κάποιο στόχο, ακόμα κι αν δεν ήταν εκείνος που θέλατε να επιτύχει αρχικά. Εάν επαναλάβετε αυτή τη διαδικασία, θα μάθετε τελικά πώς να επιτύχετε αυθαίρετους στόχους, συμπεριλαμβανομένων των στόχων που πραγματικά θέλετε να επιτύχετε «, σύμφωνα με το blog της εταιρείας.

Ακολουθεί ένα παράδειγμα του τρόπου με τον οποίο λειτουργεί το HER με την προσομοίωση του OpenAI Fetch.

Αυτή η μέθοδος δεν σημαίνει ότι το HER καθιστά πολύ ευκολότερο το να διδαχθούν τα συστήματα τεχνητής νοημοσύνης συγκεκριμένα καθήκοντα. «Η μάθηση με το HER για τα πραγματικά ρομπότ είναι ακόμα δύσκολη, αφού απαιτεί επιπλέον ένα μεγάλο αριθμό δειγμάτων«, δήλωσε ο Matthias Plappert του OpenAI στο IEEE Spectrum.

Σε κάθε περίπτωση όμως, όπως έδειξαν οι προσομοιώσεις του OpenAI, το HER μπορεί να φανεί πολύ χρήσιμο για την «ενθάρρυνση» συστημάτων τεχνητής νοημοσύνης ώστε να μαθαίνουν ακόμη και από τα λάθη τους, όπως ακριβώς συμβαίνει και με τους ανθρώπους. Βέβαια, η μεγάλη διαφορά είναι ότι τα AI συστήματα δεν απογοητεύονται ποτέ!

Πηγές

Μοιραστείτε το άρθρο

The following two tabs change content below.
Γιώτα Ζώτου

Γιώτα Ζώτου

Είμαι απόφοιτος του Τμήματος Εφαρμοσμένων Μαθηματικών του Πανεπιστημίου Κρήτης και κάθε προσπάθεια για περαιτέρω βελτίωση, που έχει σαν στόχο την διευκόλυνση της καθημερινότητας του ανθρώπου άπτεται των ενδιαφερόντων μου. Μέσα από αυτό το site λοιπόν θα μοιραζόμαστε ερευνητικά δεδομένα και εξελίξεις που αφορούν στις επιστήμες και την τεχνολογία, τα οποία έμμεσα ή άμεσα μας αφορούν και αξίζει να γνωρίζουμε.

Αφήστε ένα σχόλιο

Επιλογές της ομάδας
Oumuamua
σκίτσο του Άλμπερτ Αϊνστάιν
Τι θα γινόταν αν ο αυτισμός ήταν ... υπερδύναμη;
Η Σοφία, το πρώτο ρομπότ πολίτης στον κόσμο, δήλωσε ότι θα ήθελε να αποκτήσει οικογένεια
Πώς δημιουργήθηκαν τα μαθηματικά σύμβολα;
NASA: το πείραμα των πανομοιότυπων διδύμων
Close