Άνθρωποι στην εξέλιξη της τεχνητής νοημοσύνης; Περιττό 🤯 Δοκιμάζεται η μέθοδος αυτοδιδασκαλίας
Σε όλες τις περιπτώσεις όπου η τεχνητή νοημοσύνη έφτασε σε υπεράνθρωπες ικανότητες, η ανθρώπινη εμπειρία έγινε παρωχημένη. AlphaZero (DeepMind): κατακτημένο σκάκι ενάντια στον εαυτό του, εκατομμύρια παιχνίδια, υπερανθρώπινο επίπεδο σε ώρες!
Τρέχουσες χρήσεις κατάρτισης LLM ανθρώπινα απαντήσεις για τη δημιουργία μοντέλων ανταμοιβής. Αλλά γιατί χρειάζονται οι άνθρωποι εάν ο στόχος είναι να αναβαθμιστούν οι γλωσσικές ικανότητες LLM υπεράνθρωπος επίπεδα; 🤔
Λύση; Αυτοσυντηρούμενα LLM δημιουργώντας τα δικά τους μοντέλα ανταμοιβής τα οποία τα ίδια «χρησιμοποιούνται μέσω του LLM-as-a-Judge που προτρέπουν να παρέχουν τις δικές τους ανταμοιβές κατά τη διάρκεια της εκπαίδευσης». Δοκιμασμένη στο Llama 2 70B, αυτή η μέθοδος ξεπέρασε τα περισσότερα συστήματα, συμπεριλαμβανομένων των Claude 2, Gemini Pro, GPT-4 (αναφορά)
Τι είναι ωραίο; Αυτό φέρνει τις εικασίες γύρω από το «οι άνθρωποι δεν χρειάζονται για αυτοβελτίωση LLM» στην πρακτική πραγματικότητα [για πρώτη φορά, νομίζω]
Έτσι, μια μέρα Πλάσι θα προσκαλέσει Πλάσι Προ σε ένα μάθημα ψυχολογίας, και αυτή, με τη σειρά της, θα προσκαλέσει την αδερφή της σε εκπαίδευση πωλήσεων 😀