Învățarea prin întărire
Biologia din spatele învățării prin întărire poate fi găsită la Condiționarea operantă și Recompensa
Învățarea prin întărire (RL) constă în a învăța un agent software cum să se comporte într-un mediu, spunându-i cât de bine se comportă. Este un domeniu al învățării automate inspirat de psihologia behavioristă.
Învățarea prin întărire este diferită de învățarea supravegheată, deoarece nu sunt niciodată afișate intrările și ieșirile corecte. De asemenea, învățarea prin consolidare învață de obicei pe parcurs (învățare online), spre deosebire de învățarea supravegheată. Aceasta înseamnă că un agent trebuie să aleagă între a explora și a rămâne la ceea ce știe cel mai bine.
Introducere
Un sistem de învățare prin întărire este alcătuit dintr-o politică ( π {\displaystyle \pi } ), o funcție de recompensă ( R {\displaystyle R} ), o funcție de valoare ( v {\displaystyle v} ) și un model opțional al mediului.
O poliță îi spune agentului ce trebuie să facă într-o anumită situație. Poate fi un simplu tabel de reguli sau o căutare complicată a acțiunii corecte. Politicile pot fi chiar stochastice, ceea ce înseamnă că, în loc de reguli, politica atribuie probabilități fiecărei acțiuni. O politică în sine poate determina un agent să facă anumite lucruri, dar nu poate învăța de una singură.
O funcție de recompensă definește obiectivul unui agent. Aceasta primește o stare (sau o stare și acțiunea efectuată în acea stare) și returnează un număr numit recompensă, care indică agentului cât de bine este să se afle în acea stare. Sarcina agentului este de a obține cea mai mare cantitate de recompensă posibilă pe termen lung. Dacă o acțiune produce o recompensă mică, agentul va întreprinde probabil o acțiune mai bună în viitor. Biologia utilizează semnale de recompensă, cum ar fi plăcerea sau durerea, pentru a se asigura că organismele rămân în viață pentru a se reproduce. Semnalele de recompensă pot fi, de asemenea, stocastice, precum un aparat de joc la un cazinou, unde uneori plătesc, alteori nu.
O funcție de valoare îi spune unui agent câtă recompensă va obține urmând o politică π {\displaystyle \pi } pornind de la starea s {\displaystyle s} . Ea reprezintă cât de de dorit este să te afli într-o anumită stare. Deoarece funcția de valoare nu este dată agentului în mod direct, acesta trebuie să facă o presupunere sau o estimare bună pe baza recompensei pe care a obținut-o până acum. Estimarea funcției valorii este cea mai importantă parte a majorității algoritmilor de învățare prin consolidare.
Un model este o copie mentală a mediului înconjurător realizată de agent. Acesta este utilizat pentru a planifica acțiunile viitoare.
Știind acest lucru, putem vorbi despre bucla principală pentru un episod de învățare prin întărire. Agentul interacționează cu mediul în pași de timp discreți. Gândiți-vă la aceasta ca la "tic-tac" unui ceas. În cazul timpului discret, lucrurile se întâmplă doar în timpul "tic-tacurilor" și al "tic-tacurilor", nu și între ele. La fiecare moment t = 0 , 1 , 1 , 2 , 2 , 3 , . . . {\displaystyle t=0,1,2,2,3,... } , agentul observă starea mediului S t {\displaystyle S_{t}} și alege o acțiune A t {\displaystyle A_{t}} pe baza unei politici π {\displaystyle \pi }. . La pasul de timp următor, agentul primește un semnal de recompensă R t + 1 {\displaystyle R_{t+1}} și o nouă observație S t + 1 {\displaystyle S_{t+1}}. . Funcția de valoare v ( S t ) {\displaystyle v(S_{t})} este actualizată cu ajutorul recompensei. Această procedură continuă până când se atinge o stare terminală S T {\displaystyle S_{T}} .