Un sistem de învățare prin întărire este alcătuit dintr-o politică ( π {\displaystyle \pi }
), o funcție de recompensă ( R {\displaystyle R}
), o funcție de valoare ( v {\displaystyle v}
) și un model opțional al mediului.
O poliță îi spune agentului ce trebuie să facă într-o anumită situație. Poate fi un simplu tabel de reguli sau o căutare complicată a acțiunii corecte. Politicile pot fi chiar stochastice, ceea ce înseamnă că, în loc de reguli, politica atribuie probabilități fiecărei acțiuni. O politică în sine poate determina un agent să facă anumite lucruri, dar nu poate învăța de una singură.
O funcție de recompensă definește obiectivul unui agent. Aceasta primește o stare (sau o stare și acțiunea efectuată în acea stare) și returnează un număr numit recompensă, care indică agentului cât de bine este să se afle în acea stare. Sarcina agentului este de a obține cea mai mare cantitate de recompensă posibilă pe termen lung. Dacă o acțiune produce o recompensă mică, agentul va întreprinde probabil o acțiune mai bună în viitor. Biologia utilizează semnale de recompensă, cum ar fi plăcerea sau durerea, pentru a se asigura că organismele rămân în viață pentru a se reproduce. Semnalele de recompensă pot fi, de asemenea, stocastice, precum un aparat de joc la un cazinou, unde uneori plătesc, alteori nu.
O funcție de valoare îi spune unui agent câtă recompensă va obține urmând o politică π {\displaystyle \pi }
pornind de la starea s {\displaystyle s}
. Ea reprezintă cât de de dorit este să te afli într-o anumită stare. Deoarece funcția de valoare nu este dată agentului în mod direct, acesta trebuie să facă o presupunere sau o estimare bună pe baza recompensei pe care a obținut-o până acum. Estimarea funcției valorii este cea mai importantă parte a majorității algoritmilor de învățare prin consolidare.
Un model este o copie mentală a mediului înconjurător realizată de agent. Acesta este utilizat pentru a planifica acțiunile viitoare.
Știind acest lucru, putem vorbi despre bucla principală pentru un episod de învățare prin întărire. Agentul interacționează cu mediul în pași de timp discreți. Gândiți-vă la aceasta ca la "tic-tac" unui ceas. În cazul timpului discret, lucrurile se întâmplă doar în timpul "tic-tacurilor" și al "tic-tacurilor", nu și între ele. La fiecare moment t = 0 , 1 , 1 , 2 , 2 , 3 , . . . {\displaystyle t=0,1,2,2,3,... }
, agentul observă starea mediului S t {\displaystyle S_{t}}
și alege o acțiune A t {\displaystyle A_{t}}
pe baza unei politici π {\displaystyle \pi }.
. La pasul de timp următor, agentul primește un semnal de recompensă R t + 1 {\displaystyle R_{t+1}}
și o nouă observație S t + 1 {\displaystyle S_{t+1}}.
. Funcția de valoare v ( S t ) {\displaystyle v(S_{t})}
este actualizată cu ajutorul recompensei. Această procedură continuă până când se atinge o stare terminală S T {\displaystyle S_{T}} . 