Biologia din spatele învățării prin întărire poate fi găsită la Condiționarea operantă și Recompensa

Învățarea prin întărire (RL) constă în a învăța un agent software cum să se comporte într-un mediu, spunându-i cât de bine se comportă. Este un domeniu al învățării automate inspirat de psihologia behavioristă.

Învățarea prin întărire este diferită de învățarea supravegheată, deoarece nu sunt niciodată afișate intrările și ieșirile corecte. De asemenea, învățarea prin consolidare învață de obicei pe parcurs (învățare online), spre deosebire de învățarea supravegheată. Aceasta înseamnă că un agent trebuie să aleagă între a explora și a rămâne la ceea ce știe cel mai bine.