Em alguns sistemas de IA, o modelo aprende a escolher ações a partir da experiência, recebendo feedback quantitativo após cada interação, ajustando sua política de decisão ao longo do tempo, sem depender de dados rotulados previamente.
Esse paradigma de aprendizado de máquina é conhecido como: