No processo de descoberta de conhecimento em bases de dados, a qualidade dos resultados obtidos pelos algoritmos de aprendizado de máquina está diretamente vinculada à qualidade dos dados de entrada. Dados provenientes de fontes heterogêneas, frequentemente, apresentam ruídos, redundâncias e lacunas que podem enviesar as análises estatísticas.
Dentro do fluxo de trabalho de Ciência de Dados, o conjunto de operações que envolve o tratamento de dados faltantes (null/missing values), a normalização de formatos, a remoção de registros redundantes e a correção de erros de digitação ou inconsistências lógicas é tecnicamente denominado