Suponha que você possua dados de uma grande rede de lojas e que precise criar um classificador para prever se um determinado cliente comprará ou não um determinado produto. Para isso, a empresa disponibilizou uma amostra contendo dados de 10.000 clientes que compraram o produto e de 10.000 clientes que não compraram o produto. Dentre os vários atributos (ou características) de cada cliente estão: faixa de renda familiar (um valor discreto de 1 a 5), idade, o valor total de produtos já comprados da empresa (somando todas as compras já realizadas), e se comprou ou não o produto (0 = não, 1 = sim) durante uma campanha.
Antes de executar um algoritmo de treinamento do classificador, um procedimento importante de pré-processamento a ser realizado sobre esses dados é: