Definición


Es un método de codificación de variables categóricas en variables numéricas, eso lo hace en base a las categorías, por ejemplo el promedio de las categorías para cada valor posible. Tiene la desventaja de filtrar las categorías a los features de entrenamiento

Ejemplo

Tenemos la siguiente tabla:

CiudadGastoAd
Moscu1000
Moscu201
Paris1051
Moscu500
Roma1200
Paris400
Roma800
Londres501

Al codificarla entremos

CiudadGastoAdCiudad-Mean
Moscu10000.33
Moscu2010.33
Paris10510.5
Moscu5000.33
Roma12000
Paris4000.5
Roma8000
Londres5011

Usamos Ad para determinar el promedio