Definición


Es un método de codificación de variables categóricas en variables numéricas, eso lo hace determinar un valor para cada categoría, expresarlo en binario y ponerlo en columnas. Esto es mejor que el One hot encoding ya que la cantidad de columnas es donde es la cantidad de categorías en esa variable.

Ejemplo

Tenemos la siguiente tabla:

CiudadGastoAd
Moscu1000
Moscu201
Paris1051
Moscu500
Roma1200
Paris400
Roma800
Londres501

Al codificarla entremos

GastoAdC2C1C0
1000001
201001
1051010
500001
1200011
400010
800011
501100

Con Moscu = 001, Paris = 010, Roma = 011, y Londres = 100.