Definición
Es una transformación que nos permite combinar dos RDD, en base a las claves de los registros. Junta cada registro del primer RDD con cada registro del segundo RDD que tengan la misma clave. Este no agrupa, sino que es de a pares de registro.
Similar al merge de pandas tenemos 4 tipos de join:
Inner join
Cuando se llama para sets de datos del tipo
Representación gráfica
Donde visualmente se puede entender como
Link to original
Left outer join
Cuando se llama para sets de datos del tipo
Representación gráfica
Donde visualmente se puede entender como
Link to original
Right outer join
Cuando se llama para sets de datos del tipo
Representación gráfica
Donde visualmente se puede entender como
Link to original
Outer join
Cuando se llama para sets de datos del tipo
Representación gráfica
Donde visualmente se puede entender como
Link to original