Definición


Es una transformación que nos permite decrecer la cantidad de particiones del RDD. No hace un shuffle por defecto, solo pasa datos de una partición a otra. Por lo tanto no necesariamente queda balanceadas como en repatition

rdd = sc.parallelize(range(1, 11), 2)
rdd.coalesce(2).glom().collect()
 
# Devuelve [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]]

En este caso quedó balanceado pero no ncesariamente es el caso.