No Spark caché SQL el resultado de la misma ejecución de la consulta

votos
0

Cuando corro dos mismas consultas en SQL Spark en modo local. La segunda consulta se ejecute siempre correr más rápido (supongo localidad caché puede resultar esto).

Pero cuando miro en la interfaz de usuario de chispa, averiguar las dos mismas consultas tienen diferente número de puestos de trabajo y esta es la parte que me confunde, por ejemplo, como a continuación.

Como se puede ver, el segundo sólo requiere un puesto de trabajo (20), por lo que no esta información implica caché Spark SQL el resultado de la consulta de forma explícita? O almacena en caché un resultado intermedio de algunos puestos de trabajo de la ejecución anterior?

Gracias por la explicación.

collect at <console>:26+details 2019/10/09 08:28:34 2 s [20]
collect at <console>:26+details 2019/10/09 08:26:01 2.3 min [16][17][18][19]

Publicado el 09/10/2019 a las 18:49
fuente por usuario
En otros idiomas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more