mesas de procesamiento en paralelo usando Azure datos de fábrica, tubería sola, sola Databricks cuaderno?

votos
0

Quiero transformar una lista de tablas en paralelo utilizando Azure Fábrica de datos y una individual Databricks Notebook.

Ya tengo una tubería Azure datos de fábrica (ADF) que recibe una lista de tablas como un parámetro, establece cada tabla de la lista de tabla como una variable, luego llama a un solo cuaderno (que realiza transformaciones simples) y pasa cada tabla en serie para este portátil. El problema es que transforma las tablas en serie (uno tras otro) y no en paralelo (todas las tablas al mismo tiempo). Necesito las tablas para ser procesados ​​en paralelo.

Por lo tanto, mis preguntas son: 1) ¿Es posible activar las mismas múltiples Databricks portátil veces en el mismo punto exacto en el tiempo (cada vez con una tabla diferente como parámetro) de Azure datos de fábrica? 2) En caso afirmativo, ¿qué es lo que tengo que cambiar en mi tubería o portátil para hacer que funcione?

Creo que es probable que no es posible disparar el mismo bloc de notas varias veces de forma concomitante, ya que, cuando desencadenar este portátil directamente desde Databricks (y pasar una tabla como variable), tengo que esperar a que se termine de ejecutarse antes de que los activa de nuevo para otra mesa (parámetro). Pero quiero estar seguro de si es factible o no. También sé que es posible procesar varias mesas en paralelo usando varios blocs de notas, pero, en mi caso, necesito utilizar un solo cuaderno. Gracias por adelantado :)

parámetros

Parámetros

Variables

las

Establecer las variables de mesa y portátil

introducir

Configurar secuencial

Configurar

Sin revisar secuencial con conteo de lote = blanco

Cuando se configura como secuencial y conteo de lote = blanco, y pasar dos tablas, las carreras de tuberías con éxito, pero sólo una mesa se transforma (incluso si agrego varias tablas en la lista de la tabla). Establecer variable muestra correctamente dos veces, una para cada tabla. Pero Orchestrate muestra dos veces por la misma mesa.

introducir

Sequential Unchecked con conteo de lote = 2

Cuando se configura como secuencial y Batch Count = 2, y pasar dos tablas, la tubería falla en la segunda iteración, pero también trata de la transformación de la misma mesa dos veces. Establecer variable muestra correctamente dos veces, una para cada tabla. Pero Orchestrate muestra dos veces por la misma mesa.

Sequential

Sequential Contador de cuadros o por lotes = 1

Si dejo marcada o secuencial lotes Count = 1, entonces la tubería se ejecuta correctamente y realiza transformaciones en todas las tablas, pero el procesamiento se produce en serie (como se esperaba).

introducir

Publicado el 13/01/2020 a las 21:55
fuente por usuario
En otros idiomas...                            


1 respuestas

votos
0

Lo resuelto utilizando "Buscar" a una tablas SQL en lugar de "Establecer variable". El cuadro siguiente muestra una racha de 5 mesas en paralelo usando un solo cuaderno.

introducir descripción de la imagen aquí

Respondida el 14/01/2020 a las 20:40
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more