¿Reproducir los resultados de pd.merge en SQL?

votos
0

He estado jugando con algunos conjuntos de datos localmente en Python, y ahora estoy tratando de replicar los mismos resultados en un entorno de nube con SQL

Tengo 3 tablas, cada una con múltiples identificaciones duplicadas. Por ejemplo, la tabla A contendrá IDs a, b, c, d, ..., la tabla B contendrá IDs a, c, e, a1, a2 ..., y la tabla C contendrá IDs d, f, a2, b1, b2, ...

Actualmente estoy haciendo pd.mergepara la tabla A y la tabla B en ID a, y la tabla C con la tabla resultante de la primera fusión en ID a2. Al usar pd.merge, noté que agregaría a _xo a _ya los ID duplicados (con esto quiero decir que en el primero pd.mergede la tabla A y la tabla B, cde la tabla A se convertiría en c_x, y cde la tabla B se convertiría c_yy así sucesivamente para cualquier otro ID duplicado. Lo mismo se aplicaría a cualquier otra identificación duplicada para cualquier unión

¿Cómo podría replicar este proceso y evitar el problema de los ID duplicados en SQL?

Publicado el 26/05/2020 a las 03:30
fuente por usuario
En otros idiomas...                            


1 respuestas

votos
0

Creo que puedes renombrar en la unión el resto de las columnas unidas con nuevos nombres:

SELECT table_A.ID_a, table_A.c_ID as c_ID_from_A, table_B.c_ID as c_ID_from_B
FROM table_A
JOIN table_B ON(table_A.ID_a = table_B.ID_a)

Espero que lo encuentres útil.

Respondida el 10/06/2020 a las 15:51
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more