¿Cómo reducir igualmente el valor después de agrupar?

votos
2

Tengo tabla en la que algunos valores pertenecen al índice y otro pertenecen a los valores repetidos. En el ejemplo sides el índice, los costos beolng a SID, pero una sid puede contener muchas transacciones y aún más una transacción puede contener muchas categorías.

df = pd.DataFrame([
    [1, 100, 1, 'A', 1, 50, 2],
    [1, 100, 2, 'A', 1, 50, 1],
    [1, 100, 2, 'B', 2, 100, 1],
    [1, 100, 2, 'C', 3, 50, 1],
    [2, 200, 3, 'D', 4, 500, 1],
    [2, 200, 4, 'C', 2, 100, 1],
    [3, 200, 5, 'B', 2, 100, 1],
    [3, 200, 5, 'A', 1, 50, 1],
    [3, 200, 5, 'A', 3, 50, 1]
], columns=['sid', 'costs', 'transaction_id', 'category', 'sku', 'price', 'quantity'])

df['revenue'] = df['price'] * df['quantity']

Así que si mirada en el nivel sid necesito tomar primero el valor de los costos y suma de los ingresos. Esta es la forma en que debería parecerse. Los costos totales - 500, los ingresos totales - 1100.

df.groupby('sid').agg({'costs': 'min', 'revenue':'sum'}).pivot_table(index='sid', margins=True, aggfunc='sum')  

introducir

Pero quiero para descomponer sid por categoría. Puedo hacerlo de esta manera.

df.groupby(['sid', 'category']).agg({'costs': 'min', 'revenue':'sum'}).pivot_table(index=['sid', 'category'], aggfunc='sum', margins=True)

introducir

Mi problema es que los costos por cada fila se duplicaron. Y la suma de los costos es de 1100 que no es cierto. Quiero reducir igualmente los costes con respecto a la cantidad de categorías en cada SID. Por lo que parece

introducir

¿Es posible aplicar dicha función de balanceo?

Publicado el 18/12/2018 a las 11:02
fuente por usuario
En otros idiomas...                            


2 respuestas

votos
2

Creo que es necesario dividir la cuenta de sidpor grupos creados por transformy size:

df = df.groupby(['sid', 'category']).agg({'costs': 'min', 'revenue':'sum'})
df['costs'] = df['costs'].div(df.groupby('sid')['costs'].transform('size'))
df = df.pivot_table(index=['sid', 'category'], aggfunc='sum', margins=True)
print (df)
                   costs  revenue
sid category                     
1   A          33.333333      150
    B          33.333333      100
    C          33.333333       50
2   C         100.000000      100
    D         100.000000      500
3   A         100.000000      100
    B         100.000000      100
All           500.000000     1100
Respondida el 18/12/2018 a las 11:32
fuente por usuario

votos
3

Aquí hay algo que podría hacer:

g = df.groupby(['sid', 'category']).agg({'revenue':'sum', 'costs': 'min'})
div = df.groupby(['sid'])['category'].nunique()
g['costs'] = g['costs']/div

                revenue     costs
sid category                     
1   A             150   33.333333
    B             100   33.333333
    C              50   33.333333
2   C             100  100.000000
    D             500  100.000000
3   A             100  100.000000
    B             100  100.000000

Y para la última fila, incluyendo el sumde las dos columnas sólo tiene que añadir de nuevo al final:

g.pivot_table(index=['sid', 'category'], aggfunc='sum', margins=True)
Respondida el 18/12/2018 a las 11:33
fuente por usuario

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more