estadísticas pandas trama de datos por fila ID

votos
0

Estoy trabajando en un centro de investigación y creado una trama de datos con columnas id, db_keywords, new_words, count_new_words. En la columna new_words tengo palabras que no están en los db_keywords columna y en las count_new_words contar de nuevas palabras. Me utilizado describe()con count_new_words columna con el fin de disponer de estadísticas básicas. Me gustaría usar algún método con el fin de contar con estadísticas por fila (id). Necesito algo de valor o algunas métricas por ejemplo el número de nuevas palabras por ID no están presentes en nuestra base de datos por lo que en este caso db_keywords. Esto puede ser cualquier método, ya que no sé cómo abordar este problema. He creado una trama de datos de prueba similar acaba de visualizar mi problema.

Ejemplo:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Me Wold gustaría saber, por ejemplo, ¿cuál es el valle añadido para ID 1 con una sola palabra en la columna db_keywords y encontramos dos palabras nuevas que se presentan en la columna new_words. ¿Cómo debo calcular y presentar esto?

Publicado el 13/02/2020 a las 23:54
fuente por usuario
En otros idiomas...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more