Pandaer DataFrame statistikk per rad id

stemmer
0

Jeg jobber med et forskningsprosjekt, og jeg laget en DataFrame med kolonner id, db_keywords, new_words, count_new_words. I kolonne new_words jeg har ord som ikke finnes i kolonne db_keywords de og i count_new_words telle av nye ord. Jeg brukte describe()med kolonne count_new_words for å ha grunnleggende statistikk. Jeg ønsker å bruke noen metode for å ha statistikk per rad (id). Jeg trenger noen verdi eller noen beregninger for eksempel hvor mange nye ord per id ikke finnes i vår database så i dette tilfellet db_keywords. Dette kan være en hvilken som helst metode fordi jeg ikke vet hvordan de skal nærme seg dette problemet. Jeg opprettet en lignende test dataframe bare for å visualisere mitt problem.

Eksempel:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Jeg Wold liker å vite for eksempel hva som er lagt til vale for id en med bare ett ord i db_keywords kolonne og vi fant to nye ord som presenteres i new_words kolonne. Hvordan bør jeg beregne og presentere dette?

Publisert på 13/02/2020 klokken 23:54
kilden bruker
På andre språk...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more