Pandaryhmäkeskiarvo

Pandaryhmakeskiarvo



Kun laskemme kaksi tai useampia arvoja yhteen ja niiden summa jaetaan yhteenlaskettujen arvojen kokonaismäärällä, tulos on keskiarvo. Pandas Mean palauttaa datan tai arvon keskiarvon tietyllä akselilla. Pandat palauttavat sarjan, jossa on keskiarvo akselin poikki, jos keskiarvo()-menetelmää sovelletaan tietokehykseen. Pandat palauttavat numeerisen arvon (yksittäinen luku), jos sarjassa käytetään 'mean()'. Toimintoja voidaan soveltaa luokkiin luokkien ryhmien luomisen jälkeen. Se on yksinkertainen idea, mutta erittäin tehokas tekniikka, jota käytetään usein datatieteessä. Sen avulla voimme luoda yhteenvedon kunkin ryhmän tiedoista, tehdä ryhmäkohtaisia ​​muutoksia ja suorittaa tietojen suodatuksen. Groupby()-funktiolla objekti voidaan jakaa, funktiota voidaan soveltaa ja tuotteet voidaan sitten yhdistää. Tällä voidaan ryhmitellä suuret tietojoukot ja suorittaa toimintoja ryhmille.

Kuinka käyttää groupby.mean() -menetelmää Pandasissa?

Datakehyksen keskiarvon tai tietokehyksen tiettyjen sarakkeiden keskiarvon laskemiseksi voimme käyttää groupby.mean()-funktiota. Osoitamme, kuinka sitä käytetään seuraavissa esimerkeissä.







Esimerkki # 01: Määritä yhden kokonaislukusarakkeen keskiarvo ryhmittelemällä yhden sarakkeen tiedot

Pd.DataFrame()-funktion avulla luomme ensin datakehyksen, jotta voimme jakaa datakehyksen sarakkeen tai sarakkeiden tiedot ryhmiin ja sitten löytää niiden keskiarvon. Ennen tietokehyksen luomista meidän on tuotava pandas-moduuli yhdessä numpy-kirjaston kanssa.





Kuten voidaan nähdä, olemme luoneet tietokehyksemme käyttämällä pandas-sanakirjaa. Df-tietokehyksessämme on 3 saraketta, eli 'tuotteet', 'valmistaja' ja 'määrä'. 'Tuotteet' -sarakkeeseen olemme tallentaneet arvot ('paita', 'solmio', 'housut', 'paita', 'solmio', 'housut', 'paita', 'housut', 'housut', ' tie'), kun taas sarakkeet 'manufacturer' ja 'quantity' sisältävät arvot ('italia', 'francia', 'china', 'francia', 'china', 'italy', 'china', 'italy', 'ranska', 'kiina') ja (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Ryhmitetään arvot valmistajasarakkeeseen ja määritetään kunkin valmistajan keskimääräinen määrä.





Valmistajan arvon 'Kiina' keskimääräinen määrä on 21,5, keskimääräinen määrä 'ranskalle' on 20,0 ja keskimääräinen määrä 'Italialle' on 32,0. Voimme myös määrittää tulosteen indeksin käyttämällä reset_index-funktiota groupby.mean()-funktion kanssa.



Esimerkki # 02: Etsi yhden kelluvan sarakkeen keskiarvo ryhmittelemällä yhden sarakkeen tiedot

Olemme nähneet kuinka voimme löytää kokonaislukusarakkeen keskiarvon tietojen ryhmittelyn jälkeen. Kokeillaan nyt toista tietotyyppisaraketta, kuten float. Tietokehys, jossa on vähintään yksi sarake kelluvilla arvoilla, luodaan käyttämällä pd.DataFrame()-funktiota.

Laittamalla sanakirjan pd.DataFrame(:n) sisään, olemme luoneet tietokehyksen, jossa on kolme saraketta. Sarake 'nimi' tallentaa joidenkin satunnaisten pelaajien nimet ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), sarake 'joukkue', joka edustaa joukkuetta, johon kukin pelaaja kuuluu ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B' ', 'C', 'C') ja 'korkeus'-sarake tallentaa kunkin pelaajan korkeudet kelluvana arvona (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Ryhmitetään tiedot 'tiimi' -sarakkeeseen ja määritetään kunkin erillisen 'joukkueen' arvon keskimääräinen korkeus.

Näet, että A-joukkueen pelaajien keskipituus on 5,65, kun taas joukkueiden B ja C pelaajien keskipituudet ovat 5,866 ja 5,6.

Esimerkki # 03: Määritä useiden sarakkeiden keskiarvo käyttämällä groupby.mean()-funktiota

Aiemmissa esimerkeissä määritimme yhden sarakkeen keskiarvon. Kuitenkin voidaan määrittää myös kunkin ryhmän lukuisten sarakkeiden keskiarvo. Luodaan tietokehys, jossa on useampi kuin yksi numeerinen sarake, kun olet tuonut pandat ja numpy-moduulit.

Äskettäin luodussa tietokehyksessä on kolme saraketta, joissa on otsikot 'nimi', 'pisteet' ja 'osumat'. Sarakkeiden nimet, joissa data-arvot ovat merkkijonona  ('Ron', 'Jim', 'Dany', 'Jim', 'Jim', 'Dany', 'Ron', 'Ron', 'Dany', 'Jim' ), kun taas 'pisteet' ja 'ottelut' koostuvat numeerisista tiedoista, kuten (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) ja (2, 3, 1, 2, 1, 3) , 4, 1, 2, 1). Etsitään nyt sarakkeen 'pisteet' ja 'osumat' keskiarvo sarakkeen 'nimi' tietojen ryhmittelyn jälkeen. Tähän käytetään groupby.mean()-funktiota.

Voidaan huomata, että Dany-ryhmän keskiarvo on 2,66 2,00 ottelussa. Ryhmä Jimin keskiarvo on 2,75 ja pelattujen otteluiden keskiarvo on 1,75. Ryhmän 'Ron' keskimääräinen pistemäärä on 2,66 ja pelattujen otteluiden keskiarvo on 2,33.

Objektin luokkien ryhmän keskiarvo voidaan laskea myös agg()-menetelmällä. Annamme keskiarvon argumenttina agg()-funktiolle. Voimme käyttää agg()-funktiota aggregoidaksesi käyttämällä yhtä tai useampaa operaatiota tietyllä akselilla.

Tulos on sama kuin ennenkin.

Esimerkki # 04: Määritä tiettyjen sarakkeiden keskiarvo ryhmittelemällä useita sarakkeita

Esimerkeissä 1, 2 ja 3 olemme ryhmittäneet yhden sarakkeen arvot tai tiedot. Nyt ryhmittelemme useita sarakkeita käyttämällä sarakeotsikoiden luetteloa groupby()-funktion sisällä, ja sitten löydämme kunkin ryhmän keskiarvon. Sanakirja 'd' välitetään pd.Dataframe()-funktion sisällä syötteenä datakehyksen luomiseen.

Olemme luoneet tarvittavan tietokehyksen. Sarake 'urheilu' tallentaa joidenkin urheilulajien nimet ('sulkapallo', 'jalkapallo', 'tennis', 'koripallo', 'jalkapallo', 'tennis', 'koripallo', 'jalkapallo', 'sulkapallo', ' koripallo', 'koripallo', 'tennis'), maiden nimet ('Kiina', 'Venäjä', 'Italia', 'Espanja', 'Venäjä', 'Italia', 'Kiina', 'Italia', ' Espanja', 'Kiina', 'Venäjä', 'Italia') on tallennettu 'maa'-sarakkeeseen. Voitto-sarakkeeseen olemme tallentaneet kunkin maan kunkin lajin voittamat ottelut (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Käytämme groupby.mean()-funktiota löytääksemme 'win' -sarakkeen arvojen keskiarvon ryhmittelemällä sarakkeet 'urheilu' ja 'maa'.

Toiminto on onnistuneesti määrittänyt voittosarakkeen arvojen keskiarvot jokaiselle maan urheilulajille. Ryhmitetty tietokehys voidaan nollata käyttämällä reset_index()-funktiota, joka myös luo uuden indeksin ja antaa sille sopivan tietokehysrakenteen.

Jokaiselle tietokehyksen riville lisätään indeksi. Voit järjestää tulokset houkuttelevaksi taulukoksi myös pivot()-funktiolla.

Johtopäätös

Tässä opetusohjelmassa olemme keskustelleet siitä, mikä on lukujen keskiarvo tai keskiarvo ja kuinka löytää tietyn sarakkeen (yhden tai useamman) keskiarvo tietokehyksen sarakkeen tai sarakkeiden ryhmittelyn jälkeen. Otimme käyttöön muutamia esimerkkejä tässä artikkelissa opettaaksemme sinulle, kuinka voit määrittää yksittäisen kokonaisluvun tai float-sarakkeen keskiarvon ryhmittelemällä yhden sarakkeen tiedot. kuinka määrittää useiden sarakkeiden keskiarvo käyttämällä groupby.mean()-funktiota; ja myös kuinka määrittää tiettyjen sarakkeiden keskiarvo ryhmittelemällä useita sarakkeita.