Pandas Qcut

Pandas Qcut



'Pythonissa on monia kirjastoja, ja kun haluamme analysoida tai käsitellä tietoja, hyödynnämme näitä 'Pythonin' kirjastoja, ja 'pandat' ovat myös sen kirjasto. ”Pandas”-kirjastoa käytetään tietotieteiden alalla, ja sitä käytetään myös koneoppimistoiminnassa. 'Pandas' DataFrame auttaa meitä tietojen tallentamisessa. 'Pandoissa', kun haluamme tietojen binningin, käytämme 'qcut()' -menetelmää. 'qcut()' -menetelmää käytetään jatkuvien ominaisuuksien muuntamiseen kategorisiksi. Voimme lisätä erityyppisiä parametreja tähän 'qcut()' -menetelmään erilaisten tulosten saamiseksi. Tämä opetusohjelma koskee 'qcut()' -menetelmää, ja selitämme 'qcut()' -menetelmän tässä yksityiskohtaisesti. Selitämme sinulle, kuinka teemme tietojen binningin 'qcut()'-funktion avulla 'pandassa' tässä opetusohjelmassa.

Esimerkki #01

Käytämme 'qcut()' -menetelmää näissä koodeissa ja teemme nämä koodit 'Spyder' -sovelluksessa. Kun meidän on työskenneltävä 'pandojen' kanssa, voimme käyttää sen toimintoja vain, kun tuomme 'panda'-kirjaston koodeihimme. Ensin laitamme 'tuonti' ja sitten kirjoitamme 'pandas as pd'. Nyt meidän on käytettävä 'qcut()' -menetelmää, joten tätä varten luomme DataFramen tänne. Rakennamme 'Random_df', joka sisältää sarakkeina 'R_ID, R_name ja R_age', ja myös 'R_ID' -kenttään sijoitamme 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 ja R_81'. Sitten lisäämme 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob ja Harper' 'R_name' -sarakkeeseen. Tämän jälkeen lisäämme R_age-sarakkeeseen '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 ja 40'. Nyt käytämme 'print(),', joka sisältää 'Random_df', ja se auttaa 'Random_df' DataFrame -kehyksen hahmontamisessa. Olemme juuri luoneet DataFramen, emmekä käytä vielä 'qcut()' -menetelmää.








'Suorita' -kuvake auttaa meitä koodien suorittamisessa. Kun painamme tätä 'run' -kuvaketta, tämän koodin tulos näkyy 'Spyder' -sovelluksen päätteessä. 'Random_df' DataFarme näytetään tässä esimerkissä kirjoittamamme koodin tuloksena. Nyt käytämme 'qcut()' -menetelmää ja näytämme myös sen tuloksen.




Yhdistämme tiedot tänne. Sitoamme 'R_age' -sarakkeen ja sijoitamme 'pd.qcut()' -menetelmän, joka on 'pandan' menetelmä, joka auttaa tietojen binningissä. Tässä menetelmässä lisäämme DataFramen nimen ja myös sarakkeen nimen, johon haluamme käyttää tätä 'qcut()' -menetelmää. Asetamme myös 'q':n arvoksi '5', ja sitä käytetään 'R_age' -sarakkeen tietojen leikkaamiseen viiteen yhtä suureen kvantiiliin. Lisäämme 'qcut()'-menetelmän 'print()' -kenttään, joten se näyttää myös binning-tiedot päätteessä.




Tässä näytetään tiedot binningin jälkeen, ja se leikkaa 'R_age' viiteen kvantiiliin. Se näyttää myös luokat, joihin R_age-sarakkeen tiedot on bindoitu. Kategorinen sarja edustaa 'R_age' -säiliöitä.






Voimme myös säätää näiden roskakorien tarrat. Lisäämme nämä roskakoritarrat, jotta ne olisi helppo tulkita. Lisäämme 'R_age_qcut' -sarakkeen 'Random_df' -kenttään, johon lisäämme näiden säiliöiden tarrat. Käytämme jälleen 'pd.qcut()' -menetelmää niiden merkitsemiseen. Lisäämme siihen tarrat, jotka ovat 'pieni, ei niin pieni, keskinkertainen, korkea ja korkein'. Sitten laitamme jälleen 'Random_df' kohtaan 'print()'.


Kaikki roskakorit on merkitty ja esitetty tässä tuloksessa. 'R_age_qcut' -sarake näytetään tässä DataFrame-kehyksessä, jossa näkyvät merkityt säiliöt.



Esimerkki # 02

DataFrame-kehyksen luomista varten lisäämme ensin 'arvosanat', jotka ovat '3, 6, 8, 7, 2, 5, 1, 9, 4, 7 ja 8'. Sitten lisäämme opiskelijoiden nimet 'opiskelijoihin', jotka ovat 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard ja Alexander'. Sitten luomme 'Grades_df', johon olemme lisänneet 'pd.DataFrame()' -menetelmän, ja laitamme tähän menetelmään 'Std_name', joka näkyy sarakkeen nimenä, ja annamme tälle 'opiskelijoiden' arvot. Sitten asetamme DataFramen sarakkeen nimeksi 'Students_grades' ja määritämme tähän 'arvosanat', jotka olemme luoneet yllä. Tämän jälkeen meillä on 'print()', johon lisäämme 'Grades_df' tulostamista varten.


Kaksi saraketta sisältävä DataFrame näytetään tämän koodin tuloksessa. Nyt käytämme 'qcut()'-menetelmää 'Students_grades' -sarakkeessa tämän sarakkeen arvojen tietojen sitomiseksi.


Lisäämme tähän uuden sarakkeen 'grade', jossa olemme lisänneet 'pd.qcut()' sarakkeeseen 'Students_grades', ja olemme myös käyttäneet '4':n 'q' arvoksi, joten se leikkaa. tiedot neljään yhtä suureen kvantiiliin. Tämän jälkeen määritämme nämä kvantiilit tänne asettamalla arvot kohtaan 'q', jotka ovat '0, .4, .8 ja 1'. Sitten näytämme myös tämän. Nyt merkitsemme nämä binoidut tiedot, ja tähän lisäämämme tunnisteet ovat 'D, C, A ja B', ja ne tallennetaan myös 'luokka'-sarakkeeseen.


Tässä binningin jälkeiset tiedot näytetään tässä 'arvosana'-sarakkeessa, ja se leikkaa 'Students_grades' -sarakkeen tiedot neljään yhtä suureen kvantiiliin.


DataFrame, jonka saamme 'qcut()'-menetelmän soveltamisen ja kvantiilien määrittämisen jälkeen, näytetään tässä tuloksessa.


Nyt, kun tarrat on lisätty näihin lokeroihin, ne näkyvät myös tässä tuloksessa 'arvosana'-sarakkeessa, ja voit nähdä, että se määrittää tarrat säiliöarvojen mukaan.

Esimerkki #03

Voimme myös soveltaa 'qcut()'-menetelmää CSV-tiedoston tietoihin. Tätä varten luemme ensin CSV-tiedoston tiedot 'read_csv()' -menetelmän avulla. Luemme ”office2.csv”-tiedoston tiedot ja sitten tämän tiedoston tiedot sijoitetaan ”Office_df”-kansioon. Tämä menetelmä muuntaa 'office2'-tiedoston tiedot DataFrame-kehykseksi ja tallentaa sen 'Office_df' -kansioon. Sitten näytämme myös nämä tiedot laittamalla 'Office_df' 'print()' -kenttään. Tämän jälkeen lisäämme uuden sarakkeen nimeltä 'Units_qcut', johon käytämme funktiota 'pd.qcut()' 'Units' -sarakkeeseen.

Lisäksi asetamme 'q'-muuttujan arvoksi '5', mikä jakaa tiedot viiteen yhtä suureen kvantiiliin. Kun tiedot on leikattu viiteen yhtä suureen kvantiiliin, ne tallennetaan 'Units_qcut' -sarakkeeseen, ja tämä sarake lisätään myös 'Office_df'-sarakkeeseen ja 'Office_df', joka hahmonnetaan tässä uudelleen käyttämällä 'print()'. Merkitsemme nyt nämä yhdistetyt tiedot lisäämällä tunnisteet 'qcut()'-menetelmään, jotka ovat 'Unit 1, Unit 2, Unit 3, Unit 4 ja Unit 5', ja tallennamme ne myös 'Labels'-sarakkeeseen. . Muodostamme myös tämän DataFrame-kehyksen, johon on lisätty 'Labels' -sarake.


Tiedot, jotka saamme luettuamme 'office2.csv' -tiedoston, esitetään tässä DataFrame-muodossa. Sitten lisätään 'Units_qcut' -sarake, jossa näytetään 'Units'-sarakkeen binoidut arvot. Tämän jälkeen lisätään myös 'Labels' -sarake, joka määrittää tarrat näille binned arvoille. Tämä kaikki tehdään käyttämällä 'qcut()'-menetelmää 'pandassa'.

Johtopäätös

Olemme selittäneet 'qcut()' -menetelmän yksityiskohtaisesti tässä opetusohjelmassa, joka auttaa 'pandassa' olevien tietojen yhdistämisessä. Olemme keskustelleet siitä, että tiedot on bindattu kvantiilin “q” arvon mukaan, jonka olemme lisänneet “qcut()”-metodissa, ja olemme myös mukauttaneet tarrat näihin binnattuihin tietoihin. Olemme tutkineet 'qcut()' -menetelmää ja soveltaneet tätä menetelmää DataFramen sarakkeisiin, ja olemme myös soveltaneet tätä 'qcut()' -menetelmää CSV-tiedoston tietoihin CSV-tiedostojen lukemisen jälkeen. Olemme esittäneet kaikkien koodien tulokset tässä opetusohjelmassa selittääksemme ja näyttääksemme selkeästi 'qcut()'-menetelmän tuloksen.