Tietojen normalisointi Pythonissa

Normalization Data Python

Tietojen normalisointi on tekniikka, joka auttaa saamaan tuloksen nopeammin, koska koneen on käsiteltävä pienempiä tietoja. Normalisointi ei ole helppo tehtävä, koska kaikki tulokset riippuvat normalisointimenetelmän valinnasta. Joten jos olet valinnut väärän menetelmän tietojen normalisoimiseksi, saatat saada jotain erilaista kuin odotit.

Normalisointi riippuu myös tietotyypistä, kuten kuvat, teksti, numeerinen jne. Jokaisella tietotyypillä on erilainen normalisointitapa. Joten tässä artikkelissa keskitymme numeeriseen dataan.



Tapa 1: Sklearnin käyttö

Sklearn -menetelmä on hyvin tunnettu menetelmä tietojen normalisoimiseksi.





Solunumerossa [83] : Tuomme kaikki tarvittavat kirjastot, NumPy ja sklearn. Näet, että tuomme esikäsittelyn itse sklearnista. Siksi tämä on sklearn -normalisointimenetelmä.

Solunumerossa [84] : Loimme NumPy -taulukon, jossa on jokin kokonaisluku, joka ei ole sama.

Solunumerossa [85] : Kutsuimme normalisointimenetelmän esikäsittelystä ja välitimme numpy_array, jonka loimme juuri parametriksi.



Solunumerossa [86] : Tuloksista näemme, että kaikki kokonaislukutietomme on nyt normalisoitu välillä 0 ja 1.

Menetelmä 2: Normalisoi tietyn sarakkeen tietojoukossa sklearnin avulla

Voimme myös normalisoida tietyn tietojoukon sarakkeen. Tässä aiomme keskustella siitä.


Solunumerossa [87] : Tuomme kirjastoon pandoja ja sklearnia.

Solunumerossa [88] : Loimme tyhjän CSV -tiedoston, ja lataamme nyt sitä CSV -tiedostoa pandas (read_csv) -paketin avulla.

Solunumerossa [89] : Tulostamme äskettäin lataamamme CSV -tiedoston.

Solunumerossa [90] : Luemme CSV -tiedoston tietyn sarakkeen käyttämällä np: tä. matriisi ja tallenna tulos arvoon_taulukko.

Solunumerossa [92] , kutsuimme normalisointimenetelmän esikäsittelystä ja välitimme parametrin value_array.

Tapa 3: Muunna normalisoitumaan käyttämättä sarakkeita matriisiin (sklearnin avulla)

Edellisessä menetelmässä 2 keskustelimme siitä, kuinka voimme normalisoida tietyn CSV -tiedoston sarakkeen. Mutta joskus meidän on normalisoitava koko tietojoukko, sitten voimme käyttää alla olevaa menetelmää, jossa normalisoimme koko tietojoukon mutta sarakekohtaisesti (akseli = 0). Jos mainitsemme akselin = 1, se normalisoituu rivikohtaisesti. Akseli = 1 on oletusarvo.


Solunumerossa [93] : Tuomme kirjastoon pandoja ja sklearnia.

Solunumerossa [94] : Loimme nukke -CSV -tiedoston (demo_numeric.csv), ja lataamme nyt sitä CSV -tiedostoa pandas (read_csv) -paketin avulla.

Solunumerossa [95] : Tulostamme äskettäin lataamamme CSV -tiedoston.

Solunumerossa [96] : Nyt välitämme koko CSV-tiedoston yhdessä yhden lisäparametriakselin = 0 kanssa, joka sanoi kirjastolle, että käyttäjä halusi normalisoida koko tietojoukon sarakekohtaisesti.

Solunumerossa [97] , tulostamme tuloksen ja normalisoimme tiedot arvolla 0 ja 1.

Menetelmä 4: MinMaxScalerin () käyttäminen

Sklearn tarjoaa myös toisen normalisointimenetelmän, jota kutsuimme nimellä MinMaxScalar. Tämä on myös erittäin suosittu menetelmä, koska sitä on helppo käyttää.


Solunumerossa [98] : Tuomme kaikki tarvittavat paketit.

Solunumerossa [99] : Loimme nukke -CSV -tiedoston (demo_numeric.csv), ja lataamme nyt sitä CSV -tiedostoa pandas (read_csv) -paketin avulla.

Solunumerossa [100] : Tulostamme äskettäin lataamamme CSV -tiedoston.

Solunumerossa [101] : Kutsuimme MinMaxScalar esikäsittelymenetelmästä ja loimme sille objektin (min_max_Scalar). Emme välittäneet mitään parametreja, koska meidän on normalisoitava tiedot välillä 0 ja 1. Mutta jos haluat, voit lisätä arvot, jotka näkyvät seuraavassa menetelmässä.

Solunumerossa [102] : Luemme ensin kaikkien sarakkeiden nimet, jotta voimme näyttää ne tulokset. Sitten kutsumme luodun objektin fit_tranformiksi min_max_Scalar ja välitimme CSV -tiedoston siihen.

Solunumerossa [103] : Saamme normalisoidut tulokset, jotka ovat välillä 0 ja 1.

Tapa 5: MinMaxScalerin käyttäminen (feature_range = (x, y))

Sklearn tarjoaa myös mahdollisuuden muuttaa haluamasi normalisoitua arvoa. Oletusarvoisesti ne normalisoivat arvon 0 ja 1 välillä. Mutta on parametri, jota kutsuimme feature_range, joka voi asettaa normalisoidun arvon vaatimustemme mukaisesti.

Solunumerossa [104] : Tuomme kaikki tarvittavat paketit.

Solunumerossa [105] : Loimme nukke -CSV -tiedoston (demo_numeric.csv), ja lataamme nyt sitä CSV -tiedostoa pandas (read_csv) -paketin avulla.

Solunumerossa [106] : Tulostamme äskettäin lataamamme CSV -tiedoston.

Solunumerossa [107] : Kutsuimme MinMaxScalar esikäsittelymenetelmästä ja loimme sille objektin (min_max_Scalar). Mutta välitämme myös toisen parametrin MinMaxScalerin sisällä (ominaisuusalue). Parametriarvoksi asetimme 0 - 2. Joten nyt MinMaxScaler normalisoi data -arvot välillä 0-2.

Solunumerossa [108] : Luemme ensin kaikkien sarakkeiden nimet, jotta voimme näyttää ne tulokset. Sitten kutsumme luodun objektin fit_tranformiksi min_max_Scalar ja välitimme CSV -tiedoston siihen.

Solunumerossa [109] : Saamme normalisoidut tulokset, jotka ovat välillä 0 ja 2.

Menetelmä 6: Suurin absoluuttinen skaalaus

Voimme myös normalisoida tiedot pandoilla. Nämä ominaisuudet ovat myös erittäin suosittuja tietojen normalisoinnissa. Suurin absoluuttinen skaalaus normalisoi arvot välillä 0 ja 1. Käytämme tässä .max () ja .abs () alla kuvatulla tavalla:

Solunumerossa [110] : Tuomme pandojen kirjaston.

Solunumerossa [111] : Loimme nuken tietokehyksen ja tulostimme sen.

Solunumerossa [113] : Kutsumme jokaisen sarakkeen ja jaamme sitten sarakearvot .max (): lla ja .abs (): lla.

Solunumerossa [114] : Tulostamme tuloksen ja vahvistamme tuloksesta, että tietomme normalisoituvat välillä 0 ja 1.

Menetelmä 7: z-score-menetelmän käyttö

Seuraava menetelmä, josta aiomme keskustella, on z-score-menetelmä. Tämä menetelmä muuntaa tiedot jakeluksi. Tämä menetelmä laskee kunkin sarakkeen keskiarvon ja vähentää sitten kustakin sarakkeesta ja jakaa sen lopuksi keskihajonnalla. Tämä normalisoi tiedot välillä -1 ja 1.

Solunumerossa [115] : Loimme nuken tietokehyksen ja tulostimme sen.

Solunumerossa [117] : Laskemme sarakkeen keskiarvon ja vähennämme sen sarakkeesta. Sitten sarakkeen arvo jaetaan keskihajonnalla.

Solunumerossa [118] : Tulostamme normalisoidut tiedot väliltä -1 ja 1.

Johtopäätös: Olemme nähneet erilaisia ​​normalisoituja menetelmiä. Heistä sklearn on erittäin kuuluisa, koska se tukee koneoppimista. Mutta se riippuu käyttäjän vaatimuksista. Joskus pandan ominaisuus tietojen normalisoimiseksi riittää. Emme voi sanoa, että on olemassa vain normalisointimenetelmiä. On olemassa lukuisia menetelmiä tietojen normalisoimiseksi, jotka riippuvat myös tietotyypistäsi, kuten kuvat, numeerinen, teksti jne. Keskitymme tähän numeeriseen dataan ja Pythoniin.