Hugging Face Filter() -menetelmä

Hugging Face Filter Menetelma



Hugging Facessa on useita luonnollisen kielen käsittelymalleja (NLP) ja tietojoukkoja. Nämä valtavat tietojoukot sisältävät paljon tietoa, joka auttaa kouluttamaan mallia tarkasti. Joskus emme kuitenkaan tarvitse koko tietojoukkoa, koska tarvitsemme vain pienen osan siitä täyttääksemme nykyiset tarpeemme. Jos haluamme käyttää samaa tietojoukkoa kuin tavallisesti kaikella tiedolla, mallin koulutus ja optimointi vievät paljon aikaa, mikä on ajanhukkaa.

Joten tarvitsemme jonkinlaisen menetelmän tai paketin, joka voi poimia oleelliset tiedot tietojoukoista. Yksinkertaisella kielellä voimme sanoa, että tarvitsemme ylimääräisen suodatusvaihtoehdon suodattaaksemme tietojoukot tarpeidemme mukaisesti.

Hugging Face tarjoaa erilaisia ​​vaihtoehtoja tietojoukkojen suodattamiseen, mikä auttaa käyttäjiä luomaan mukautettuja tietojoukkoja, jotka sisältävät vain esimerkkejä tai tietyt ehdot täyttäviä tietoja.







Valitse()-menetelmä

Tämä menetelmä toimii indeksien luettelossa, mikä tarkoittaa, että meidän on määritettävä luettelo. Tämän luettelon sisällä meidän on mainittava kaikkien niiden rivien indeksiarvot, jotka haluamme poimia. Mutta tämä menetelmä toimii vain pienille tietojoukoille, ei suurille tietojoukoille, koska emme voi nähdä koko tietojoukkoa, jos se on GBs (gigatavuja) tai TB (teratavuja).



Esimerkki :

uusi_tietojoukko = tietojoukko. valitse ( [ 0 , yksitoista , kaksikymmentäyksi , Neljä viisi , viisikymmentä , 55 ] )

Tulosta ( vain ( uusi_tietojoukko ) )

Tässä esimerkissä käytimme 'select'-menetelmää suodattamaan vaaditut tiedot tietojoukosta.



Filter() -menetelmä

Filter()-menetelmä ratkaisee select()-prosessin ongelmat, koska siinä ei ole erityistä ehtoa. Filter()-menetelmä palauttaa kaikki rivit, jotka vastaavat tiettyä tilannetta tai ehtoa.





Esimerkki: Tallennamme tämän Python-ohjelman nimellä 'test.py'.

alkaen tietojoukot tuonti load_dataset

# Vaihe 1: Lataa tietojoukko
tietojoukko = load_dataset ( 'imdb' )

# Vaihe 2: Määritä suodatustoiminto
def custom_filter ( esimerkki ) :
'''
Mukautettu suodatustoiminto positiivisten esimerkkien säilyttämiseen
tunnelma (tunniste == 1).
'''

palata esimerkki [ 'etiketti' ] == 1

# Vaihe 3: Käytä suodatinta luodaksesi uuden suodatetun tietojoukon
suodatettu_tietojoukko = tietojoukko. suodattaa ( custom_filter )

# Vaihe 4: Tarkista käytettävissä olevat sarakkeiden nimet suodatetusta tietojoukosta
Tulosta ( 'Suodatetun tietojoukon käytettävissä olevat sarakkeet:' ,
suodatettu_tietojoukko. sarakkeen_nimet )

# Vaihe 5: Käytä suodatetun tietojoukon tietoja
filtered_examples = suodatettu_tietojoukko [ 'kouluttaa' ]
num_filtered_examples = vain ( filtered_examples )

# Vaihe 6: Tulosta suodatettujen esimerkkien kokonaismäärä
Tulosta ( 'Suodatettuja esimerkkejä yhteensä:' , num_filtered_examples )

Lähtö:



Selitys:

Rivi 1: Tuomme vaaditun load_dataset-paketin tietojoukoista.

Rivi 4: Lataamme 'imdb'-tietojoukon käyttämällä load_dataset.

Rivit 7-12: Määrittelemme mukautetun suodatustoiminnon ' custom_filter ' säilyttää esimerkit positiivisin mielin (tunniste == 1). Tämä funktio palauttaa vain ne rivit, joiden tunnistearvo on 1.

Rivi 15: Tämä rivi osoittaa, että tietojoukossa on 'imdb'-elokuvakatselutiedot. Käytämme nyt suodatintoimintoa tähän tietokantaan erottaaksemme positiiviset arvostelut tietokannasta, joka tallennetaan edelleen 'filtered_dataset' -tietokantaan.

Rivit 18 ja 19: Tarkistamme nyt, mitkä sarakkeiden nimet ovat saatavilla filtered_datasetissa. Joten 'filtered_dataset.column_names' -koodi tarjoaa yksityiskohtaiset tiedot vaatimuksistamme.

Rivit 22 ja 23: Näillä riveillä suodatamme suodatetun_tietojoukon 'juna' -sarakkeen ja tulostamme junasarakkeen kokonaismäärän (pituuden).

Rivi 26: Tällä viimeisellä rivillä tulostetaan rivin 23 tulos.

Suodata() indekseillä

Filter()-menetelmää voidaan käyttää myös indeksien kanssa, kuten select()-tilassa. Mutta sitä varten meidän on mainittava, että avainsana 'with_indices=true' on määritettävä filter()-metodin ulkopuolella, kuten seuraavassa esimerkissä näkyy:

pariton_tietojoukko = tietojoukko. suodattaa ( lambda esimerkki , idx: idx % 2 != 0 , with_indexes = Totta )

Tulosta ( vain ( pariton_tietojoukko ) )

Tässä esimerkissä käytimme filter()-menetelmää suodattamaan vaaditut tiedot tietojoukosta, mukaan lukien vain ne rivit, jotka ovat parittomat.

Filter()-menetelmän kunkin parametrin täydelliset tiedot löytyvät tästä linkki .

Johtopäätös

Hugging Face -tietojoukkokirjasto tarjoaa tehokkaan ja käyttäjäystävällisen työkalujoukon erilaisten tietojoukkojen tehokkaaseen työskentelyyn, erityisesti Natural Language Processingin (NLP) ja koneoppimistehtävien yhteydessä. Ohjelmassa esitellyn filter()-toiminnon avulla tutkijat ja alan ammattilaiset voivat poimia olennaisia ​​osajoukkoja tiedosta määrittelemällä käyttäjän määrittämät suodatuskriteerit. Tämän toiminnon avulla käyttäjät voivat luoda vaivattomasti uusia tietojoukkoja, jotka täyttävät tietyt ehdot, kuten positiivisen tunnelman ylläpitäminen elokuva-arvosteluissa tai tiettyjen tekstitietojen poimiminen.

Tämä vaiheittainen esittely havainnollistaa, kuinka helppoa on ladata tietojoukko, käyttää mukautettuja suodatintoimintoja ja käyttää suodatettuja tietoja. Lisäksi toimintoparametrien joustavuus mahdollistaa mukautetut suodatustoiminnot, mukaan lukien tuki suurten tietojoukkojen usealle käsittelylle. Hugging Face -tietojoukkokirjaston avulla käyttäjät voivat virtaviivaistaa tietojaan.