Koneoppimismallien soveltuvuutta ja käytettävyyttä testataan datalla. Testien luotettavuus riippuu suuresti sen tiedon määrästä ja laadusta, johon näitä malleja sovelletaan. Se on itsessään täydellinen tehtävä luoda, hankkia ja puhdistaa sopivan suuri tietojoukko testataksesi ' Luonnollisen kielen käsittely (NLP) ” Koneoppimismalli.
Hugging Face tarjoaa tähän siistin ratkaisun poikkeuksellisen suurella tietojoukkokirjastollaan, josta voit valita ja löytää tarpeisiisi täydellisesti sopivan. Täällä näytämme sinulle, kuinka löydät ihanteellisen tietojoukon ja valmistelet sen mallin testaamiseksi riittävästi.
Kuinka käyttää halaavien kasvojen tietojoukkoja?
Näytämme sinulle, kuinka käytät halaavien kasvojen tietojoukkoja käyttämällä esimerkkiä ' TinyStories ” Hugging Facen tietojoukko.
Esimerkki
TinyStories Datasetissä on yli 2 miljoonaa riviä dataa junajaossa ja sillä on yli 2 tuhatta latausta Hugging Face -alustalla. Käytämme sitä alla olevassa Google Colabin koodissa:
! pip Asentaa muuntajat
! pip Asentaa tietojoukot
tietojoukoista tuo load_dataset
tietojoukko = load_dataset ( 'roneneldan/TinyStories' )
TinyStories_Story = 3
esimerkki_merkkijono = tietojoukko [ 'kouluttaa' ] [ TinyStories_Story ] [ 'teksti' ]
Tulosta ( esimerkki_merkkijono )
Harkitse tässä koodissa alla olevia vaiheita:
Vaihe 01 : Ensimmäinen askel on ' asennus ” muuntajatietosarjoista.
Vaihe 02 : Tuo seuraavaksi vaadittu tietojoukko, ' TinyStories ”projektiisi.
Vaihe 03 : Lataa seuraavaksi valittu tietojoukko käyttämällä ' load_dataset() ”-toiminto.
Vaihe 04 : Nyt määritämme haluamamme tarinan numeron TinyStories-tietojoukosta. Olemme määrittäneet numeron 03 koodiesimerkissämme.
Vaihe 05 : Lopuksi käytämme 'print()' -menetelmää tulosteen näyttämiseen.
Lähtö
Huomautus: Koodi ja tuloste ovat myös nähtävissä suoraan Google Colabissa .
Johtopäätös
' Hugging Face -tietojoukot ” avulla käyttäjät voivat testata koneoppimismallejaan uskomattoman tehokkaasti ja tuoda suuria tietojoukkoja suoraan verkkokirjastostaan. Tämän seurauksena NLP-algoritmien soveltamisesta on tullut helpompaa ja nopeampaa, kun ohjelmoijat voivat testata projektejaan aineistossa, jossa on sekä laatua että määrää.