Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Kuinka Kayttaa Merkkeja Halaavissa Kasvomuuntajissa



Natural Language Processing (NLP) toimii tietojen raakamuodossa. Koneoppimismallit on koulutettu monimutkaiselle datalle, mutta ne eivät ymmärrä raakadataa. Tällä tietojen raakamuodolla on oltava jokin numeerinen arvo. Tämä arvo määrittää sanan arvon ja tärkeyden tiedoissa ja sen perusteella suoritetaan laskelmia.

Tämä artikkeli sisältää vaiheittaisen oppaan Tokenizerien käyttämisestä Hugging Face Transformersissa.

Mikä on Tokenizer?

Tokenizer on tärkeä NLP:n käsite, ja sen päätavoitteena on kääntää raakateksti numeroiksi. Tätä tarkoitusta varten on olemassa erilaisia ​​tekniikoita ja menetelmiä. On kuitenkin syytä huomata, että jokainen tekniikka palvelee tiettyä tarkoitusta.
Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?







Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Tokenizer-kirjasto on ensin asennettava ennen sen käyttöä ja toimintojen tuontia siitä. Sen jälkeen kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen.



Hugging Face esittelee kolme suurta Tokenisaation luokkaa, jotka on annettu alla:



  • Sanapohjainen Tokenizer
  • Merkkipohjainen Tokenizer
  • Alisanapohjainen Tokenizer

Tässä on vaiheittainen opas Tokenizersin käyttämiseen Transformersissa:





Vaihe 1: Asenna Transformers
Asenna muuntajia käyttämällä pip-komentoa seuraavassa komennossa:

! pip Asentaa muuntajat



Vaihe 2: Tuo luokat
Muuntajasta, tuonti putki , ja AutoModelForSequenceClassification kirjasto luokittelua varten:

muuntajien tuontiputkesta, AutoModelForSequenceClassification

Vaihe 3: Tuo malli
' AutoModelForSequenceClassification ” on menetelmä, joka kuuluu Auto-Classille tokenointiin. The from_pretrained() -menetelmää käytetään oikean malliluokan palauttamiseen mallityypin perusteella.

Tässä olemme antaneet mallin nimen ' mallinimi ”muuttuja:

mallinimi = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_training-malli =AutoModelForSequenceClassification.from_pretrained ( mallinimi )

Vaihe 4: Tuo AutoTokenizer
Anna seuraava komento luodaksesi tunnuksia välittämällä ' mallinimi 'argumenttina:

muuntajista tuonti AutoTokenizer

luotu merkki =AutoTokenenizer.from_pretrained ( mallinimi )

Vaihe 5: Luo tunnus
Nyt luomme merkkejä lauseeseen “Rakastan hyvää ruokaa” käyttämällä ' luotu merkki ”muuttuja:

sanat =generatetoken ( 'Rakastan hyvää ruokaa' )
Tulosta ( sanat )

Tulos annetaan seuraavasti:

Koodi yllä olevaan Google Co annetaan täällä.

Johtopäätös

Jos haluat käyttää Tokenizereita Hugging Facessa, asenna kirjasto pip-komennolla, kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen. Käytä tokenointia, anna sanoille painoarvot, joiden perusteella ne on sekvensoitu, jotta lauseen merkitys säilyy. Tämä pistemäärä määrittää myös niiden arvon analysointia varten. Tämä artikkeli on yksityiskohtainen opas Tokenizerien käyttämiseen Hugging Face Transformersissa.