Tämä artikkeli sisältää vaiheittaisen oppaan Tokenizerien käyttämisestä Hugging Face Transformersissa.
Mikä on Tokenizer?
Tokenizer on tärkeä NLP:n käsite, ja sen päätavoitteena on kääntää raakateksti numeroiksi. Tätä tarkoitusta varten on olemassa erilaisia tekniikoita ja menetelmiä. On kuitenkin syytä huomata, että jokainen tekniikka palvelee tiettyä tarkoitusta.
Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?
Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?
Tokenizer-kirjasto on ensin asennettava ennen sen käyttöä ja toimintojen tuontia siitä. Sen jälkeen kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen.
Hugging Face esittelee kolme suurta Tokenisaation luokkaa, jotka on annettu alla:
- Sanapohjainen Tokenizer
- Merkkipohjainen Tokenizer
- Alisanapohjainen Tokenizer
Tässä on vaiheittainen opas Tokenizersin käyttämiseen Transformersissa:
Vaihe 1: Asenna Transformers
Asenna muuntajia käyttämällä pip-komentoa seuraavassa komennossa:
Vaihe 2: Tuo luokat
Muuntajasta, tuonti putki , ja AutoModelForSequenceClassification kirjasto luokittelua varten:
Vaihe 3: Tuo malli
' AutoModelForSequenceClassification ” on menetelmä, joka kuuluu Auto-Classille tokenointiin. The from_pretrained() -menetelmää käytetään oikean malliluokan palauttamiseen mallityypin perusteella.
Tässä olemme antaneet mallin nimen ' mallinimi ”muuttuja:
mallinimi = 'distilbert-base-uncased-finetuned-sst-2-english'pre_training-malli =AutoModelForSequenceClassification.from_pretrained ( mallinimi )
Vaihe 4: Tuo AutoTokenizer
Anna seuraava komento luodaksesi tunnuksia välittämällä ' mallinimi 'argumenttina:
luotu merkki =AutoTokenenizer.from_pretrained ( mallinimi )
Vaihe 5: Luo tunnus
Nyt luomme merkkejä lauseeseen “Rakastan hyvää ruokaa” käyttämällä ' luotu merkki ”muuttuja:
Tulosta ( sanat )
Tulos annetaan seuraavasti:
Koodi yllä olevaan Google Co annetaan täällä.
Johtopäätös
Jos haluat käyttää Tokenizereita Hugging Facessa, asenna kirjasto pip-komennolla, kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen. Käytä tokenointia, anna sanoille painoarvot, joiden perusteella ne on sekvensoitu, jotta lauseen merkitys säilyy. Tämä pistemäärä määrittää myös niiden arvon analysointia varten. Tämä artikkeli on yksityiskohtainen opas Tokenizerien käyttämiseen Hugging Face Transformersissa.