Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Natural Language Processing (NLP) toimii tietojen raakamuodossa. Koneoppimismallit on koulutettu monimutkaiselle datalle, mutta ne eivät ymmärrä raakadataa. Tällä tietojen raakamuodolla on oltava jokin numeerinen arvo. Tämä arvo määrittää sanan arvon ja tärkeyden tiedoissa ja sen perusteella suoritetaan laskelmia.

Tämä artikkeli sisältää vaiheittaisen oppaan Tokenizerien käyttämisestä Hugging Face Transformersissa.

Mikä on Tokenizer?

Tokenizer on tärkeä NLP:n käsite, ja sen päätavoitteena on kääntää raakateksti numeroiksi. Tätä tarkoitusta varten on olemassa erilaisia tekniikoita ja menetelmiä. On kuitenkin syytä huomata, että jokainen tekniikka palvelee tiettyä tarkoitusta.
Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Tokenizer-kirjasto on ensin asennettava ennen sen käyttöä ja toimintojen tuontia siitä. Sen jälkeen kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen.

Hugging Face esittelee kolme suurta Tokenisaation luokkaa, jotka on annettu alla:

Sanapohjainen Tokenizer
Merkkipohjainen Tokenizer
Alisanapohjainen Tokenizer

Tässä on vaiheittainen opas Tokenizersin käyttämiseen Transformersissa:

Vaihe 1: Asenna Transformers
Asenna muuntajia käyttämällä pip-komentoa seuraavassa komennossa:

! pip Asentaa muuntajat

Vaihe 2: Tuo luokat
Muuntajasta, tuonti putki , ja AutoModelForSequenceClassification kirjasto luokittelua varten:

muuntajien tuontiputkesta, AutoModelForSequenceClassification

Vaihe 3: Tuo malli
' AutoModelForSequenceClassification ” on menetelmä, joka kuuluu Auto-Classille tokenointiin. The from_pretrained() -menetelmää käytetään oikean malliluokan palauttamiseen mallityypin perusteella.

Tässä olemme antaneet mallin nimen ' mallinimi ”muuttuja:

mallinimi = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_training-malli =AutoModelForSequenceClassification.from_pretrained ( mallinimi )

Vaihe 4: Tuo AutoTokenizer
Anna seuraava komento luodaksesi tunnuksia välittämällä ' mallinimi 'argumenttina:

muuntajista tuonti AutoTokenizer

luotu merkki =AutoTokenenizer.from_pretrained ( mallinimi )

Vaihe 5: Luo tunnus
Nyt luomme merkkejä lauseeseen “Rakastan hyvää ruokaa” käyttämällä ' luotu merkki ”muuttuja:

sanat =generatetoken ( 'Rakastan hyvää ruokaa' )
Tulosta ( sanat )

Tulos annetaan seuraavasti:

Koodi yllä olevaan Google Co annetaan täällä.

Johtopäätös

Jos haluat käyttää Tokenizereita Hugging Facessa, asenna kirjasto pip-komennolla, kouluta malli AutoTokenizerilla ja anna sitten syöte tokenisoinnin suorittamiseen. Käytä tokenointia, anna sanoille painoarvot, joiden perusteella ne on sekvensoitu, jotta lauseen merkitys säilyy. Tämä pistemäärä määrittää myös niiden arvon analysointia varten. Tämä artikkeli on yksityiskohtainen opas Tokenizerien käyttämiseen Hugging Face Transformersissa.

Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Mikä on Tokenizer?

Kuinka käyttää merkkejä halaavissa kasvomuuntajissa?

Johtopäätös

Luokka

Suosittu Viestiä

Kuinka suojata Kali Linuxia

HTML-elementin tunnisteen nimen hakeminen JavaScriptin avulla

Kuinka löytää tiedosto Linuxissa

Numpy kompleksinumero

Kuinka käyttää keskustelutunnuspuskuria LangChainissa?

Korjaa 'Äänikuvake tehtäväpalkissa ei toimi' -ongelma Windows 10:ssä

Linux Logrotate -esimerkkejä

[Ratkaistu] Windows Modules Installer Worker Windows 10 High CPU

Kuinka aktivoida ChatGPT-laajennus tekstin luomista varten ONLYOFFICEssa

PySpark Read.Parquet()

Windows Mail -tietojen ja -asetusten palauttaminen vioittuneesta käyttäjäprofiilista - Winhelponline

JavaScript-ikkunan koon muuttaminen tapahtuma

Tilaus Google Docsissa

Jokerimerkit ja Foreach Makefilessa

Kuinka lisätä kirjanmerkki Microsoft Wordiin?

Kuinka käyttää swap()-menetelmää Javassa

Kuinka käyttää Windowsin merkkikarttaa?

Kuinka avata juuripääte Linux Mintissa

Mikä on AWS? | Amazon Web Services

Kuinka asettaa Aspect Ratio -laajennus Tailwindissä?