Kuinka käyttää putkia datajoukkoon Transformersissa?

Pipeline()-funktio on olennainen osa Transformer-kirjastoa. Se vaatii useita syötteitä, joissa voimme määritellä päättelytehtävän, mallit, tokenointimekanismin jne. Pipeline()-funktiota käytetään pääasiassa NLP-tehtävien suorittamiseen yhdelle tai useammalle tekstille. Se suorittaa esikäsittelyn syötteelle ja jälkikäsittelyn mallin perusteella tuottaakseen ihmisen luettavissa olevan tulosteen ja tarkan ennusteen maksimaalisella tarkkuudella.

Tämä artikkeli kattaa seuraavat näkökohdat:

Mikä on Hugging Face Datasets -kirjasto?
Kuinka käyttää putkia datajoukkoon Hugging Facessa?

Mikä on Hugging Face Dataset Library?

Hugging Face -tietojoukkokirjasto on API, joka sisältää useita julkisia tietojoukkoja ja tarjoaa helpon tavan ladata ne. Tämä kirjasto voidaan tuoda ja asentaa sovellukseen käyttämällä ' pip ”komento. Käytännön esittely Hugging Face -kirjaston tietojoukkojen lataamisesta ja asentamisesta on täällä Google Colab -linkki. Voit ladata useita tietojoukkoja osoitteesta Hugging Face Dataset Hub.

Lisätietoja pipeline()-funktion toiminnasta saat tästä artikkelista ' Kuinka käyttää Pipeline()-toimintoa muuntajissa? ”.

Kuinka käyttää putkia datajoukkoon Hugging Facessa?

Hugging Face tarjoaa useita erilaisia julkisia tietojoukkoja, jotka voidaan helposti asentaa käyttämällä yksirivistä koodia. Tässä artikkelissa näemme käytännön esittelyn putkien soveltamisesta näihin tietokokonaisuuksiin. On olemassa kaksi tapaa, joilla liukuhihnat voidaan toteuttaa tietojoukossa.

Tapa 1: Iterointimenetelmän käyttäminen
Tapa 2: Dataset Libraryn käyttäminen

Tapa 1: Iterointimenetelmän käyttäminen

Pipeline()-funktiota voidaan iteroida myös tietojoukossa ja mallissa. Noudata tätä tarkoitusta varten alla olevia vaiheita:

Vaihe 1: Asenna Transformer Library

Asenna Transformer-kirjasto antamalla seuraava komento:

!pip asennusmuuntajat

Vaihe 2: Tuo putkistoja

Voimme tuoda putkilinjan Transformer-kirjastosta. Anna tätä tarkoitusta varten seuraava komento:

muuntajien tuontiputkesta

Vaihe 3: Ota putki käyttöön

Tässä pipeline()-funktio on toteutettu mallissa ' gpt2 ”. Voit ladata malleja osoitteesta Hugging Face Model Hub:

def imp_pipeline():
x alueella (1000):
tuotto f'Toteutustietojoukko{x}'

gener_pipeline= putki(malli='gpt2', laite=0)
gen_char= 0
tulosta varten gener_pipeline(imp_pipeline()):
gen_char += len(tulostus[0]['generated_text'])

Tässä koodissa ' gener_pipeline ” on muuttuja, joka sisältää pipeline()-funktion mallilla ” gpt2 ”. Kun sitä kutsutaan ' imp_pipeline() ”-toiminto, se tunnistaa automaattisesti tiedot, jotka on kasvatettu arvoon 1000 määritetyllä alueella:

Tämän harjoittelu kestää jonkin aikaa. Linkki kohteeseen Google Co annetaan myös.

Tapa 2: Tietojoukkokirjaston käyttäminen

Tässä menetelmässä esittelemme liukuhihnan toteuttamisen käyttämällä 'tietojoukot' -kirjastoa:

Vaihe 1: Asenna Transformer

Asenna Transformer-kirjasto antamalla seuraava komento:

!pip asennusmuuntajat

Vaihe 2: Asenna Dataset Library

Kuten ' tietojoukot ” kirjasto sisältää kaikki julkiset tietojoukot, voimme asentaa sen seuraavalla komennolla. Asentamalla ' tietojoukot ' -kirjasto, voimme tuoda minkä tahansa tietojoukon suoraan antamalla sen nimen:

!pip asennustietojoukot

Vaihe 3: Dataset Pipeline

Käytä seuraavaa koodia rakentaaksesi liukuhihnan tietojoukolle. KeyDataset on ominaisuus, joka tulostaa vain ne arvot, jotka kiinnostavat käyttäjää:

osoitteesta transformers.pipelines.pt_utils tuo KeyDataset
muuntajien tuontiputkesta
tietojoukoista tuo load_dataset
gen_pipeline = putki(malli='hf-internal-testing/tiny-random-wav2vec2', laite=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Tulostus nyt')
Tulosta ('----------------')
tulostaa (tulostus)

Yllä olevan koodin tulos on annettu alla:

Siinä kaikki tästä oppaasta. Linkki kohteeseen Google Co mainitaan myös tässä artikkelissa

Johtopäätös

Liukuputkien käyttämiseksi tietojoukossa voimme joko iteroida tietojoukon yli käyttämällä pipeline()-funktiota tai käyttää ' tietojoukot ' kirjasto. Hugging Face tarjoaa käyttäjilleen GitHub-arkistolinkin sekä tietojoukoille että malleille, joita voidaan käyttää vaatimusten mukaan. Tämä artikkeli on antanut kattavan oppaan putkien soveltamiseen Transformersin tietojoukossa.

Kuinka käyttää putkia datajoukkoon Transformersissa?

Mikä on Hugging Face Dataset Library?

Kuinka käyttää putkia datajoukkoon Hugging Facessa?

Tapa 1: Iterointimenetelmän käyttäminen

Vaihe 1: Asenna Transformer Library

Vaihe 2: Tuo putkistoja

Vaihe 3: Ota putki käyttöön

Tapa 2: Tietojoukkokirjaston käyttäminen

Vaihe 1: Asenna Transformer

Vaihe 2: Asenna Dataset Library

Vaihe 3: Dataset Pipeline

Johtopäätös

Luokka

Suosittu Viestiä

Kuinka tallentaa kuvan MacBookiin?

Kuinka nollata Oracle-käyttäjän salasana vanhenemisen jälkeen?

Pydantic (JSON) -jäsentimen käyttäminen LangChainissa?

Kuinka asentaa Docker Volume isännöintiin?

Kysely Oracle-versiosta

Mikä on ikkunan nimi Ominaisuus

Kirjautumisnäytön ottaminen käyttöön Raspberry Pi:ssä

Mittaa Raspberry Pi:n ydinlämpötila

Kuinka lisätä pehmustetta yhdelle puolelle myötätuulessa?

Kuinka asentaa MongoDB Ubuntuun 24.04

Ratkaistu: Sovellus ei käynnistynyt, koska sen vierekkäinen kokoonpano on virheellinen

Mikä on EOF C-ohjelmointikielessä

Kuinka linkittää hakemisto Linuxissa

Java TreeMap – HigherKey() ja LowerKey()

Kuinka valita satunnaisia rivejä matriisista MATLABissa?

Kuinka muuttaa akselia MATLABissa

Tekstin koristelutyylin asettaminen Tailwind CSS:ssä

Kuinka asentaa Nginx Ubuntuun 24.04

Mikä on OpenAI:n Jukebox?

Kuinka käyttää fmod-funktiota PHP:ssä