Mitä eroa muuntajan ja RNN:n välillä on?

Mita Eroa Muuntajan Ja Rnn N Valilla On



Luonnollisella kielellä olevien tekstien, kuten lauseiden, kappaleiden ja asiakirjojen, ymmärtämistä ja tuottamista koskeva tutkimus tunnetaan nimellä luonnollisen kielen käsittely (NLP), tekoälyn alakenttä. Konekäännös, tekstin yhteenveto, tunteiden analysointi, kysymyksiin vastaaminen ja muut tehtävät ovat vain muutamia NLP:n monista käyttötavoista.

Tutkijat ovat kehittäneet erilaisia ​​hermoverkkomalleja, joilla voidaan analysoida peräkkäistä dataa, kuten luonnollisella kielellä kirjoitettuja tekstejä. Kaksi suosituimmista tyypeistä ovat toistuvat hermoverkot (RNN) ja muuntajamallit.

Mitä ovat toistuvat hermoverkot (RNN)

Tietty neuroverkon luokka, nimeltään RNN, voi käsitellä peräkkäistä dataa pitämällä piilossa, joka sisältää dataa aikaisemmista syötteistä. RNN:t käyvät läpi syöttövirran jokaisen sanan yksi kerrallaan ja päivittävät piilotilansa vastauksena sekä uuteen syötteeseen että aikaisempaan piilotettuun tilaan. Piilotettu tila voidaan nähdä muistina, joka koodaa sekvenssin toistaiseksi kontekstin.







RNN:itä voidaan käyttää sekä koodaus- että dekoodaustehtäviin. Koodaustehtäviin kuuluu syötteiden sekvenssin muuntaminen kiinteäpituiseksi vektoriesitykseen, kuten konekäännös tai tekstin luokittelu. Dekoodaustehtävät sisältävät tulosten sarjan luomisen tietystä syötteestä tai vektoriesittelystä, kuten tekstin luomisessa tai puhesynteesissä.



Mikä on Transformer?

Muuntajamalli on yleinen termi mille tahansa hermoverkolle, joka käyttää muuntaja-arkkitehtuuria ydinkomponenttinaan. Transformer-malleista on monia muunnelmia, kuten GPT, XLNet, T5 ja paljon muuta. Ne eroavat toisistaan ​​tavoitteiden, arkkitehtuurien ja esikoulutusmenetelmien suhteen.



Transformer-mallien yhteinen piirre on, että ne voivat luoda luonnollisen kielen tekstejä jonkin syötteen, kuten kehotteen, kysymyksen tai avainsanan, perusteella. Muuntajamalleja käytetään usein kielten luomiseen, kuten tekstin yhteenvetoon, konekääntämiseen, keskusteluvastausten luomiseen ja muihin.





Kaksi olennaista komponenttia muodostavat Transformer-arkkitehtuurin: kooderi ja dekooderi. Enkooderi ottaa syötetyn tekstin ja tuottaa vektoriesityksen jokaiselle tekstin sanalle tai osasanalle. Dekooderi luo ulostulotekstin sana sanalta käyttämällä kooderin lähtöä. Sekä enkooderi että dekooderi käyttävät useita huomiomekanismeja oppiakseen sanojen ja alisanojen väliset riippuvuudet syöttö- ja lähtöteksteissä.

Transformer-mallien kouluttamiseen tutkijat käyttivät erilaisia ​​ohjattuja oppimistavoitteita tehtävästä riippuen. Esimerkiksi konekäännöksessä tavoitteena on vähentää mallin tulosteen ja referenssikäännöksen välistä ristiriitaa. Tekstin yhteenvedossa tavoitteena on maksimoida mallin tulosteen ja viiteyhteenvedon samankaltaisuus. Näitä tavoitteita käyttämällä Transformer-mallit voivat oppia tehtäväkohtaisia ​​kielten esityksiä, joita voidaan käyttää päättelyyn.



Mitä eroa on muuntajan ja RNN:n välillä?

Yksi tärkeimmistä eroista näiden kahden mallin välillä on, että Transformer-mallit eivät ole riippuvaisia ​​peräkkäisestä käsittelystä, kun taas RNN käyttää, alla on joitain eroja yksityiskohtaisesti:

Parametrit Muuntajat RNN
Jaksottainen käsittely Ei, käsittelee kaikki sanat rinnakkain Kyllä, käsittelee sanat yksitellen
Toistuminen Ei, ei käytä piilotettua tilaa aiempien syötteiden tietojen tallentamiseen Kyllä, käyttää piilotettua tilaa aiempien syötteiden tietojen tallentamiseen
Huomio Olennainen, käyttää mekanismia laskeakseen samankaltaisuuspisteitä peräkkäisten sanojen välillä ja painottaakseen niiden vaikutusta tulokseen Valinnainen, voidaan lisätä lisäkomponentiksi suorituskyvyn parantamiseksi
Paikannuskoodaus Kyllä, jokaisen sanan sijainti sarjassa on koodattu käyttämällä kiinteitä tai opittuja painotuksia Ei, se ei käytä mitään sijaintitietoja.
Pitkän aikavälin riippuvuudet Helppo vangita, koska huomio voi mallintaa minkä tahansa peräkkäisen sanaparin välistä suhdetta Vaikea vangita, koska piilotettu tila ei välttämättä säilytä kaikkea olennaista tietoa kaukaisista sanoista
Poikkipaikalliset riippuvuudet Helppo vangita, koska huomio voi mallintaa sanojen välistä suhdetta sekä nykyisen sanan vasemmalla että oikealla puolella Vaikea kaapata, koska piilotettu tila sisältää vain tietoja edellisestä sanasta
Nopeus Nopea, koska rinnakkaiskäsittely mahdollistaa nopeamman laskennan ja jakelun useille laitteille Hidasta, koska peräkkäinen käsittely estää rinnakkaistamisen ja vaatii enemmän aikaa
Tehokkuus Korkea, koska huomio voi keskittyä tärkeimpiin sanoihin ja jättää huomiotta epäolennaiset Matala, koska toistuminen voi hukata laskennan merkityksettömille sanoille ja aiheuttaa numeerista epävakautta
Harjoittelutiedot Suuri, koska huomio vaatii enemmän parametreja ja dataa oppiakseen tehokkaasti Kohtalainen, koska toistuminen voi oppia vähemmästä tiedosta ja yleistää paremmin
Laskennalliset resurssit Suuri, koska huomio vaatii enemmän muistia ja tehoa sanojen välisten samankaltaisuuspisteiden tallentamiseen ja käsittelemiseen Kohtalainen, koska toistuminen vaatii vähemmän muistia ja tehoa piilotetun tilan tallentamiseen ja päivittämiseen

Johtopäätös

Molemmat mallit ovat tehokkaita työkaluja peräkkäisten tietojen, kuten luonnollisen kielen tekstien, käsittelyyn, mutta niillä on erilaisia ​​vahvuuksia ja heikkouksia. RNN:t ovat yksinkertaisia ​​ja tehokkaita, mutta hitaita ja rajoitettuja. Muuntajamallit ovat nopeita ja joustavia, mutta monimutkaisia ​​ja vaativia.