Mikä on Dalle-mini ja miten se toimii?

Dalle-mini on syväoppimismalli, joka voi luoda korkealaatuisia kuvia käyttäjän syöttämästä tekstistä. Se perustuu DALL-E-malliin, jonka OpenAI julkaisi tammikuussa 2021. DALL-E tarkoittaa ' Erotettu kieli ja piilevä ilmaisu ” on muuntajapohjainen hermoverkko, joka voi koodata tekstiä ja kuvia yhteiseen piilevään tilaan ja purkaa ne sitten takaisin kumpaan tahansa modaaliin.

Tämä artikkeli selittää seuraavan sisällön:

Mikä on Dalle-mini?

Anna hänelle mini on pienempi ja nopeampi versio DALL-E:stä, jonka on luonut avoimen lähdekoodin tutkimusryhmä EleutherAI. Dalle-mini käyttää vain 6 miljardia parametria DALL-E:n 12 miljardiin verrattuna, ja se voi toimia yhdellä GPU:lla. Dalle-mini käyttää myös erilaista tokenisaattoria ja sanastoa tekstinsyötössä, mikä tekee siitä yhteensopivamman eri kielten ja verkkotunnusten kanssa:

Huomautus : Käyttäjät voivat luoda ilmaisia kuvia käyttämällä Dalle-miniä seuraamalla linkki .

Mikä on Dalle-minin toiminta?

Dalle-minin pääidea on muuntajien teho, jotka ovat neuroverkkoja. He voivat oppia pitkän kantaman riippuvuuksia ja monimutkaisia kuvioita peräkkäisissä tiedoissa, kuten tekstissä tai kuvissa.

Muuntajat koostuvat kahdesta pääosasta: enkooderista ja dekooderista. Ensimmäinen osa ottaa syötteen (tekstikuvauksen) ja muuttaa sen piilovektoreiksi. Sen jälkeen dekooderi ottaa sen ja luo tulon (kuvan), joka liittyy tuloon.

Mitä eroa on Dalle-minillä ja DALL-E:llä?

Dalle-mini ja DALL-E käyttävät jaettua kooderi-dekooderiarkkitehtuuria sekä tekstille että kuville. Ne voivat koodata ja purkaa molempia modaliteetteja käyttämällä samaa verkkoa. Näin he voivat oppia yhteisen piilevän tilan, joka vangitsee tekstin ja kuvien välisen semanttisen suhteen. Sen jälkeen ne voivat suorittaa monimuotoisen generoinnin, kuten kuvien luomisen tekstistä tai päinvastoin.

Kuinka Dalle-mini toimii?

Luodakseen kuvan tekstin kuvauksesta Dalle-mini ensin tokenisoi tekstin käyttämällä tavuparikoodausalgoritmia (BPE), joka jakaa tekstin alisanayksiköihin niiden esiintymistiheyden ja esiintymistiheyden perusteella:

Siirrytään yksityiskohtaisesti Dalle-minin sisäiseen toimintaan:

Dalle-minin sisäinen toiminta

Oletetaan, että sana ' pelaaminen ' saatetaan jakaa ' pla ' ja ' ying ”. Tokenit kartoitetaan sitten numeerisiksi tunnisteiksi käyttämällä 8192 tunnuksen sanastoa. Tunnukset syötetään kooderiin, jolloin saadaan piilevä esitys, jonka koko on 256 x 64:

Dekooderi ottaa sitten piilevän esityksen ja luo kuvan, jonka koko on 256 x 256 pikseliä. Dekooderi käyttää autoregressiivistä prosessia, mikä tarkoittaa, että se generoi jokaisen pikselin yksitellen edellisten pikseleiden ja piilevän esityksen perusteella.

Kuinka luoda kuva tekstikuvauksesta Dalle-miniä käyttämällä?

Luo tekstikuvaus kuvasta Dalle-miniä käyttämällä syöttämällä teksti kehoteikkunaan. Kirjoita esimerkiksi ' Maalaus satunnaisista kukista '-kehotteessa ja paina ' Juosta ”-painike:

Tulos osoittaa, että Dalle-mini on luonut asiaankuuluvat kuvat syötetyn tekstin mukaan.

Johtopäätös

Dalle-mini on merkittävä malli, joka osoittaa muuntajien mahdollisuudet crossmodaaliseen tuotantoon. Hän osaa luoda luonnollisen kielen kuvauksista realistisia ja monipuolisia kuvia sekä kuvista yhtenäisiä ja relevantteja tekstejä. He voivat myös käsitellä monimutkaisia koostumuksia, kuten yhdistää useita objekteja tai määritteitä yhdeksi kuvaksi tai tekstiksi. Tässä artikkelissa on selitetty Dalle-mini ja sen toiminta yksityiskohtaisesti.

Mikä on Dalle-mini ja miten se toimii?