Mitä ovat Amazon Redshift -tietotyypit?

Mita Ovat Amazon Redshift Tietotyypit



Amazon Redshift on AWS:n tarjoama pilviratkaisu, joka täyttää tietovaraston tarkoituksen. Tietovarasto on iso tila pilvessä, johon tallennetaan valtavia määriä dataa. Tietovaraston ja tietokannan ero on siinä, että ensimmäinen ei tallenna vain nykyistä tietoa, vaan myös koko tietojen historiaa.

Tässä artikkelissa kerrotaan AWS:n Amazon Redshiftistä ja tämän palvelun tukemista tietotyypeistä.







Mikä on Amazon RedShift?

Se on pilviratkaisu tietovarastointiin, joka perustuu 'PostgreSQL' . Se käyttää tekniikkaa ns 'Massively Parallel Processing (MPP)' käsitellä petatavuja dataa salamannopeasti. Tämä tarjoaa helpon ratkaisun reaaliaikaiseen ennustamiseen historiatietoihin ja suoratoistoratkaisuihin perustuen.



Seuraava kuva näyttää Amazon Redshiftin toimintamekanismin:







Tämä graafinen selitys Amazon Redshiftin toiminnasta on hyvin yksinkertainen ja selkeä. Se antaa meille tietoa siitä, kuinka tietoja haetaan ja käsitellään edelleen tulosteiden ja tietopohjaisten sovellusten luomiseksi.

Amazon Redshiftin tietovarastoarkkitehtuuri näkyy myös alla olevassa kuvassa:



Siirrymme nyt tämän palvelun käyttöön ja ominaisuuksiin.

ominaisuudet

Kuten jo mainittiin, Amazon Redshift perustuu PostgreSQL:ään ja käyttää Massively Parallel Processing -nimistä tekniikkaa, jonka avulla se voi käsitellä petatavuja dataa hetkessä. Siksi Redshift tarjoaa hyvän joukon ominaisuuksia ja käyttötapoja. Jotkut näistä ominaisuuksista ovat alla:

  • Tietoturva ja salaus.
  • Liiketoimintaanalytiikka.
  • Dataohjattu sovellustuki.
  • Ennakoiva analyysi.
  • Automatisoitu tehtävien toisto.
  • Samanaikainen tietojen skaalaus.
  • Tietovarastointi.

Jotkut tämän palvelun lisäominaisuudet näkyvät alla olevassa kuvassa:

Nämä olivat suurin osa Redshiftin tarjoamista ominaisuuksista, ja nyt siirrymme tämän palvelun tukemiin tietotyyppeihin.

Tietotyypit

Amazon Redshift on tietovarastoratkaisu, jossa on paljon ominaisuuksia. Se tukee sekä strukturoituja että strukturoimattomia tietotyyppejä. Koska se perustuu PostgreSQL:ään, tietoja voidaan käsitellä yksinkertaisilla SQL-kyselyillä.

Nyt herää toinen kysymys, eli kuinka nämä tietomuodot eroavat toisistaan? Tarkastellaan näitä kahta tietomuotoa.

Strukturoitu data

Erittäin muotoiltua tietotyyppiä, joka on helppo kääntää koneoppimisalgoritmeilla, kutsutaan strukturoiduksi dataksi. SQL-tietokanta toimii strukturoidun tiedon kanssa. Strukturoitu data on taulukkomuodossa, kuten relaatiotietokantojen käyttämä data

Yksi laajalti käytetyistä SQL-tietokannan hallintajärjestelmistä on MYSQL. Sen arkkitehtuuri näkyy alla olevassa kuvassa:

Strukturoimaton data

Strukturoimaton data on vähemmän muotoiltua dataa, kuten tietoja, joita käytetään ei-relaatiotietokannoissa. MongoDB on kuuluisa ei-relaatiotietokanta. SQL-kyselyt eivät toimi ei-relaatiotietokannoissa, joten näitä tietokantoja kutsutaan myös NoSQL-tietokannoiksi.

Kuten jo mainittiin, MongoDB on strukturoimaton tietokannan hallintajärjestelmä ja sen arkkitehtuuri näkyy alla olevassa kuvassa:

Olemme käyneet läpi kaksi tietokantoissa käytettävää perustietotyyppiä ja siirrymme nyt todellisiin tietotyyppeihin, joita Amazon Redshift tukee. Nämä tietotyypit ovat:

  • Numeeriset tiedot
  • Hahmon tiedot
  • Datetime Data
  • Boolen data
  • HLLSKETCH Data
  • SUPER Data
  • VAIHTOtiedot

Keskustellaan näistä tietotyypeistä:

Numeeriset tiedot

Tämä tietotyyppi on itsestään selvä. Se tukee tietoja, jotka ovat kokonaislukujen, desimaalien, liukulukujen ja muiden numeeristen tietotyyppien muodossa.

Kokonaislukutietotyypin ominaisuudet näkyvät alla olevassa kuvassa:

Desimaalitietotyyppi tallentaa tiedot käyttäjän tarkkuuden perusteella. Sen ominaisuudet ovat seuraavat:

Hahmon tiedot

CHAR- ja VARCHAR-tietotyypit kuuluvat merkkipohjaisten tietotyyppien luokkaan. NCHAR ja NVARCHAR ovat myös merkkityyppisiä tietotyyppejä. Toisin kuin CHAR ja VARCHAR, nämä kaksi tietotyyppiä tallentavat kiinteän pituisia Unicode-merkkejä. Katsotaanpa näiden tietotyyppien ominaisuuksia, kuten:

  • CHAR, CHARACTER ja NCHAR ovat 4 kilotavua.
  • VARCHAR, NVARCHAR on 64 kilotavua.
  • BPCHARin alue on 256 tavua.
  • TEXT:n alue on 260 tavua.

Datetime Data

Päivämäärä-aika-tietotyypit ovat DATE, TIME, TIMETZ, TIMETMP, TIMESTAMPTZ. Näiden tietotyyppien toiminnalliset ominaisuudet ovat seuraavat:

  • DATE yksinkertaisesti tallentaa kalenteripäivät.
  • TIME tallentaa ajan viittaamatta mihinkään aikavyöhykkeeseen. Se on oletuksena UTC.
  • TIMETZ tallentaa ajan aikavyöhykkeen mukaan. Se on oletuksena UTC sekä käyttäjätaulukoissa että järjestelmätaulukoissa.
  • AIKALEIMA ei sisällä vain aikaa, vaan myös päivämäärät. Se on oletuksena UTC sekä käyttäjätaulukoissa että järjestelmätaulukoissa.
  • TIMESTAMPTZ ei sisällä vain aikaa, vaan myös päivämäärät. Se on oletuksena UTC vain käyttäjätaulukoissa.

Boolen data

Boolen tietotyyppi on binääritietotyyppi, mikä tarkoittaa, että arvoja on vain kaksi. Boolen tietotyypin ominaisuustaulukko on alla olevassa kuvassa:

HLLSKETCH Data

Tätä tietotyyppiä käytetään luonnosten tallentamiseen. Punasiirtymä voi edustaa luonnoksia joko harvassa tai tiheässä muodossa. Luonnokset alkavat harvassa ja muuttuvat vähitellen tiheämmiksi, kun tiheä muoto tuottaa enemmän tehokkuutta seuraamalla linkkiä.

SUPER Data

Tämä tietotyyppi käsittelee jäsentämätöntä dataa, joka voi olla taulukoiden, sisäkkäisten rakenteiden tai JSON-muodossa. Tiedoilla ei ole mallia tai muotoa. Käyttäjät voivat tutustua lisätietoihin linkin kautta.

VAIHTOtiedot

Tämä tietotyyppi tallentaa myös merkkejä. Pituus on kuitenkin rajallinen. Amazon Redshift mahdollistaa VARBYTE-tietojen heittämisen mihin tahansa kokonaisluku- tai merkkityyppiseen dataan. Saat lisätietoja tästä tietotyypistä seuraamalla alla olevaa linkkiä.

Tämä on kaikki Amazon Redshiftille ja sen tukemille tietotyypeille.

Johtopäätös

Amazon Redshift on AWS-palvelu, joka perusmuodossaan palvelee tietovaraston tarkoitusta, mutta on erittäin tehokas ja toiminnallinen ratkaisu analytiikkaan ja ennustamiseen. Tässä artikkelissa on käsitelty Redshiftiä ja sen tukemia tietotyyppejä. Nämä tietotyypit selitettiin lyhyesti niiden ominaisuuksineen.