Moderni data- ja analytiikka-alusta Fabricilla ja dbt:llä

Nykypäivän maailmassa kyky valjastaa ja hyödyntää dataa ja analysoida sitä tehokkaasti reaaliajassa on elintärkeää, jotta yritykset pysyvät kilpailukykyisinä. Tämä tarve on johtanut modernien tietoalustojen syntymiseen. Tässä blogissa tutkimme modernien tietoalustojen avainkomponentteja ja kuinka ne yhdessä mahdollistavat tehokkaan datan analysoinnin. Esimerkkinä käytämme referenssiarkkitehtuuriamme, joka perustuu Microsoft Fabricin sekä dbt:n, data build toolin, yhteistyöhön.

MODERnI data- ja analytiikka-alusta on skaalautuva, joustava ja tehokas

Kun datan määrä ja monimutkaisuus kasvavat jatkuvasti, edistyneiden ratkaisujen käyttöönotto on ratkaisevan tärkeää pysyäksesi edellä datavetoisessa maailmassa.

Moderni data- ja analytiikka-alusta on integroitu ratkaisu, joka on suunniteltu hallitsemaan ja analysoimaan suuria tietomääriä eri lähteistä. Se tarjoaa infrastruktuurin, jota tarvitaan tietojen keräämiseen, säilömiseen, käsittelyyn sekä lähes reaaliaikaiseen analysointiin. Perinteiseen data-alustaan verrattuna moderni data-alusta tarjoaa enemmän skaalautuvuutta, joustavuutta ja tehokkuutta.

Nykyaikaisen data- ja analytiikka-alustan tärkeimmät ominaisuudet ovat:

  • Skaalautuvuus: Mahdollisuus skaalata resursseja ylös- tai alaspäin sen hetkisen tarpeen mukaan
  • Joustavuus: Tuki eri tietotyypeille (strukturoitu, puolirakenteinen ja jäsentämätön) ja integrointi useiden tietolähteiden kuten vaikkapa organisaation asiakasrekisterin tai toiminnanohjausjärjestelmien kanssa
  • Automaatio: Automatisoitu tietojen käsittely, käsittely ja analysointi manuaalisen työn vähentämiseksi ja tehokkuuden lisäämiseksi
  • Reaaliaikainen käsittely: Mahdollisuudet käsitellä ja analysoida dataa sitä mukaa kun niitä luodaan, mikä tarjoaa oikea-aikaisia näkemyksiä
  • Turvallisuus ja hallinta: Vahvat tietoturvatoimenpiteet ja hallintamallit varmistavat tietojen eheyden ja säännösten noudattamisen

Microsoft Fabric data- ja analytiikka-alustana

Microsoft Fabric on keskitetty tietoalusta, joka yhdistää Azuren tutut tiedonhallinnan, analytiikan ja visualisoinnin työkalut yhdeksi yhtenäiseksi hallituksi ympäristöksi. Modernina data-alustana Fabric on suunniteltu yksinkertaistamaan datatoimintoja, parantamaan yhteistyötä ja tarjoamaan saumattoman kokemuksen.

Fabricin keskeisiä komponentteja ovat:

  • Yhtenäinen data-alusta (Onelake)
  • Tietojen integrointi ja prosessointi (Data Factory)
  • Edistynyt analytiikka (Data Science notebooks)
  • Datan visuaalinen raportointi (Power BI)
Fabricilla luodaan uuden sukupolven, älykäs pohja datan hallinnalle ja käsittelylle. Lähde: https://learn.microsoft.com/fi-fi/fabric/get-started/microsoft-fabric-overview

Näiden työkalujen integrointi ja yhteen toimivuus ovat ratkaisevan tärkeitä organisaatioille, jotka etsivät yhtenäistä lähestymistapaa tiedonhallintaan.

Fabric on suunniteltu skaalautuvaksi ja joustavaksi, jolloin yritykset voivat mukauttaa tietoinfrastruktuuriaan muuttuvien vaatimusten mukaan.

Lisäksi Microsoft painottaa voimakkaasti turvallisuutta ja vaatimustenmukaisuutta integroimalla mukaan, muualta Azuresta tutut, kattavat tietoturva- ja hallintapalvelut. Tämä varmistaa yritysten voivan paitsi hyödyntää tehokkaita datatyökaluja, myös noudattaa kansainvälisiä sääntelystandardeja, joilla varmistetaan tietojen turvaaminen elinkaaren kaikissa vaiheissa.

DBT tietovaraston kiihdyttimenä

Dbt Labsin dbt on tehokas avoimen lähdekoodin työkalu, joka on suunniteltu relaationaalisten tietovarastojen rakentamiseen. Sen avulla data-analyytikot ja insinöörit voivat kirjoittaa modulaarisia SQL-kyselyitä, hallita datamuunnoksia ja ylläpitää tietojen laatua.

dbt integroituu saumattomasti nykyaikaisten tietoalustojen kanssa tarjoten useita tärkeitä ominaisuuksia, kuten:

  • Modulaarisuus: Mahdollistaa käyttäjien luoda uudelleenkäytettäviä SQL-pätkiä ja makroja, mikä edistää koodin uudelleenkäyttöä ja ylläpidettävyyttä
  • Versionhallinta: Integroituu versionhallintajärjestelmiin, kuten Azure DevOps, mahdollistaen transformaatioskriptien yhteiskehityksen ja versioinnin
  • Dokumentointi: Luo automaattisesti dokumentaation tietomalleille, mikä tarjoaa läpinäkyvyyttä ja auttaa tietojen hallinnassa
  • Testaus: Tukee tietojen muunnosten automaattista testausta, varmistaen näin tuotetun tiedon eheyden ja ajantasaisuuden
  • Helppokäyttöisyys: Uusien mallien ja datamuunnosten luominen on tehty erittäin vaivattomaksi, sillä dbt vähentää merkittävästi turhan koodin kirjoittamisen tarvetta

Alkuun Fabric-tietoalustan kanssa Medallion-arkkitehtuurilla

Fabric-alustalle suosittelemme kolmikerroksista Medallion–arkkitehtuuria, jonka pronssikerros sijaitsee data lakehousessa ja hopea- ja kultakerrokset data warehousen puolella.

Lakehouse-tyyppistä pronssikerrosta käytetään tietojen tuomiseen lähdejärjestelmistä. Suosimme tähän tarkoitukseen Lakehousea, koska se mahdollistaa sekä strukturoitujen että ei-strukturoitujen tietojen tuomisen alustalle. Lakehousen Delta-taulut ovat näin saatavilla tiedon muuntamista varten hopea- ja kultakerroksiksi. Warehousea käytetään näille kerroksille, jotta T-SQL:ää voidaan hyödyntää tietojen käsittelyyn.

Avoimen lähdekoodin dbt yksinkertaistaa tietojen muuntamista ja analytiikkasuunnittelua. Se keskittyy SQL-pohjaisiin muunnoksiin analytiikkakerroksissa ja käsittelee SQL:ää koodina. Referenssiarkkitehtuurissamme dbt toteuttaa pronssi-hopea ja hopea-kulta-kerrosten välissä tapahtuvat datatransformaatiot.

data transformation and storage

Orkestrointi, ajastukset ja virheilmoitukset

Meltlaken referenssiarkkitehtuurissa ajojen orkestrointi tehdään Fabricin data pipelinella. Tämän ratkaisun etuna on “yhden luukun periaate”: kaikki ajastukset sekä eri vaiheiden käynnistys tapahtuvat yhdestä paikasta. Silloin myös suoritettujen ajojen monitorointi voidaan tehdä datan pipelinesta.

Tyypillisen latauksen eri vaiheet

  1. Lähdetietojen nouto bronze-kerrokseen (lakehouse) data pipelinella. Jos lähteenä on esimerkiksi Microsoftin Dataverse-tietokanta, voidaan käyttää suoraan Lakehousen shortcut-ominaisuutta
  2. dbt jobin käynnistys – dbt huolehtii tietojen latauksesta silver ja gold-kerroksiin
  3. Semanttisten mallien päivityksen käynnistys – mikäli ei käytetä direct lakea

Versionhallinta ja kehitystyö Azure DevOpsin ja Power BI:n PBIP-tiedostojen avulla

Käytämme kehitystyössä VS Codea, josta löytyy erinomainen tuki eri sovelluskehityskieliin ja versionhallintaan. Tyypillisesti käytämme tehtävien ja versioiden hallintaan Azure DevOpsia.

Power BI:n PBIP-tiedostojen (Power BI -projektitiedosto) myötä saadaan tuki myös Power BI -raporttien versionhallinnalle. PBIP-projektin tiedostot ovat tekstimuotoisia, joten mm. tiedostojen yhdistäminen on mahdollista.*

*Elokuussa 2024 tämä ominaisuus on vielä public preview -tilassa, mutta arvioiden mukaan ominaisuus on yleisesti saatavilla loppuvuoden aikana.

Dokumentointi

Dokumentoimme ratkaisun hopea- ja kultakerrosten osalta dbt:llä.  Muiden kokonaisuuksien dokumentointiin käytämme Azure Devopsin wiki-sivuja.

Moderni data-alusta on avainasemassa datavetoisessa liiketoiminnassa

Nykyaikaisten analytiikka-alustojen, tietokantojen ja työkalujen, kuten dbt, integrointi merkitsee huomattavaa edistystä tiedonhallinnassa ja analytiikan alalla.
Hyödyntämällä näitä teknologioita organisaatiot voivat virtaviivaistaa datatoimintojaan, parantaa tietojen laatua ja avata syvempiä oivalluksia, mikä johtaa viime kädessä parempiin liiketoimintatuloksiin. Kun datan määrä ja monimutkaisuus kasvavat jatkuvasti, näiden edistyneiden ratkaisujen käyttöönotto on ratkaisevan tärkeää pysyäksesi edellä datavetoisessa maailmassa.

Arkkitehtuurin edut:

+ noudattaa Microsoftin sekä analytiikan parhaita käytäntöjä
+ dbt tarjoaa työkalut datakatalogiin, datan elinkaaren hallintaan (datan lineage), mallien välisten riippuvuuksien hallintaan, testaukseen ja dokumentointiin
+ Fabric tarjoaa helposti ylläpidettävän ja skaalautuvan alustan nykyaikaiselle analytiikkaratkaisulle
+ Azure DevOps ja VS Code -välineet muodostavat yhtenäisen kehitysympäristö kokonaisuuden