Hlavní navigace

Jak vybrat datově-analytickou platformu

28. 4. 2021
Doba čtení: 10 minut

Sdílet

 Autor: Depositphotos
Ať se zabýváte vývojem softwaru, DevOps, správou systémů, cloudem, automatizací testování, spolehlivostí datových center, vedením scrum týmů, informační bezpečností nebo jinou oblastí IT, pravděpodobně se vám otevírají nové příležitosti a zároveň stoupají požadavky na využití dat, analýzy a strojového učení.

S analýzou se můžete setkávat prostřednictvím IT dat, jako jsou metriky z vývoje, agile, DevOps nebo webových stránek. Není lepší způsob, jak získat základní dovednosti a naučit se pracovat s analytickými nástroji a strojovým učením, než je aplikovat na data, která znáte a z nichž můžete získat důležité poznatky pro další činnosti.

Situace se trochu zkomplikuje, jakmile se ze světa IT dat vydáme dále a nabídneme služby datovým vědcům, analytikům sociologických a demografických dat a dalším, kdo se pro podnikové účely zabývají analýzami, vizualizacemi dat a strojovým učením (ML).

Data je nutné nejprve nahrát a vyčistit. Podle objemu, rozmanitosti a rychlosti přísunu dat budeme pravděpodobně pracovat s vícero databázemi a cloudovými datovými technologiemi. A zatímco dříve jsme mohli volit mezi nástroji business intelligence a nástroji pro vizualizaci dat, v posledních letech se nabídka značně rozvinula a k dispozici máme řadu komplexních analytických a ML platforem.

Význam datové analýzy a strojového učení rozšiřuje okruh povinností IT v několika směrech. Například:

  • IT mnohdy poskytuje služby související s integrací dat, backendových databází a analytických platforem.
  • DevOps týmy často zavádějí a rozšiřují datovou infrastrukturu, aby umožnily experimentování s modely strojového učení, a následně podporují zpracování produkčních dat.
  • Správci sítí vytvářejí bezpečné spojení mezi SaaS analytickými nástroji, multicloudy a datovými centry.
  • Týmy zajišťující správu IT služeb vyřizují požadavky na služby pro datové a analytické účely a řeší případné problémy.
  • Tým informační bezpečnosti dohlíží na zabezpečení dat a uplatňování příslušných bezpečnostních politik.
  • Vývojáři integrují analytické a ML modely do aplikací.

Vzhledem k současnému boomu datové analýzy, cloudových datových platforem a schopností strojového učení nabízíme stručný přehled problematiky pro lepší pochopení celého životního cyklu analýzy, od slučování a čištění dat přes metodiky jako DataOps a ModelOps po databáze, datové technologie a aktuální nabídku analytických řešení.

Analytika začíná slučováním a čištěním dat

Než mohou analytici a datoví vědci začít své analýzy, je nutné jim zpřístupnit požadované datové zdroje v příslušných vizualizačních a analytických platformách. To může znamenat sloučení dat z různých podnikových systémů, extrahování dat ze SaaS aplikací nebo strea­mování dat ze senzorů IoT či jiných zdrojů v reál­ném čase.

To vše jsou kroky směřující k získání, nahrání a propojení dat pro účely analýzy a strojového učení. Podle komplexnosti a kvality dat je možné vy­užít metodiku DataOps, katalogizaci dat, správu hlavních dat a další přístupy a metody.

Z nekvalitních dat samozřejmě nelze získat hodnotné výstupy. Analytici proto musejí dbát na kvalitu dat a datoví vědci zase na možné předpojatosti u svých modelů strojového učení. Pro podniky, které se chtějí přiblížit řízení podle dat v reálném čase, je důležitá také včasnost a rychlost přípravy nových dat k dalšímu zpracování.

Databáze a datové platformy pro všechny typy požadavků na správu dat

Nahrání a zpracování dat je nezbytným prvním krokem, avšak následuje náročnější úkol, kterým je výběr optimálních databází. Na výběr dnes máme z podnikových datových skladů, datových jezer, platforem pro velká data a specializovaných NoSQL, grafových, dokumentových, sloupcových a jiných databází. Ke skladování a analýze velkých objemů dat slouží platformy jako Snowflake, Redshift, Big­Query, Vertica nebo Greenplum. Dále existují řešení pro velká data včetně Spark a Hadoop.

Velké podniky budou pravděpodobně mít vícero datových repozitářů a využívat cloudové datové platformy jako Cloudera Data Platform nebo MapR Data Platform, případně platformy pro orchestraci dat jako InfoWorks DataFoundry, které všechny tyto repozitáře zpřístupní pro analýzu.

Hlavní poskytovatelé veřejných cloudových služeb včetně AWS, GCP a Azure nabízejí platformy a služby pro správu dat. Např. Azure Synapse Analytics je cloudový SQL datový sklad od Microsoftu. Azure Cosmos DB poskytuje rozhraní k mnoha NoSQL datovým úložištím včetně Cassandry (sloupcová data), MongoDB (databáze typu klíč-hodnota a dokumentová data) a Gremlinu (grafová data).

Datová jezera jsou oblíbené prostředky pro centralizaci nestrukturovaných dat k rychlé analýze. Na výběr pro tento účel je z Azure Data Lake, Amazon S3 nebo Google Cloud Storage. Cloudy AWS, GCP i Azure nabízejí také Spark a Hadoop pro zpracování velkých dat.

Analytické platformy směřují ke strojovému učení a podpoře týmové spolupráce

Data máme nahraná, vyčištěná a uložená a datoví vědci a analytici mohou začít pracovat na analýzách a strojovém učení. Podniky mají mnoho možností v závislosti na typech analýz, dovednostech analytického týmu a struktuře podkladových dat.

Analýzy lze dělat v samoobslužných vizualizačních nástrojích, jako jsou Tableau nebo Microsoft Power BI. Oba tyto nástroje jsou primárně zaměřené na analyticky vzdělané uživatele z jiných oborů, nikoli přímo na datové vědce, a nabízejí vizualizace, kalkulace a základní analýzy. Umožňují základní integraci a restrukturalizaci dat, avšak složitější manipulace s daty se obvykle odehrávají před použitím těchto nástrojů – ke slučování a transformaci dat slouží doprovodné nástroje Tableau Data Prep a Azure Data Factory.

Analytické týmy, které chtějí automatizovat nejen slučování a přípravu dat, mohou využít platformu, jako je Alteryx Analytics Process Automation. Tato komplexní technologie umožňuje spolupráci vývojářů, analytiků, uživatelů a datových vědců. Nabízí jim automatizaci pracovních postupů a samoobsluž­né zpracování dat, analýzy a funkce strojového učení. Jak vysvětluje hlavní analytik společnosti Alteryx Alan Jacobson, nástup systémů pro automatizaci analytických procesů (APA) jako nové kategorie vychází z předpokladu, že kaž­dý pracovník ve firmě bude využívat data.

Existuje také několik nástrojů a platforem určených pro datové vědce. Jejich smyslem je jak zvyšovat produktivitu pomocí technologií jako Python a R, tak zjednodušovat řadu provozních úkonů a manipulací s infrastrukturou. Např. Databricks je datově-vědecká provozní platforma, která umožňuje zavádět algoritmy do Apache Spark a TensorFlow a zároveň samostatně řídí výpočetní klastry v cloudech AWS nebo Azure.

Některé platformy jako SAS Viya spojují přípravu dat, analýzu, prognózování, strojové učení, textovou analýzu a správu modelů strojového učení do jediné platformy typu ModelOps. SAS klade důraz na provozní využití analýzy a cílí svou komplexní kolaborativní platformou na datové vědce, obchodní analytiky, vývojáře a manažery.

David Duling, který ve společnosti SAS zastává pozici ředitele pro výzkum rozhodovacích procesů, vysvětluje, že přístup ModelOps spočívá ve vytvoření opakovatelného, auditovatelného postupu operací směřujících k nasazení analytiky včetně AI a ML modelů do provozních systémů. V rámci ModelOps se mohou uplatnit moderní DevOps postupy pro správu kódu, testování a monitoring. To pomáhá zvyšovat frekvenci a spolehlivost zavádění modelů, což ve výsledku přispívá k vyšší agilitě obchodních procesů na těchto modelech postavených.

Dataiku je další platforma, která se snaží zpřístupnit přípravu dat, analýzu a strojové učení rostoucímu okruhu datově-vědeckých týmů a jejich spolupracovníků. Dataiku nabízí vizuální programovací model umožňující spolupráci a zápisníky kódu pro pokročilejší vývojáře SQL a Pythonu.
Jiné analytické a ML platformy od předních výrobců softwaru nabízejí analytické schopnosti pro datová centra a cloudové datové zdroje. Např. Oracle Analytics Cloud a SAP Analytics Cloud centralizují získávání informací a automatizují analytické výstupy pro účely komplexního rozhodování.

Výběr datově-analytické platformy

Před nástupem velkých dat, strojového učení a komplexní správy dat býval výběr nástrojů pro slučování dat, datové sklady a analýzu přímočařejší. Dnes jej komplikuje nejednotná a nepřehledná terminologie, odlišné schopnosti platforem, různé provozní potřeby, rozličné požadavky na správu a cílové typy uživatelů. Mnoho dodavatelů navíc podporuje více jednotlivých způsobů a scénářů využití.

Podniky se liší v požadavcích na analýzu a potřebách. Měly by však hledat nové platformy z pohledu toho, co již existuje. Například:

  • Podniky, kde datově-vědecké analýzy úspěšně dělají uživatelé z různých oborů a které již mají zavedené vizua­lizační nástroje, mohou uvažovat o rozšíření své analytické výbavy o automatizaci analytických procesů nebo o technologie pro přípravu dat.
  • Podniky, jež se chtějí vybavit nástroji pro datové vědce v různých částech podniku, mohou uvažovat o komplexních analytických platformách se schopnostmi ModelOps.
  • Podniky s různými nesourodými back­endovými datovými platformami mohou mít užitek z cloudových datových řešení pro katalogizaci a centrální řízení.
  • Podniky, které standardizovaly veškeré datové prostředky nebo jejich většinu na jediné veřejné cloudové platformě, by měly věnovat pozornost nabízeným technologiím pro integraci, správu a analýzu dat.

Datová analýza a strojové učení se stávají klíčovou základní schopností. Technologové by měli uvažovat o prohlubování znalostí dostupných platforem a jejich možností. Užitek z analytických řešení do budoucna stále poroste, stejně jako jejich vliv v celém podniku. 

Zajímají vás informační technologie a chcete získat nadhled?

Odebírejte náš Newsletter, který posíláme zpravidla dvakrát do měsíce a který obsahuje výběr unikátních článků nejen našich autorů, ale také ze sítě mezinárodního vydavatelství IDG.

» Přihlaste se zdarma! [Odběr můžete kdykoli zrušit]