Cloud computing, virutalizace a datové sklady. Evoluce či revoluce?

12. 3. 2010

Doba čtení: 9 minut

Vzhledem k prudkému rozvoji v oblasti virtualizace a cloud computingu v posledních dvou letech je překvapující, jak dlouho trvalo, než se pozornost přenesla na datové sklady. Když se ale přou James Kobielus z Forresteru a „otec“ DS Bill Inmon, tak onu pozornost podle všeho máme.

V takříkajíc „konzervativním” rohu stojící Bill Inmon, označovaný někdy za „otce datových skladů” se na rostoucí zájem o virtuální datové sklady dívá jako na staré dobré techniky federace – oprášené a přejmenované. Federace či EII (Enterprise Information Intelligence) je postup spřádání oddělených databází do kompaktního celku – to vše v reálném čase za pomoci middleware pro distribuované databáze. Je to technika, používaná v minulosti s určitými úspěchy, zejména pro aplikace typu OLTP, kde je umístění dat přesně definováno a tím jsou přístupové cesty předvídatelné, nikdy se ale neprosadila v masovém měřítku u BI aplikací s velkými nároky na výkon datových úložišť, u nichž podniky obvykle používají specializované datové sklady či tržiště (marts).

James Kobielus sedící ve futuristickém rohu nejprve odmítnul Inmonův „jedovatý políček virtuálním datovým skladům” a předložil svou vlastní vizi. Ta zahrnuje „virtualizované podnikové datové sklady, v nichž bude možné uchovávat data v rozličných fyzických a logických formátech… v prostředí typu IaaS (Information as a Service)”. Není ovšem zcela jasné, zda si Jim představuje mrak, v němž je virtualizováno několik databází (tedy dnešní EII na steroidech), nebo jedinou databázi běžící na několika výpočetních platformách, která „se stane mrakem” tak, že bude podporovat několik externích, koncepčních i fyzických schémat uvnitř jediného virtualizovaného systému – nebo cokoliv mezi těmito dvěma extrémy. Právě tato nejednoznačnost v konceptu je možná hlavní příčinou sporu mezi Inmonem a Kobielusem.

Výzva

Jedním z hlavních problémů při nasazování virtuálních datových skladů je otázka optimalizace distribuovaných dotazů. Klasická optimalizace dotazů je námětem pro doktorandské práce, její distribuovaná podoba je však ještě o poznání složitější – vyžaduje přinejmenším vyčerpávající a přesná technická metadata popisující, jaké vztahy existují mezi informacemi v jednotlivých databázích, a dále nástroj pro optimalizaci dotazů, založený na znalosti distribuce dat, aktuální zátěže, dostupného výpočetního výkonu a odezvy sítě.

Řada dnešních databázových systémů je právě v oblasti nákladové optimalizace dotazů velmi průměrná. Často je třeba, aby správce databáze poskytl určitou „nápovědu” nebo určil stupeň paralelismu – a to vše za situace, kdy je třeba obsloužit data uložená v jediné databázi. S rostoucím objemem dat a složitostí prováděných analýz se situace pochopitelně ještě zhoršuje. Propustnost rozhraní je častým hardwarovým omezením při „tradičních” zátěžích typu data mining či OLAP. Pokud data rozdělíme do několika úložišť, musíme přenášet rozsáhlé dílčí výsledky po síti či dokonce po internetu namísto toho, abychom je zpracovali v rámci rychlých rozhraní jediného systému.

Navíc za předpokladu, že data jsou v těchto několika úložištích uložena redundantně, musí systém zvládnout test soudržnosti – dokáže middleware spojující distribuované databáze zajistit, že dva uživatelé, pokládající stejný dotaz, dostanou tu samou odpověď, bez ohledu na to, do kterých úložišť jsou tyto dva dotazy nasměřovány? Věci se dále komplikují, pokud chceme, aby virutalizovaný systém složený z několika přesahujících redundantních databází podporoval „operativní analýzu” (tzv. aktivní datové sklady) na soustavně streamovaných datech, a to takřka v reálném čase – v takovém případě je totiž třeba nejen zjistit, která z platforem dokáže odpovědět na dotaz nejrychleji a nejefektivněji, ale také zda má k dispozici nejaktuálnější kopii požadovaných dat.

Datové sklady a privátní mraky

Přesto některé podniky již začaly nabízet své existující datové sklady coby interní či privátní mraky svým interním zákazníkům – oddělením. Vypadá to zhruba takto: můžete nadále vytvářet svá datová tržiště, poskytneme vám k tomu dokonce infrastrukturu zdarma, budete to ale dělat v „interním mraku” (což je v podstatě nevyužitá část datového skladu). V případě, že některá či všechna data, která chcete využít, již existují v datovém skladu, využijete je přímo namísto toho, abyste je kopírovali či znovu nahrávali.

Takové řešení se líbí všem. Ambiciózní vedoucí mají možnost budovat nové analytické systémy podle svých požadavků a harmonogramu – nemusí prosit a čekat na IT oddělení. Navíc mohou využít data, která již ve skladu jsou. IT má na druhou stranu lepší kontrolu nad šířením duplicitních dat a optimálně využívá dostupnou infrastrukturu. Neúspěšné projekty jsou rychleji ukončeny a uvolní místo a zdroje těm, které se osvědčí – ty je navíc možné rychleji nasadit do provozního režimu.

Virtuální datové sklady

Největším hitem v oblasti virtualizace jsou v současné době produkty jako VMware, Xen či Hyper-V, umožňující vyrovnávat zátěž na mnoha slabě zatížených serverech. Jsou to nástroje pro konsolidaci serverů, díky nimž je možné ušetřit obrovské částky za hardware, energii a chlazení. Pokud ale dodavatel databáze tvrdí, že je virtuální či „v mraku” právě díky těmto nástrojům, jedná se spíše o oportunistický marketing než o skutečnou technologickou inovaci.

Teradata zahájila virtualizaci již v době, kdy byl jednoprocesorový systém nahrazen virtualizovanými paralelními výpočetními prvky (v terminologii Teradata je označujeme „AMP” a lze je chápat jako virtualizovaná databázová jádra), které byly součástí Teradata 2 v roce 1995. Tento krok bystrozrace předvídal moderní vícevláknový a vícejádrový hardware – naše systémy tak mohou běžně pracovat s vytížením procesoru 80–90 procent.

Tato virtualizace je také základem našeho patentovaného řešení pro migraci paralelních výpočetních prvků, díky kterému jsou systémy Teradata schopny přežít selhání hardwarového uzlu a které umožňuje „koexistenci” několika generací infrastruktury – naši zákazníci mohou přidat výkon v podobě nových výpočetních uzlů, aniž by museli celý systém přebudovat.

Systém Teradata Virtual Services (TVS), který je součástí databázového řešení Teradata 13, je naším dalším krokem v oblasti virtualizace – zejména v oblasti pokročilé správy úložišť. Díky němu je možné v jediném systému používat různé velikosti diskových jednotek – uživatelé tak mohou využívat novější, levnější disky s vyšší hustotou záznamu a menší cenou za terabyte pro uložení „studených” dat, zatímco často využívaná a kritická „horká” data jsou uložena na výkonnějších discích s nižší hustotou. To je výhodné zejména s tím, jak se objevují zákonné požadavky na uchovávání některých typů dat, která je takto možné skladovat levněji.

Příznivcům jiných databázových systémů se možnost mixovat různé velikosti disků v jediném systému možná nezdá převratná, TVS je ovšem transparentní a umožňuje, aby Teradata RDBMS rozděloval data rovnoměrně do dostupných úložišť pro dosažení nejlepšího možného paralelního výkonu – to vše bez nutnosti ručních zásahů. TVS navíc dokáže automaticky detekovat „teplotu” – tedy význam dat – a přesouvat ta „horká” na vnější sektory pevných disků, kde je výkon čtení a zápisu nejvyšší.

Tato automatizovaná migrace dat je chytrým trikem, který v budoucnu umožní podporovat v jediném systému různé typy úložišť – SSD disky pro nejčastěji využívaná data, disky fibre channel pro často požadované informace a konečně klasické SATA disky o kapacitě 1 TB a vyšší pro data, která organizace musejí uchovávat, přistupují k nim ale velmi zřídka a s nízkou prioritou dotazů.

V posledním čtvrtletí Teradata navíc ohlásila několik řešení v oblasti výpočetního mraku – Teradata Enterprise Analytics Cloud poskytuje zákazníkům flexibilní architekturu, která umožňuje využít cloud computingu pro analytické operace. Řešení Teradata Express pro Amazon EC2 pak umožňuje snadno a rychle vytvářet nízkonákladová modelová řešení a prototypy databází v prostředí veřejného mraku s využitím služeb Amazon EC2. Podobně lze využít Teradata Express for VMware Player – podnikovým uživatelům dávají veřejné i interní výpočetní mraky možnost rychle a snadno svépomocí vybudovat krátkodobá analytická datová tržiště, aniž by museli pořizovat nákladnou infrastrukturu. Vytvořit podpůrné řešení pro rozhodování lze díky výpočetnímu mraku levně a rychle.

Evoluce, nikoliv revoluce

Dopad cloud computingu na datové sklady bude spíše evolučního než revolučního charakteru. Budou-li platné fyzikální zákony, tak tu sofistikované, mnohaterabajtové a mnohauživatelské aktivní datové sklady zůstanou. Cloud computing ale již dnes nabízí cenově výhodnou možnost, jak nasazovat jednoduché, levné datové sklady či tržiště. EII middleware bude ale muset ujít značný kus cesty, než se „federace na steroidech” ve webovém prostředí stane použitelnou. Virtualizaci se v architekturách nejvýznamnějších poskytovatelů DMBS daří dobře – je základem pro inteligentnější ukládání informací a lepší využití výkonu serverů.

Našli jste v článku chybu?

Líbí

Nelíbí

redakce

Témata:

22. 7. Méně akvizicí

Počet i objem transakcí na trhu fúzí a akvizic v České republice v letošním druhém čtvrtletí meziročně klesl. Na území ČR či se zapojením ČR se uskutečnilo 18 transakcí za zhruba 207 milionů eur (5,3 miliardy Kč). Ve stejné období loni to bylo 27 transakcí za 877 milionů eur (cca 22,3 miliardy Kč).
Pro investory jsou aktuálně atraktivní sektory počítačového softwaru, automatizace, digitalizace a robotizace či telekomunikací, zvýšený zájem zůstává o oblast energetiky, zdravotnictví a finančních služeb. Vyplývá to ze statistik poradenské společnosti TPA.
10. 7. O2 pohltilo dalšího konkurenta

O2 Czech Republic a Nordic Telecom Holding podepsaly smlouvu o prodeji stoprocentního podílu v Nordic Telecom Regional. Ta jako součást Nordic Telecomu poskytuje pevné a bezdrátové připojení k internetu více než 100 000 koncovým zákazníkům. Transakce podléhá schválení příslušnými úřady.
Naděje na vstup čtvrtého operátora na český trh se definitivně rozplynula.
10. 7. Zlepšení kvůli pojištění

Podle bezpečnostní studie společnosti Sophos 97 % organizací s kybernetickým pojištěním investovalo do zlepšení své ochrany s cílem pojištění získat, přičemž 76 % z nich to umožnilo se pro pojištění vůbec kvalifikovat, 67 % získat lepší cenu a 30 % zajistit lepší pojistné podmínky.
Průzkum také ukázal, že náklady na obnovu po kybernetických útocích převyšují pojistné krytí. Pouze jedno procento z těch, kteří uplatnili pojistnou událost, uvedlo, že jejich pojišťovna uhradila 100 % nákladů vzniklých při odstraňování následků incidentu. Nejčastějším důvodem, proč pojišťovna neproplatila náklady v plné výši, byl fakt, že celkový účet přesáhl pojistný limit.
9. 7. Seyfor při chuti

Seyfor přidává do svého portfolia hned dvě společnosti poskytující software pro recruitment. Koncem koupil společnost Datacruit a současně získal 38% podíl v Recruitis.io. Obě platformy chce Seyfor nadále rozvíjet a současně také využít jejich synergie s dalšími svými produkty.
Na klíčových pozicích v obou společnostech zůstávají dosavadní majitelé. S rozšířeným portfoliem chce Seyfor pronikat i na další evropské trhy. Společnosti Datacruit i Recruitis.io mají zásadní postavení v oblasti vývoje a poskytování softwaru ATS (Applicant Tracking System) pro recruitment a mezi jejich klienty patří mimo jiné velké nadnárodní společnosti.
8. 7. eDoklady zatím moc nejedou

Technologická společnost Qinshift si nechala zpracovat průzkum veřejného mínění, který zkoumal povědomí a používání digitálního průkazu totožnosti (aplikace eDoklady) mezi obyvateli České republiky. Výsledky průzkumu odhalily, že většina (84,8 %) obyvatel ČR už o možnosti digitálního prokázání totožnosti ví.
Reálně však tuto technologii zatím použilo jen 15,4 % dotázaných. Více, než třetina respondentů uvedla jako hlavní motivaci k budoucímu použití aplikace eDoklady její akceptaci většinou úřadů v ČR.

Sdílet

Byl pro vás článek přínosný?

Autor článku

redakce

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

22. 7. Méně akvizicí

10. 7. O2 pohltilo dalšího konkurenta

10. 7. Zlepšení kvůli pojištění

9. 7. Seyfor při chuti

8. 7. eDoklady zatím moc nejedou

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Cloud computing, virutalizace a datové sklady. Evoluce či revoluce?

Sdílet

Byl pro vás článek přínosný?

Autor článku

Mohlo by vás zajímat

Kvíz týdne

22. 7. Méně akvizicí

10. 7. O2 pohltilo dalšího konkurenta

10. 7. Zlepšení kvůli pojištění

9. 7. Seyfor při chuti

8. 7. eDoklady zatím moc nejedou

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Dále u nás najdete

Příští týden začne platit evropská regulace umělé inteligence

„Letní sádra“ sice může do vody, na plavání a tobogány ale zapomeňte

Příčina obřího IT výpadku? Chyba aktualizace

Impregnace škodí životnímu prostředí i zdraví

Motání hlavy může být způsobeno problémy s krčními tepnami

Jak se daří novým televizním stanicím?

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Česká e-commerce zakončila druhé čtvrtletí s 3% růstem

Nepovedená aktualizace CrowdStrike ochromila IT systémy

Kompletní sjednání hypotéky online už je na dosah

Zvýšenou teplotu není nutné srážet. Počkejte na horečku

Proč si lidé vyčítají, že přežili neštěstí nebo vážnou nemoc?

Allegro v ČR spouští výdejní boxy, WE|DO se mění na One by Allegro

Podcast: Umělá inteligence není jen ta generativní, upozorňuje odborník David Filgas

Google už nechce rušit cookies třetích stran v Chromu

Nevyléčitelně nemocní získají příspěvek automaticky

Vypněte si sledování v novém Firefoxu

Chcete začít s podnikáním? Přinášíme tipy, jak získat peníze

KVÍZ z firemních financí: Leasing, kontokorent, forfaiting?

Trdlokafe otevřelo první pobočku v USA