Stala se analýza a zpracování tzv. big dat reálnou IT disciplínou, nebo jde jen o další buzzword?

Pilař: Zpracování big dat, tj. velkých objemů dat, je v současné době reálnou aktivitou. O big datech se ale hovoří i v situacích, kde to nedává úplný smysl a stejná analýza je řešitelná i prostředky klasických databázových technologií. Respektive přidaná hodnota big data řešení není až tak velká. Z toho tedy občas plyne pocit, že big data jsou buzzword, který se dobře prodává.

Co tedy znamená řešení pro big data a řešení databázové?

Pilař: Základním rozdílem mezi těmito dvěma přístupy je, že v řešení big data můžeme ukládat a následně analyzovat data v té podobě, v jaké jsou na vstupu. Oproti databázovému řešení, kdy je třeba mít předem jasnou představu, jaký typ analýz budeme chtít provádět.

To tedy znamená, že big data mohou být i nestrukturovaná a v databázi strukturovaná?

Pilař: Ano, databázová data jsou vždy strukturovaná, zatímco big data mohou být zcela nestrukturovaná. Hovoříme zde o data lakes (jezera dat), což je další termín používaný v této oblasti. Data ukládáme tak, jak jsou pořizována. Po nějaké době fungování big data řešení se můžeme zpětně vrátit k analýze těchto surových dat, která jsou k dispozici.

Švarc: Ještě bych odpověď doplnil ohledně toho, zda jsou big data buzzword, či nikoliv. S příchodem big dat se začalo hovořit o nových formách datové analýzy. Díky tomuto přístupu je možné ve větší míře provádět prediktivní analýzu a složitější statistické modely nad vstupními daty. Přijde mi, že většina lidí si myslí, že aby tyto typy analýz mohli dělat, potřebují k tomu (technologie pro) big data. Přitom tomu tak není. Prediktivní analýzu a statistické modelování lze provádět i nad těmi daty, která firmy už většinou mají. Tyto dvě věci dnes pouze tak nějak přišly dohromady, proto si je lidé spojují. Jsem však přesvědčen, že spousta zákazníků zjistí, že pro to, co chce analyzovat, nepotřebují technologie pro big data, a navíc zjistí, že big data v podstatě vůbec nemají.

Kdy jsou to ona velká data, a čím se tedy vlastně odlišují od těch ostatních dat?

Švarc: Obecná definice hovoří o tom, že big data jsou taková data, která není možné zpracovat standardními technologiemi, jež byly vyvinuty a k dispozici v posledních desetiletích. To znamená různé relační databáze. Další definice zase říká, že big data mají tři V, a sice velocity, variety a volume (rychlost, rozličnost a objem). Existují však i use cases, kdy data nemusí být nestrukturovaná, ale je jich tolik a "letí" na vás na vstupu tak rychle, že je nedokážete zpracovávat pomocí relačních databází, a v tu chvíli se už začíná o big datech také hovořit.

Setkáváte se i s jinou interpretací termínu big data? V čem se podle vás lidé nejčastěji mýlí?

Švarc: Dost lidí chce pracovat s big daty jen proto, že se o nich dnes mluví.

Může tedy jít o stav, že mají větší objem dat v databázi, a myslí si proto, že mají big data?

Pilař: Myslím, že právě to bývá ne zcela správná interpretace. Máme zákazníky, kteří mají miliardy řádek a terabajtové objemy dat v klasických relačních databázích. Jedná se ale o strukturovaná data a nemá smysl hovořit zde o big datech. Ne každá velká data jsou tedy big data. Petr Švarc zmínil otázku složitějších, prediktivních analýz a vazbu na big data. Pro tyto typy analýz v podstatě vždy potřebujeme strukturovaná data. Ne vždy však dopředu víme, která data budeme chtít analyticky zpracovávat. Zde dávají smysl bigdatová úložiště.

Zákazník často začne s tématem big data. Když lépe poznáme jeho současnou situaci a potřebu, často se ukáže, že klasické technologie splní požadavky lépe. S nadsázkou lze tedy říci, že ne každý to má tak velké, jak si zprvu myslel.

Jaké technologie se ke zpracování big dat využívají?

Švarc: Základem je cluster Hadoop, kde je úplně základní komponentou HDFS (Hadoop Distributed File System). Jde o distribuované úložiště dat, které je možné lineárně rozšiřovat, škálovat. Tím je položen základ k tomu, abychom big data vůbec mohli začít sbírat. Máme tedy distribuované úložiště, a pokud přestává stačit, jednoduše ho rozšíříme tak, že do clusteru přidáme další servery. Jde také o jeden z příkladů, kde klasická relační databáze takto nemůže fungovat, protože když se u ní dostanete na nějaký velikostní limit, už ji dále při zachování efektivity nerozšíříte. Další věc, kterou HDFS nabízí, je, že zároveň představuje i výpočetní framework. Začalo se s joby (aplikacemi) Map Reduce, teď se pro spouštění aplikací používá Yarn. Tyto výpočetní frameworky využívají distribuovaného úložiště (clusteru) k tomu, že zde spouštějí výpočty na všech serverech najednou. Výpočet je proto teoreticky lineárně škálovatelný, když přestane hardware stačit, Hadoop se rozšíří o další servery.

Zbývá vám ještě 70 % článku
První 2 měsíce předplatného za 40 Kč
  • První 2 měsíce za 40 Kč/měsíc, poté za 199 Kč měsíčně
  • Možnost kdykoliv zrušit
  • Odemykejte obsah pro přátele
  • Nově všechny články v audioverzi
Máte již předplatné?
Přihlásit se