Platformy bazodanowe dla Big Data

Funkcjonowanie coraz większej liczby branż czy przedsięwzięć jest w coraz szerszym stopniu związane z koniecznością poradzenia sobie z natłokiem danych. Dylemat, jaki powstaje w chwili wyboru odpowiedniej platformy do ich obsługi może być frustrujący. Warto przyjrzeć się, jak prezentują się różne możliwości i rozwiązania.

Wybór odpowiedniej platformy bazodanowej jest uzależniony od kilku czynników. Należy zadać sobie kilka kluczowych pytań, które umożliwią dobranie narzędzia do wymagań i stawianych przed sobą zadań. Trudno o znalezienie jednego, uniwersalnego narzędzia, które byłoby skuteczne w pracy na każdym obszarze. Aby dokonać satysfakcjonującego wyboru, warto wykonać pierwszy krok w postaci określenia systemu, z jakim ma współpracować platforma bazodanowa, typu i wielkości danych, które mają być przechowywane oraz budżetu, jaki ma być przeznaczony na tworzenie infrastruktury dla danych. Efektywność platformy bazodanowej będzie określana według różnych aspektów pracy w środowisku finansowym, przemysłowym, administracyjnym, logistycznym, itd. Podstawowe kryteria to wydajność (operatywność), kompatybilność, dostępność, pojemność, bezpieczeństwo i potencjał replikacji danych.

Istnieje kilka propozycji wśród platform bazodanowych dobrze funkcjonujących i dostosowanych do Big Data. Krótka charakterystyka poniżej pozwoli zaznajomić się z ich ogólnym zarysem, możliwościami, wadami i zaletami, opiniami oraz potencjalnymi obszarami zastosowań.

azure

To platforma opracowana przez Microsoft. Jest dostępna zarówno w modelu PaaS, jak i IaaS – Azure udostępnia bowiem narzędzie do emulowania chmury, które pozwala na działanie w środowisku lokalnym. Charakteryzuje się dużą elastycznością – jest kompatybilna ze wszystkimi językami, które współpracują z systemem Windows. Platforma Azure obejmuje również szereg rozwiązań, które zapewniają bezpieczeństwo jej użytkowania. Dostęp użytkowników do chmury może być zabezpieczony metodą wieloskładnikowego uwierzytelniania poprzez usługę Azure Active Directory. Platforma umożliwia także stosowanie własnych kluczy szyfrujących gromadzone dane. Ponadto obsługuje technologię wielokrotnej replikacji danych w chmurze – dzięki czemu nawet awaria jednego z centrów obliczeniowych nie wiąże się z utratą danych.

oracle

Oferta Oracle umożliwia wybór indywidualnych rozwiązań do konkretnych potrzeb i zadań. Produkty tego wydawcy są dostępne w rozmaitych edycjach, które obejmują różne zakresy możliwości. Mogą być rozszerzane o konkretne opcje – subsystemy – usprawniające poszczególne obszary pracy z danymi. System bazodanowy Oracle Database pozwala na zarządzanie bazami danych w modelu obiektowo – relacyjnym. Jest rozwiązaniem, które umożliwia skonsolidowanie wielu baz danych w jeden obiekt i przeniesienie ich do środowiska chmury.

mongodb

To opensource’owy, nierelacyjny system zarządzania danymi, funkcjonujący w zorientowaniu na dokumenty. Takie rozwiązanie zapewnia duże możliwości indeksowania i skalowania danych, wysoką wydajność ich przetwarzania, obsługę zapytań ad-hoc, dużą swobodę w obsługiwanych typach danych, a także łatwość ich replikowania. Platforma współpracuje z interfejsami stworzonymi we wszystkich przewodnich językach programowania. MongoDB ma jednak ograniczony potencjał obsługi transakcji danych.

hadoop

Opracowana przez Apache, otwarta platforma bazodanowa, mająca charakter modułowy. To jedna z najważniejszych technologii związanych z obsługą Big Data z kilku powodów. Przewodnią ideą, która towarzyszyła jej stworzeniu, było uznanie, że awarie sprzętowe są powszednie, dlatego framework powinien radzić sobie z tym problemem w sposób automatyczny. Hadoop może wykorzystać niemal każdy dostępny komputer, by włączyć go do klastra obliczeniowego. To darmowa platforma, która jednocześnie zapewnia wysoki poziom bezpieczeństwa i możliwość łatwego replikowania danych. Jest to szczególnie elastyczna technologia, która pozwala na obsługę wielu formatów plików. Hadoop radzi sobie jednak słabiej z zadaniami o charakterze iteracyjnym oraz wymagającymi pogłębionej analizy wielu strumieni danych. Kłopotem podczas korzystania z tej platformy może być również niedostateczny dostęp do narzędzi zarządzających, porządkujących i standaryzujących dane.