Znaczenie deduplikacji „inline” w zarządzaniu przestrzenią operacyjną oraz backupową

W dzisiejszych czasach można zaobserwować ogromny i nieustający wzrost ilości magazynowanych informacji. Wobec tak dużej konwersji, zwykły backup taśmowy tu nie wystarczy, ponieważ jest to rozwiązanie czasochłonne i bardzo kosztowne. Z tego powodu zaczęto szukać nowych metod magazynowania informacji – w ten sposób wynaleziono deduplikację danych.

bazydanychDeduplikacja danych polega na eliminowaniu identycznych lub podobnych do siebie danych w celu uzyskania dodatkowego miejsca podczas tworzenia kopii zapasowych. Dzięki temu ilość miejsca na dysku może wzrosnąć nawet do 30 razy. Warto zauważyć, że deduplikacja nie jest tym samym co kompresja danych. Ta druga działa tylko w obrębie jednego pliku, usuwając powtarzające się ciągi danych. Natomiast deduplikacja odnosi się do całości objętych nią danych. Proces ten jest przeprowadzany na różnych poziomach: poziomie plików, bajtów, bloku plików stałej wielkości i bloku plików o zmiennej wielkości. Dzięki temu, gdy powtórzy się jakaś informacja składowana już wcześniej, jest ona usuwana i zastępowana znacznikiem, odnoszącym się do istniejącego już materiału. Bardziej efektywnym procesem jest ten na poziomie bloków niż na poziomie plików. Warto zaznaczyć, że im bardziej szczegółowa analiza plików, tym więcej miejsca można zaoszczędzić, jednak ilość gromadzonych i sprawdzanych danych zależy w dużej mierze od wydajności posiadanego systemu.

Przy wprowadzaniu deduplikacji ważny jest także wybór możliwości zastosowania odpowiedniego oprogramowania. Można tu wykorzystać dwa warianty. Pierwszy z nich to deduplikacja po stronie źródła, czyli Source-based deduplication. Odbywa się ona po stronie klienta, gdzie do systemu pamięci masowej są przesyłane jedynie wynikowe dane. Drugim jest deduplikacja przeprowadzona po stronie celu, czyli Target-based deduplication. To klient przesyła pełny strumień danych do urządzenia, które zapisuje dane w pamięci masowej.

W każdej z możliwości są dwa tryby przetwarzania danych – tryb inline oraz jego alternatywa – post-process. Tryb inline jest zazwyczaj przeprowadzony „w locie”, co oznacza, że dane są kopiowane w czasie rzeczywistym, czyli w momencie dotarcia do urządzenia, które składuje informacje. Powoduje to, że dane są od razu zapisywane już po usunięciu wszystkich duplikatów. Tryb inline określany jest jako najbardziej wydajna i ekonomiczna metoda deduplikacji. Wymaga znacznie mniej miejsca na dysku oraz skraca czas odzyskiwania danych utraconych w wyniku awarii. Staje się to ogromną korzyścią w przypadku firm, które regularnie wykonują kopie dużej ilości danych, zawierających wiele powtarzających, ale i nie zmieniających się bloków.

deduplikacjaDeduplikacja inline w porównaniu do trybu post-process, wypada również lepiej pod względem szybkości – w trybie tym dane są najpierw zapisywane na dysku, a dopiero później przetwarzane i ponownie zapisane już po usunięciu powtarzających się plików. Z drugiej strony przepustowość urządzenia w trybie inline może być mniejsza w stosunku do post-process, ponieważ deduplikacja musi być przeprowadzona przed zapisem danych. Jednak nieodzowną zaletą trybu inline jest to, że niepotrzebny jest dodatkowy sprzęt do zapisywania danych poza pamięcią masową, a co za tym idzie – powoduje to niższy koszt użytkowania w porównaniu do trybu post-process.

Komputeryzacja życia codziennego jest nieuniknionym procesem, który wciąż postępuje. Codziennie produkowane są miliony danych, które muszą być gdzieś magazynowane. Do tej pory był to proces kosztowny i czasochłonny – na szczęście dzięki rozwoju technologii, dziś można stosować deduplikację informacji w zarządzaniu przestrzenią operacyjną. A spośród wielu możliwości najszybszym i najprostszym rozwiązaniem jest deduplikacja inline.