Wraz ze wzrostem mocy obliczeniowej komputerów oraz obniżeniem się kosztów przechowywania danych, firmy pozyskują, przetwarzają i analizują coraz większe ilości informacji. W świecie analityki takie duże zbiory danych, nierzadko pochodzące z różnych miejsc, w tym także spoza organizacji, która je analizuje, określa się mianem Big Data. Na czym polega Big Data i jak jest obecnie wykorzystywana w biznesie?
Co to jest Big Data?
Big Data oznacza duże i złożone zbiory danych, których przetwarzanie wymaga wykorzystania skomplikowanych metod oraz specjalistycznych narzędzi. Samo pojęcie nie jest nowe, aczkolwiek w ostatnich czasie, w dobie dynamicznego rozwoju Internetu, ilość możliwych do przetwarzania danych wzrosła do olbrzymich rozmiarów. Dostęp do tylu informacji oznacza dla firm i instytucji szansę na pozyskanie bardzo dużych zasobów wiedzy, którą mogą użyć do realizacji swoich celów. Wiedzę tę wykorzystuje się także w badaniach naukowych. Big Data stanowią przy tym podstawę działania systemów uczenia maszynowego.
Cechy Big Data
Aby dane mogły zostać zaklasyfikowane do Big Data, musi cechować je:
- Różnorodność – powinny być zbierane z wielu źródeł i w różnych formach. Będą to na przykład arkusze kalkulacyjne, e-maile, pliki multimedialne, wpisy w mediach społecznościowych czy dane pochodzące z urządzeń IoT (Internet of Things).
- Wielkość – Big Data, jak sama nazwa wskazuje, to bardzo duże zbiory danych, mierzone już nie w gigabajtach, ale terabajtach czy petabajtach. Potrafią one szybko przyrastać, według niektórych badań, nawet podwajać swoją objętość w ciągu trzech miesięcy. Właśnie z powodu wielkości baz do pracy nad nimi niezbędne są specjalistyczne narzędzia.
- Szybkość – cecha ta odnosi się do prędkości przetwarzania danych, które realizowane jest na bieżąco. Krótki czas pobierania i analizy danych jest niezbędny, aby odpowiednio zareagować na pozyskane informacje.
Istnieje wiele narzędzi służących do obsługi Big Data (duża część z nich jest dostępnych w modelu open source). Wykorzystywane są do przechowywania danych oraz ich analizy i przetwarzania. Do najpopularniejszych należą Apache Hadoop, Cassandra, Spark, Kafka, Hive czy OpenStack Swift.
PRZECZYTAJ TAKŻE:
Rodzaje danych w ramach Big Data
Strukturalne
Są to dane uporządkowane i wysoko zorganizowane, o często liczbowym charakterze. W prosty sposób można je przetwarzać, przechowywać i przeglądać za pomocą dedykowanej wyszukiwarki. Należą do nich np. bazy danych gromadzone w hurtowniach danych czy arkuszach kalkulacyjnych, które dotyczą np. klientów organizacji czy pracowników firmy, zawierając wykaz informacji, które tych pracowników określają – np. stanowiska, wynagrodzenia etc.
Nieustrukturyzowane
Dane nieustrukturyzowane, jak sama nazwa wskazuje, nie posiadają określonej struktury i porządku, przez co są trudne do przetwarzania. Należą do nich np. e-maile czy dane pozyskiwane z mediów społecznościowych. Można je umieścić w dokumentach tekstowych i przechowywać w narzędziach obsługujących Big Data.
Dane częściowo ustrukturyzowane
Są to dane zarówno w postaci strukturalnej, jak i niestrukturalnej. Mimo nieuporządkowania można je określić za pomocą pewnych informacji czy znaczników. Zaliczamy do nich np. dzienniki serwera WWW czy dane z czujników IoT (Internetu rzeczy).
Jak działa Big Data?
Podstawowe aspekty Big Data to:
- Integracja – dane są zbierane z wielu źródeł, a zadaniem narzędzi Big Data jest je obsłużyć. Integracja takich ilości informacji to wyjątkowo trudne zadanie. Cały proces polega na pobraniu, przetworzeniu oraz sformatowaniu danych, tak aby spełniały potrzeby firmy.
- Zarządzanie – ten aspekt Big Data skupia się na przechowywaniu i organizowaniu danych. Z pomocą przychodzą tu rozwiązania chmurowe, takie jak CloudHosting w nazwa.pl, które są bardziej elastyczne i bezpieczne niż lokalne serwery. Cloud computing pozwala na dynamiczne dostosowywanie przestrzeni dyskowej do potrzeb organizacji. Unika się w ten sposób skutków ewentualnych awarii fizycznych komputerów, gdyż dane są nieustannie kopiowane pomiędzy wieloma urządzeniami.
- Analiza – zintegrowane i zapisane dane należy następnie przeanalizować, aby wyciągnąć z nich wnioski pożyteczne dla organizacji. Analiza danych może odbywać się przy użyciu sztucznej inteligencji i uczenia maszynowego, co skutkuje uzyskaniem odpowiedniej wiedzy.
Do czego można wykorzystać Big Data?
Możliwości zastosowań Big Data są bardzo szerokie. Praktycznie każda duża organizacja może odnieść korzyści z pracy z dużymi zbiorami danych, a dla wielu korporacji jest to już konieczność. Poniżej przedstawiamy przykładowe sposoby użycia potencjału Big Data.
Marketing
Dzięki Big Data możliwe jest gromadzenie danych na temat zachowania użytkowników i transakcji, które przeprowadzają, a także przewidywanie trendów konsumenckich. Takie działania prowadzą np. Facebook, Google czy Twitter, aby przekazywać informacje reklamowcom. Dostęp do tych danych umożliwia prowadzenie lepiej dostosowanych kampanii, które cechuje wyższy współczynnik konwersji. A zatem za każdym razem, gdy wykupujemy reklamę u któregoś z technologicznych gigantów, wyodrębniając precyzyjnie grupę odbiorców, korzystamy z potencjału Big Data.
PRZECZYTAJ TAKŻE:
Satysfakcja użytkownika
Dzięki gromadzeniu dużej ilości danych i ich analizie firma może zidentyfikować wzorce i trendy zachowań użytkowników. Prowadzi to do lepszego zrozumienia klienta i jego potrzeb. Informacje behawioralne można użyć do personalizacji treści. Wykorzystują to np. media społecznościowe i serwisy VOD. Przeprowadzając operacje na dużych zbiorach danych, można w łatwy sposób przewidzieć, jakie treści mogą zainteresować danego użytkownika. Tak jest w przypadku np. rekomendacji Netflixa, który podpowiada użytkownikom filmy i seriale oparte na ich preferencjach. Podobnie działają mechanizmy Spotify, tworzące dedykowane playlisty z utworami, które mogą przypaść do gustu osobom korzystającym z usługi.
Cyberbezpieczeństwo
Hakerzy od dłuższego czasu korzystają z mechanizmów sztucznej inteligencji, aby doskonalić metody ataków. Eksperci cyberbezpieczeństwa starają się wyprzedzać ich o krok w tej dziedzinie, używając właśnie Big Data. Dostęp do ogromnej ilości danych pozwala przeprowadzać analizy za pomocą algorytmów uczenia maszynowego. Identyfikowane są w ten sposób wzorce zachowań, które mogą wskazywać na działania hakerów. Wykorzystuje się do tego np. metodę obserwacyjną AL (Aplication Learning – uczenia się przez aplikację), polegającą na tworzeniu profili standardowego sposobu korzystania z aplikacji internetowych. Jeżeli zostanie wykryta jakiegoś rodzaju anomalia, klasyfikowana jest jako zagrożenie.
PRZECZYTAJ TAKŻE:
- Sztuczna inteligencja a cyberbezpieczeństwo
- o cyberbezpieczeństwie: zagrożenia oraz sposoby ochrony przed nimi
Zarządzanie ryzykiem
Zmniejszanie ryzyka biznesowego ma dla firm kluczowe znaczenie. Dzięki Big Data można modelować i przewidywać zagrożenia oraz łagodzić skutki wystąpienia ewentualnych niebezpiecznych sytuacji. Dzięki temu firma, która skuteczniej wykorzystuje operacje na dużych zbiorach danych, może stać się bardziej konkurencyjna. Mechanizmy te używane są np. w branży ubezpieczeniowej, gdzie analiza przy użyciu Big Data służy do personifikacji ofert. Sprawia to, że np. wykupując OC samochodu wycena polisy będzie zależeć od informacji statystycznych dotyczących danej grupy wiekowej, statusu społecznego czy sytuacji osobistej. Wyciągane są z nich wnioski na temat prawdopodobieństwa wypadków.
Sposobów wykorzystania Big Data jest oczywiście znacznie więcej. Przetwarzanie i analiza dużych zbiorów danych, jako nowa dziedzina analityki, bez wątpienia będzie się dalej rozwijać, ponieważ wykorzystując duże ilości wartościowych danych, można zdobywać cenną dla każdej organizacji wiedzę.