Czym są dane i dlaczego są ważne?
*
dane – zbiór faktów (liczby, słowa, pomiary, obserwacje itp.), który został przetłumaczony na formę, którą komputery mogą przetwarzać
niezależnie od branży, w której pracujesz, lub niezależnie od twoich zainteresowań, prawie na pewno natkniesz się na historię o tym, jak „dane” zmieniają oblicze naszego świata. Może to być część badania pomagającego wyleczyć chorobę, zwiększyć przychody firmy, zwiększyć wydajność budynku lub być odpowiedzialnym za te ukierunkowane reklamy, które ciągle widzisz.
ogólnie rzecz biorąc, dane to po prostu inne słowo dla informacji. Ale w informatyce i biznesie (większość tego, o czym czytasz w wiadomościach, jeśli chodzi o dane – zwłaszcza jeśli chodzi o Big Data), dane odnoszą się do informacji, które są czytelne dla maszyn, a nie dla ludzi.
ludzie kontra Maszyny
czytelny dla człowieka (znany również jako dane nieustrukturyzowane) odnosi się do informacji, które tylko ludzie mogą interpretować i badać, takich jak obraz lub znaczenie bloku tekstu. Jeśli wymaga to od osoby interpretacji, informacja ta jest czytelna dla człowieka.
dane nadające się do odczytu maszynowego (lub dane ustrukturyzowane) odnoszą się do informacji, które programy komputerowe mogą przetwarzać. Program jest zestawem instrukcji do manipulowania danymi. A kiedy pobieramy dane i stosujemy zestaw programów, otrzymujemy oprogramowanie. Aby program mógł wykonywać instrukcje dotyczące danych, Dane te muszą mieć jakąś jednolitą strukturę.
na przykład amerykański oficer marynarki Matthew Maury, przekształcił lata starych, ręcznie pisanych dzienników żeglugi (czytelnych dla człowieka) w duży zbiór tras współrzędnych (czytelnych dla maszyn). Następnie był w stanie przetworzyć te trasy masowo, aby zmniejszyć średnią podróż morską o 33%.
dane w wiadomościach
jeśli chodzi o rodzaje danych ustrukturyzowanych, które są w artykułach Forbesa i raportach McKinsey, istnieje kilka różnych typów, które zwykle przyciągają największą uwagę …
dane osobowe
dane osobowe to wszystko, co jest specyficzne dla Ciebie. Obejmuje Dane demograficzne, lokalizację, adres e-mail i inne czynniki identyfikujące. Zwykle jest to w wiadomościach, gdy wycieknie (jak skandal Ashley Madison) lub jest używany w kontrowersyjny sposób (gdy Uber dowiedział się, kto miał romans).
wiele różnych firm gromadzi Twoje dane osobowe (zwłaszcza portale społecznościowe), za każdym razem, gdy musisz podać swój adres e-mail lub dane karty kredytowej, które udostępniasz. Często korzystają z tych danych, aby dostarczać spersonalizowane sugestie, aby utrzymać zaangażowanie. Na przykład Facebook wykorzystuje Twoje dane osobowe, aby sugerować treści, które chcesz zobaczyć, na podstawie tego, co lubią inne osoby podobne do ciebie.
ponadto dane osobowe są agregowane (w celu ich nieco depersonalizacji), a następnie sprzedawane innym firmom, głównie w celach reklamowych i konkurencyjnych. To jeden ze sposobów na otrzymywanie ukierunkowanych reklam i treści od firm, o których nigdy nie słyszałeś.
dane transakcyjne
dane transakcyjne to wszystko, co wymaga działania, aby je zebrać. Możesz kliknąć reklamę, dokonać zakupu, odwiedzić określoną stronę internetową itp.
prawie każda odwiedzana strona internetowa gromadzi dane transakcyjne jakiegoś rodzaju, za pośrednictwem Google Analytics, innego systemu innej firmy lub własnego wewnętrznego systemu przechwytywania danych.
dane transakcyjne są niezwykle ważne dla firm, ponieważ pomagają im ujawniać zmienność i optymalizować operacje w celu uzyskania najwyższej jakości wyników. Badając duże ilości danych, możliwe jest odkrycie ukrytych wzorców i korelacji. Wzorce te mogą tworzyć przewagę konkurencyjną i skutkować korzyściami biznesowymi, takimi jak skuteczniejszy marketing i większe przychody.
dane internetowe
dane internetowe to zbiorcze określenie, które odnosi się do dowolnego rodzaju danych, które można pobrać z Internetu, czy do badań w celach badawczych lub w inny sposób. Mogą to być dane o tym, co sprzedają twoi konkurenci, opublikowane dane rządowe, wyniki piłkarskie itp. Jest to chwytak na wszystko, co można znaleźć w internecie, które jest publiczne (tj. nie jest przechowywane w jakiejś wewnętrznej bazie danych). Badanie tych danych może być bardzo pouczające, zwłaszcza gdy są dobrze przekazywane kierownictwu.
dane internetowe są ważne, ponieważ są jednym z głównych sposobów, w jaki firmy mogą uzyskać dostęp do informacji, które nie są generowane przez siebie. Podczas tworzenia wysokiej jakości modeli biznesowych i podejmowania ważnych decyzji BI, firmy potrzebują informacji na temat tego, co dzieje się wewnętrznie i zewnętrznie w ich organizacji i co dzieje się na szerszym rynku.
dane internetowe mogą być używane do monitorowania konkurencji, śledzenia potencjalnych klientów, śledzenia partnerów w kanałach sprzedaży, generowania potencjalnych klientów, tworzenia aplikacji i wielu innych. Jego zastosowania są nadal odkrywane, ponieważ poprawia się Technologia przekształcania nieustrukturyzowanych danych w ustrukturyzowane dane.
dane internetowe można zbierać, pisząc skrobaki internetowe, aby je zebrać, używając narzędzia do skrobania lub płacąc stronie trzeciej za wykonanie skrobania za Ciebie. Skrobak internetowy to program komputerowy, który pobiera adres URL jako wejście i pobiera dane w ustrukturyzowanym formacie – Zwykle JSON lub CSV.
dane z czujników są wytwarzane przez obiekty i często nazywane są Internetem Rzeczy. Obejmuje wszystko, od smartwatcha mierzącego tętno po budynek z zewnętrznymi czujnikami, które mierzą pogodę.
do tej pory dane z czujników były głównie wykorzystywane do optymalizacji procesów. Na przykład AirAsia zaoszczędziła 30-50 milionów dolarów, korzystając z czujników i technologii GE, aby zmniejszyć koszty operacyjne i zwiększyć wykorzystanie samolotów. Mierząc, co dzieje się wokół nich, maszyny mogą wprowadzać inteligentne zmiany w celu zwiększenia wydajności i ostrzegania ludzi, gdy potrzebują konserwacji.
kiedy dane stają się Big Data?
technicznie wszystkie powyższe typy danych przyczyniają się do tworzenia dużych zbiorów danych. Nie ma oficjalnego rozmiaru, który czyni dane „dużymi”. Termin ten oznacza po prostu rosnącą ilość i różne rodzaje danych, które są obecnie gromadzone w ramach gromadzenia danych.
w miarę jak coraz więcej informacji na świecie porusza się online i staje się zdigitalizowane, oznacza to, że analitycy mogą zacząć używać ich jako danych. Takie rzeczy jak media społecznościowe, książki online, muzyka, filmy i zwiększona ilość czujników dodały zdumiewającego wzrostu ilości danych, które stały się dostępne do analizy.
rzeczą, która odróżnia Big Data od „zwykłych danych”, które analizowaliśmy wcześniej, jest to, że narzędzia, których używamy do gromadzenia, przechowywania i analizowania, musiały się zmienić, aby dostosować się do wzrostu rozmiaru i złożoności. Dzięki najnowszym narzędziom dostępnym na rynku nie musimy już polegać na próbkowaniu. Zamiast tego możemy przetwarzać zbiory danych w całości i uzyskać o wiele pełniejszy obraz otaczającego nas świata.
znaczenie zbierania danych
gromadzenie danych różni się od eksploracji danych, ponieważ jest to proces, w którym dane są gromadzone i mierzone. Wszystko to należy zrobić, zanim rozpocznie się wysokiej jakości badanie i znajdzie się odpowiedź na utrzymujące się pytania. Gromadzenie danych odbywa się zwykle za pomocą oprogramowania i istnieje wiele różnych procedur zbierania danych, strategii i technik. Większość zbierania danych koncentruje się na danych elektronicznych, a ponieważ ten rodzaj zbierania danych obejmuje tak wiele informacji, zwykle przechodzi do sfery big data.
dlaczego więc zbieranie danych jest ważne? To dzięki zbieraniu danych firma lub kierownictwo ma informacje o jakości, których potrzebują, aby podejmować świadome decyzje z dalszej analizy, badania i badania. Bez gromadzenia danych firmy potykałyby się w ciemności, używając przestarzałych metod do podejmowania decyzji. Zamiast tego gromadzenie danych pozwala im być na bieżąco z trendami, dostarczać odpowiedzi na problemy i analizować nowe spostrzeżenia z doskonałym skutkiem.
najseksowniejsza praca XXI wieku?
po zebraniu danych wszystkie te dane muszą zostać przetworzone, zbadane i zinterpretowane przez kogoś, zanim będą mogły zostać wykorzystane do wglądu. Bez względu na to, o jakich danych mówisz, ten ktoś zwykle jest analitykiem danych.
analitycy danych są obecnie jednym z najbardziej poszukiwanych stanowisk. Były exec w Google posunął się nawet do tego, aby nazwać to „najseksowniejszą pracą XXI wieku”.
aby zostać analitykiem danych, potrzebujesz solidnych podstaw w dziedzinie informatyki, modelowania, statystyki, analityki i matematyki. To, co odróżnia je od tradycyjnych tytułów pracy, to zrozumienie procesów biznesowych i umiejętność komunikowania wyników jakości zarówno kierownictwu biznesowemu, jak i liderom IT w sposób, który może wpływać na to, jak organizacja podchodzi do wyzwania biznesowego i reaguje na problemy po drodze.
zasoby danych
jeśli chcesz dowiedzieć się więcej o big data, gromadzeniu danych lub chcesz zacząć korzystać ze wszystkiego, co ma do zaoferowania, sprawdź te blogi, wydarzenia, firmy i inne.
blogi danych
- Nathan Yau, PhD, ma samouczki, wizualizacje, zasoby, rekomendacje książek i humorystyczne dyskusje na temat wyzwań stojących przed branżą
- FiveThirtyEight – prowadzony przez Data-wiz Nate Silver, oferuje analizę danych na popularne tematy wiadomości w polityce, kulturze, sporcie i ekonomii
- Edwin Chen – samozwańczy blog od głównego analityka danych w Dropbox, ten blog oferuje wskazówki dotyczące korzystania z algorytmów i analizy
- Data Science Weekly-aby uzyskać najnowsze wiadomości w dziedzinie data science, jest to ostateczny biuletyn e-mail
- brak darmowego przeczucia (Kaggle) – organizuje szereg konkursów modelowania predykcyjnego. Ich blog competition and data science obejmuje wszystkie rzeczy związane ze sportem Data science.
- SmartData Collective – społeczność internetowa moderowana przez media społecznościowe, która dostarcza informacji na temat najnowszych trendów w Business intelligence, zarządzaniu danymi i zbieraniu danych.
- KDnuggets – jest wszechstronnym zasobem dla każdego, kto jest zainteresowany społecznością data science.
- Data Elixir – to świetny zestaw wiadomości z danymi w sieci, możesz otrzymać cotygodniowy przegląd wysyłany prosto na swoją skrzynkę odbiorczą.
influencerzy danych
- Marcus Borba (CTO Spark) – jego kanał zawiera wizualizacje złożonych pojęć, takich jak Internet Rzeczy (IoT) i kilka inkarnacji NoSQL
- Lillian Pierson (autorka, Data Science for Dummies) – linkuje do mnóstwa artykułów informacyjnych, z klipów informacyjnych na temat najnowszych firm wykorzystujących duże możliwości dane, do pomocnych postów na blogu od wpływowych osób zarówno w dziedzinie data science, jak i przestrzeni biznesowej
- Kirk borne (principal data scientist at boozallen) – posty i retweety linki do fascynujących artykułów na temat Big Data i data science
- 40 Data mavericks under 40 – Ta lista obejmuje who ’ s who z jasnych i innowacyjnych w danych i startupów
konferencje danych
- warstwy + Hadoop World – Nowy Jork, NY (wrzesień 2010). 29-Październik 1) – koncentruje się w szczególności na implikacjach Big Data dla wielkiego biznesu.
- Extract-San Francisco, Kalifornia (30 października) – połączenie ponad 600 najlepszych umysłów w dziedzinie nauk o danych, aby połączyć hakowanie wzrostu z analizą danych, aby wyposażyć cię w najlepszego naukowca danych w tej dziedzinie.
- Big Data Tech Con 2015-Chicago, IL (2-4 listopada) – główne ” jak ” wykorzystać duże zbiory danych, które okażą się bardzo pouczające w tym, jak nowe firmy przyjmują duże zbiory danych.
- Big Data Bootcamp – Tampa, FL (7-9 grudnia) – intensywne, przyjazne dla początkujących, praktyczne szkolenie, które zanurzy cię w świecie Big Data
- Big Data Innovation Summit – Las Vegas, NV (21-22 stycznia) – wysłuchaj takich firm jak Hershey, Netflix i Departament Bezpieczeństwa Wewnętrznego, jak dokładnie możesz sprawić, by Twoje dane były skuteczne i skuteczne.
- Data Summit 2016 – Nowy Jork, NY (9-11 maja) – łączy agencje rządowe, instytucje publiczne i wiodące firmy, aby wykorzystać nowe technologie i strategie do dalszego włączania danych do codziennych doświadczeń.
kursy danych
- Udemy – bezpłatne i płatne kursy online, które nauczą cię wszystkiego, co musisz wiedzieć
- Szkoła kodowania – naucz się kodowania online, postępując zgodnie z tymi prostymi samouczkami i kursami krok po kroku
- dekodowane – niezbędne wprowadzenie do kodu, które odblokowuje ogromny potencjał cyfrowego świata
- Obóz danych – zbuduj solidne podstawy w dziedzinie data science i wzmocnij swoje umiejętności programowania w r.
- Coursera – współpraca z najlepszymi uniwersytetami i organizacjami w celu oferowania kursów online
- W3schools – ma świetne samouczki online do nauki podstawowych umiejętności kodowania i analizy danych.
Narzędzia danych
- OpenRefine – oprogramowanie do czyszczenia danych, które umożliwia wstępne przetwarzanie danych do analizy.
- WolframAlpha-zapewnia szczegółowe odpowiedzi na zapytania techniczne i wykonuje bardzo złożone obliczenia. Dla użytkowników biznesowych prezentuje wykresy informacyjne i wykresy, a także doskonale nadaje się do historii cen na wysokim poziomie, informacji o towarach i przeglądów tematów.
- Import.io is umożliwia przekształcenie nieustrukturyzowanych danych wyświetlanych na stronach internetowych w ustrukturyzowane tabele danych, do których można uzyskać dostęp za pośrednictwem interfejsu API.
- Trifacta-clean and wrangle data of files & databases you could not handle in excel, with easy to use statistical tools
- Tableau – narzędzie do wizualizacji, które ułatwia spojrzenie na dane w nowy sposób.
- tabele Google Fusion – wszechstronne narzędzie do analizy danych, wizualizacji dużych zbiorów danych i mapowania.
- Blockspring-uzyskaj dane na żywo, twórz interaktywne mapy, uzyskaj obrazy street view, Uruchom rozpoznawanie obrazów i zapisz w Dropbox za pomocą tej wtyczki Google Sheets
- Plot.Ly – wizualizuj swoje dane w łatwy sposób, aby szybko zobaczyć trendy i spostrzeżenia
- Luminoso-zidentyfikuj relacje między słowami kluczowymi i pojęciami w swoim zbiorze danych i uzyskaj wgląd w postrzeganie produktów
- BigML-Zbuduj model swojego rynku ze wszystkimi zmiennymi, takimi jak ceny, cechy produktu i geografia