Ce sunt datele și de ce sunt importante?
*publicat inițial pe 16 septembrie 2015. Actualizat pe 28 iunie 2018
Data – o colecție de fapte (numere, cuvinte, măsurători, observații etc.) care a fost tradusă într-o formă pe care computerele o pot procesa
indiferent de industria în care lucrați sau de interesele dvs., veți întâlni aproape sigur o poveste despre modul în care „datele” schimbă fața lumii noastre. Ar putea face parte dintr-un studiu care ajută la vindecarea unei boli, la creșterea veniturilor unei companii, la eficientizarea unei clădiri sau la responsabilizarea pentru acele anunțuri direcționate pe care le vedeți în continuare.
în general, datele sunt pur și simplu un alt cuvânt pentru informații. Dar în calcul și afaceri (majoritatea lucrurilor despre care citiți în știri când vine vorba de date – mai ales dacă este vorba despre date mari), datele se referă la informații care pot fi citite de mașină, spre deosebire de cele care pot fi citite de om.
Oameni vs Mașini
lizibil de om (cunoscut și sub numele de date nestructurate) se referă la informații pe care numai oamenii le pot interpreta și studia, cum ar fi o imagine sau semnificația unui bloc de text. Dacă este necesar ca o persoană să o interpreteze, acea informație este lizibilă de om.
date care pot fi citite automat (sau structurate) se referă la informațiile pe care programele de calculator le pot procesa. Un program este un set de instrucțiuni pentru manipularea datelor. Și când luăm date și aplicăm un set de programe, obținem software. Pentru ca un program să efectueze instrucțiuni privind datele, aceste date trebuie să aibă un fel de structură uniformă.
de exemplu, ofițerul Naval american Matthew Maury, a transformat ani de jurnale de transport vechi scrise manual (lizibile de om) într-o mare colecție de rute de coordonate (lizibile de mașină). Apoi a reușit să proceseze aceste rute în masă pentru a reduce călătoria navală medie cu 33%.
date în știri
când vine vorba de tipurile de date structurate care sunt în articolele Forbes și rapoartele McKinsey, există câteva tipuri diferite care tind să atragă cea mai mare atenție…
date personale
datele personale sunt orice vă este specific. Acesta acoperă datele demografice, locația dvs., adresa dvs. de e-mail și alți factori de identificare. De obicei, este în știri când se scurge (cum ar fi scandalul Ashley Madison) sau este folosit într-un mod controversat (când Uber a aflat cine avea o aventură).
o mulțime de companii diferite colectează datele dvs. personale (în special site-urile de socializare), oricând trebuie să introduceți adresa dvs. de e-mail sau detaliile cardului de credit pe care le oferiți datele dvs. personale. Adesea, ei vor folosi aceste date pentru a vă oferi sugestii personalizate pentru a vă menține angajat. Facebook, de exemplu, folosește informațiile dvs. personale pentru a sugera conținut pe care ați putea dori să îl vedeți pe baza a ceea ce vă plac alte persoane similare.
în plus, datele cu caracter personal sunt agregate (pentru a le depersonaliza oarecum) și apoi vândute altor companii, mai ales în scopuri publicitare și de cercetare competitivă. Acesta este unul dintre modurile în care obțineți anunțuri și conținut direcționate de la companii de care nici măcar nu ați auzit.
date tranzacționale
datele tranzacționale sunt orice lucru care necesită o acțiune pentru colectare. S-ar putea să faceți clic pe un anunț, să faceți o achiziție, să vizitați o anumită pagină web etc.
aproape fiecare site web pe care îl vizitați colectează date tranzacționale de un fel, fie prin Google Analytics, un alt sistem 3rd party sau propriul sistem intern de captare a datelor.
datele tranzacționale sunt incredibil de importante pentru companii, deoarece le ajută să expună variabilitatea și să își optimizeze operațiunile pentru rezultate de cea mai înaltă calitate. Prin examinarea unor cantități mari de date, este posibil să se descopere modele și corelații ascunse. Aceste modele pot crea avantaje competitive și pot duce la beneficii de afaceri, cum ar fi marketingul mai eficient și creșterea veniturilor.
date Web
date web este un termen colectiv care se referă la orice tip de date pe care le-ați putea extrage de pe internet, fie pentru a studia în scopuri de cercetare, fie în alt mod. Acestea ar putea fi date despre ceea ce vând concurenții dvs., date guvernamentale publicate, scoruri de fotbal etc. Este un catchall pentru orice Puteți găsi pe web, care este cu care se confruntă publice (adică nu sunt stocate în unele baze de date interne). Studierea acestor date poate fi foarte informativă, mai ales atunci când este comunicată bine conducerii.
datele Web sunt importante, deoarece sunt una dintre modalitățile majore prin care companiile pot accesa informații care nu sunt generate de ele însele. Atunci când creează modele de afaceri de calitate și iau decizii importante de BI, întreprinderile au nevoie de informații despre ceea ce se întâmplă intern și extern în cadrul organizației lor și despre ceea ce se întâmplă pe piața mai largă.
datele Web pot fi utilizate pentru a monitoriza concurenții, a urmări potențialii clienți, a urmări partenerii de canal, a genera clienți potențiali, a construi aplicații și multe altele. Utilizările sale sunt încă descoperite pe măsură ce tehnologia pentru transformarea datelor nestructurate în date structurate se îmbunătățește.
datele Web pot fi colectate scriind răzuitoare web pentru a le colecta, folosind un instrument de răzuire sau plătind o terță parte pentru a face răzuirea pentru dvs. Un răzuitor web este un program de calculator care ia o adresă URL ca intrare și scoate datele într – un format structurat-de obicei un flux JSON sau CSV.
date senzor
datele senzorilor sunt produse de obiecte și sunt adesea denumite Internet of Things. Acesta acoperă totul, de la ceasul inteligent care măsoară ritmul cardiac la o clădire cu senzori externi care măsoară vremea.
până în prezent, datele senzorilor au fost utilizate în cea mai mare parte pentru a ajuta la optimizarea proceselor. De exemplu, AirAsia a economisit 30-50 de milioane de dolari folosind senzori și tehnologie GE pentru a ajuta la reducerea costurilor de operare și la creșterea utilizării aeronavelor. Prin măsurarea a ceea ce se întâmplă în jurul lor, mașinile pot face schimbări inteligente pentru a crește productivitatea și a alerta oamenii atunci când au nevoie de întreținere.
când devin datele Big Data?
din punct de vedere tehnic, toate tipurile de date de mai sus contribuie la Big Data. Nu există o dimensiune oficială care să facă datele „mari”. Termenul reprezintă pur și simplu cantitatea tot mai mare și tipurile variate de date care sunt acum colectate ca parte a colectării datelor.
pe măsură ce tot mai multe informații din lume se mișcă online și devin digitalizate, înseamnă că analiștii pot începe să le folosească ca date. Lucruri precum social media, cărți online, muzică, videoclipuri și cantitatea crescută de senzori s-au adăugat la creșterea uluitoare a cantității de date care a devenit disponibilă pentru analiză.
lucrul care diferențiază datele mari de „datele obișnuite” pe care le analizam înainte este că instrumentele pe care le folosim pentru a le colecta, stoca și analiza au trebuit să se schimbe pentru a se adapta creșterii dimensiunii și complexității. Cu cele mai recente instrumente de pe piață, nu mai trebuie să ne bazăm pe eșantionare. În schimb, putem procesa seturi de date în întregime și de a obține o imagine mult mai completă a lumii din jurul nostru.
importanța colectării datelor
colectarea datelor diferă de extragerea datelor prin faptul că este un proces prin care datele sunt colectate și măsurate. Toate acestea trebuie făcute înainte ca cercetarea de înaltă calitate să poată începe și să poată fi găsite răspunsuri la întrebări persistente. Colectarea datelor se face de obicei cu software și există multe proceduri, strategii și tehnici diferite de colectare a datelor. Cea mai mare parte a colectării datelor este centrată pe date electronice și, din moment ce acest tip de colectare a datelor cuprinde atât de multe informații, de obicei trece în domeniul big data.
deci, de ce este importantă colectarea datelor? Prin colectarea datelor, o afacere sau un management are informațiile de calitate de care au nevoie pentru a lua decizii informate din analize, studii și cercetări ulterioare. Fără colectarea datelor, companiile s-ar împiedica în întuneric folosind metode învechite pentru a lua decizii. În schimb, colectarea datelor le permite să rămână la curent cu tendințele, să ofere răspunsuri la probleme și să analizeze noi informații cu mare efect.
cea mai sexy slujbă a secolului 21?
după colectarea datelor, toate aceste date trebuie procesate, cercetate și interpretate de cineva înainte de a putea fi utilizate pentru informații. Indiferent de ce fel de date vorbești, că cineva este, de obicei, un om de știință de date.
oamenii de știință de date sunt acum una dintre cele mai căutate poziții. Un fost director executiv la Google a mers chiar atât de departe încât a numit-o „cea mai sexy slujbă a secolului 21”.
pentru a deveni un om de știință de date aveți nevoie de o bază solidă în informatică, modelare, statistici, analiză și matematică. Ceea ce îi diferențiază de titlurile tradiționale de locuri de muncă este o înțelegere a proceselor de afaceri și o capacitate de a comunica constatări de calitate atât managementului afacerilor, cât și liderilor IT într-un mod care poate influența modul în care o organizație abordează o provocare de afaceri și răspunde la probleme pe parcurs.
resurse de date
dacă sunteți interesat să aflați mai multe despre big data, colectarea datelor sau doriți să începeți să profitați de tot ce are de oferit, consultați aceste bloguri, evenimente, companii și multe altele.
bloguri de date
- date curgătoare – conduse de Dr. Nathan Yau, PhD, are tutoriale, vizualizări, resurse, recomandări de carte și discuții pline de umor cu privire la provocările cu care se confruntă industria
- FiveThirtyEight – condusă de data-Wiz Nate Silver, oferă analize de date pe teme de știri populare în politică, cultură, sport și economie
- Edwin Chen – blogul auto-numit de la omul de știință de date de la Dropbox, acest blog oferă sfaturi practice pentru utilizarea algoritmilor și analizei
- Data Science săptămânal-pentru cele mai recente știri în știința datelor, acesta este ultimul buletin informativ prin e – mail
- fără bănuială gratuită (Kaggle) – găzduiește o serie de concursuri de modelare predictivă. Blog-ul lor de concurență și știința datelor, acoperă toate lucrurile legate de sportul științei datelor.
- SmartData Collective – o comunitate online moderată astăzi de Social Media care oferă informații despre cele mai recente tendințe în business intelligence, gestionarea datelor și colectarea datelor.
- KDnuggets – este o resursă cuprinzătoare pentru oricine cu un interes legitim în comunitatea științei datelor.
- date Elixir – este o mare roundup de știri de date pe web, puteți obține un rezumat săptămânal trimis direct la mesajele primite.
influenți de date
- Marcus Borba (CTO Spark) – feedul său este stivuit cu vizualizări ale unor concepte complexe precum Internetul Lucrurilor (IoT) și mai multe încarnări ale NoSQL
- Lillian Pierson (Autor, Data Science for Dummies) – se leagă de o mulțime de articole informative, de la clipuri de știri despre cele mai recente companii care profită de date mari, până la postări de la influențatori atât în știința datelor, cât și în spațiul de afaceri
- Kirk borne (principal Data Scientist la boozallen) – postări și retweets link-uri către articole fascinante despre Big Data and data science
- 40 data mavericks Sub 40 de ani – această listă cuprinde cine este cine dintre cei strălucitori și inovatori în date și startup – uri
conferințe de date
- Strata + Hadoop World-New York, NY (Sept. 29-Oct. 1) – se concentrează în special pe implicațiile Big Data asupra afacerilor mari.
- Extract – San Francisco, CA (30 octombrie) – reunind peste 600 dintre cele mai strălucite minți din știința datelor pentru a combina hacking-ul de creștere cu analiza datelor pentru a vă echipa să fiți cel mai bun om de știință de date din domeniu.
- Big Data Tech CON 2015 – Chicago, IL (noiembrie 2 -4) – un important „cum să” pentru utilizarea de date mari, care se va dovedi a fi foarte instructiv în modul în care noile întreprinderi să ia pe date mari.
- Big Data Bootcamp – Tampa, FL (7-9 decembrie) – o experiență intensivă, prietenoasă pentru începători, practică, care vă cufundă în lumea Big Data
- Big Data Innovation Summit-Las Vegas, NV (21-22 ianuarie)-auziți de la Hershey, Netflix și Departamentul de Securitate Internă despre exact cum puteți face datele dvs. acționabile și eficiente.
- Data Summit 2016 – New York, NY (9-11 mai) – reunește agenții guvernamentale, instituții publice și companii de vârf pentru a valorifica noile tehnologii și strategii pentru încorporarea în continuare a datelor în experiența dvs. de zi cu zi.
cursuri de date
- Udemy – gratuit și plătit pentru cursuri online pentru a vă învăța tot ce trebuie să știți
- Code School – aflați codificarea online urmând aceste tutoriale simple pas cu pas și cursuri
- decodate – introducere esențială în cod care deblochează potențialul imens al lumii digitale
- Data Camp – construiți o bază solidă în știința datelor și consolidați-vă abilitățile de programare R.
- Coursera – parteneriat cu universități și organizații de top pentru a oferi cursuri online
- W3schools – are tutoriale online excelente pentru învățarea abilităților de bază de codare și analiză a datelor.
instrumente de date
- OpenRefine – un software de curățare a datelor care vă permite să pre-procesați datele pentru analiză.
- WolframAlpha – oferă răspunsuri detaliate la căutările tehnice și face calcule foarte complexe. Pentru utilizatorii de afaceri, prezintă diagrame și grafice de informații și este excelent pentru istoricul prețurilor la nivel înalt, informații despre mărfuri și prezentări generale ale subiectelor.
- Import.io is vă permite să transformați datele nestructurate afișate pe paginile web în tabele structurate de date care pot fi accesate printr-un API.
- Trifacta – curățați și certați datele fișierelor& baze de date pe care nu le – ați putut gestiona în excel, cu instrumente statistice ușor de utilizat
- Tableau-un instrument de vizualizare care vă permite să vă uitați ușor la datele dvs. în moduri noi.
- Google Fusion Tables – un instrument versatil pentru analiza datelor, vizualizare mare set de date și de cartografiere.
- Blockspring – obțineți date live, Creați hărți interactive, obțineți imagini street view, rulați recunoașterea imaginilor și salvați în Dropbox cu acest plugin Google Sheets
- Plot.ly – vizualizați – vă datele într – un mod ușor pentru a vedea rapid tendințele și perspectivele
- Luminoso-identificați relațiile dintre cuvintele cheie și conceptele din setul dvs. de date și obțineți informații despre percepția produsului
- BigML-construiți un model al pieței dvs., cu toate variabilele precum prețurile, caracteristicile produsului și geografia