Hvad er data, og hvorfor er det vigtigt?

*oprindeligt udgivet den 16. September 2015. Opdateret den 28. juni 2018

Data – en samling af fakta (tal, ord, målinger, observationer osv.), Der er blevet oversat til en form, som computere kan behandle

uanset hvilken branche du arbejder i, eller hvad dine interesser er, vil du næsten helt sikkert have stødt på en historie om, hvordan “data” ændrer vores Verdens ansigt. Det kan være en del af en undersøgelse, der hjælper med at helbrede en sygdom, øge en virksomheds indtægter, gøre en bygning mere effektiv eller være ansvarlig for de målrettede annoncer, du bliver ved med at se.

generelt er data simpelthen et andet ord for information. Men inden for computing og forretning (det meste af det, du læser om i nyhederne, når det kommer til data – især hvis det handler om Big Data), henviser data til information, der er maskinlæsbar i modsætning til menneskelig læsbar.

Mennesker vs maskiner

menneskelæsbar (også kendt som ustrukturerede data) henviser til information, som kun mennesker kan fortolke og studere, såsom et billede eller betydningen af en tekstblok. Hvis det kræver, at en person fortolker det, er denne information menneskelig læsbar.

maskinlæsbare (eller strukturerede data) henviser til oplysninger, som computerprogrammer kan behandle. Et program er et sæt instruktioner til manipulation af data. Og når vi tager data og anvender et sæt programmer, får vi programmer. For at et program kan udføre instruktioner om data, skal disse data have en slags ensartet struktur.

for eksempel forvandlede den amerikanske flådeofficer Matthæus Maury år med gamle håndskrevne skibslogfiler (menneskelæsbare) til en stor samling koordinatruter (maskinlæsbare). Han var derefter i stand til at behandle disse ruter en masse for at reducere den gennemsnitlige Flåderejse med 33%.

Data i nyhederne

når det kommer til de typer strukturerede data, der findes i Forbes-artikler og McKinsey-rapporter, er der et par forskellige typer, der har tendens til at få mest opmærksomhed…

personlige data

personlige data er noget, der er specifikt for dig. Det dækker din demografi, din placering, din e-mail-adresse og andre identificerende faktorer. Det er normalt i nyhederne, når det bliver lækket (som Ashley Madison-skandalen) eller bliver brugt på en kontroversiel måde (da Uber arbejdede ud, hvem der havde en affære).

mange forskellige virksomheder indsamler dine personlige data (især sociale mediesider), når som helst du skal indtaste din e-mail-adresse eller kreditkortoplysninger, giver du dine personlige data væk. Ofte bruger de disse data til at give dig personlige forslag til at holde dig engageret. Facebook bruger for eksempel dine personlige oplysninger til at foreslå indhold, du måske gerne vil se, baseret på hvad andre mennesker, der ligner dig, kan lide.

derudover aggregeres personoplysninger (for at depersonalisere dem noget) og sælges derefter til andre virksomheder, hovedsagelig til reklame og konkurrencedygtige forskningsformål. Det er en af måderne, du får målrettede annoncer og indhold fra virksomheder, du aldrig engang har hørt om.

transaktionsdata

transaktionsdata er alt, hvad der kræver en handling for at indsamle. Du kan klikke på en annonce, foretage et køb, besøge en bestemt hjemmeside osv.

stort set hver hjemmeside du besøger indsamler transaktionsdata af en slags, enten via Google Analytics, et andet 3.parts system eller deres eget interne datafangstsystem.

transaktionsdata er utroligt vigtige for virksomheder, fordi det hjælper dem med at afsløre variabilitet og optimere deres operationer til resultater af højeste kvalitet. Ved at undersøge store mængder data er det muligt at afdække skjulte mønstre og sammenhænge. Disse mønstre kan skabe konkurrencemæssige fordele og resultere i forretningsfordele som mere effektiv markedsføring og øget omsætning.

internetdata

internetdata er et kollektivt udtryk, der refererer til enhver type data, du måtte trække fra internettet, hvad enten du skal studere til forskningsformål eller på anden måde. Det kan være data om, hvad dine konkurrenter sælger, offentliggjorte regeringsdata, fodboldresultater osv. Det er et catchall for alt, hvad du kan finde på nettet, der er offentligt overfor (dvs.ikke gemt i en intern database). At studere disse data kan være meget informativt, især når det kommunikeres godt til ledelsen.

internetdata er vigtige, fordi det er en af de vigtigste måder, hvorpå virksomheder kan få adgang til oplysninger, der ikke genereres af dem selv. Når virksomheder skaber forretningsmodeller af høj kvalitet og træffer vigtige BI-beslutninger, har de brug for information om, hvad der sker internt og eksternt i deres organisation, og hvad der sker på det bredere marked.

internetdata kan bruges til at overvåge konkurrenter, spore potentielle kunder, holde styr på kanalpartnere, generere kundeemner, opbygge apps og meget mere. Dens anvendelser opdages stadig, da teknologien til at omdanne ustrukturerede data til strukturerede data forbedres.

data kan indsamles ved at skrive skrabere til at indsamle det, ved hjælp af et skrabeværktøj eller ved at betale en tredjepart for at gøre skrabningen for dig. En internetskraber er et computerprogram, der tager en URL som input og trækker dataene ud i et struktureret format – normalt et JSON-feed eller CSV.

sensordata

sensordata produceres af objekter og kaldes ofte Internet of Things. Det dækker alt fra dit smartur, der måler din puls til en bygning med eksterne sensorer, der måler vejret.

indtil videre er sensordata for det meste blevet brugt til at hjælpe med at optimere processer. For eksempel sparede AirAsia $30-50 millioner ved at bruge GE-sensorer og teknologi til at reducere driftsomkostningerne og øge flyforbruget. Ved at måle, hvad der sker omkring dem, kan maskiner foretage smarte ændringer for at øge produktiviteten og advare folk, når de har brug for vedligeholdelse.

Hvornår bliver data til Big Data?

teknisk set bidrager alle typer data ovenfor til Big Data. Der er ingen officiel størrelse, der gør data “store”. Udtrykket repræsenterer simpelthen den stigende mængde og de forskellige typer data, der nu indsamles som en del af dataindsamlingen.

efterhånden som mere og mere af verdens information bevæger sig online og bliver digitaliseret, betyder det, at analytikere kan begynde at bruge den som data. Ting som sociale medier, online bøger, musik, videoer og den øgede mængde sensorer har alle Tilføjet den forbløffende stigning i mængden af data, der er blevet tilgængelig til analyse.

det, der adskiller Big Data fra de “almindelige data”, vi analyserede før, er, at de værktøjer, vi bruger til at indsamle, gemme og analysere dem, har været nødt til at ændre sig for at imødekomme stigningen i størrelse og kompleksitet. Med de nyeste værktøjer på markedet behøver vi ikke længere stole på prøveudtagning. I stedet kan vi behandle datasæt i deres helhed og få et langt mere komplet billede af verden omkring os.

betydningen af dataindsamling

dataindsamling adskiller sig fra data mining, idet det er en proces, hvor data indsamles og måles. Alt dette skal gøres, før forskning af høj kvalitet kan begynde, og svar på langvarige spørgsmål kan findes. Dataindsamling sker normalt med programmer, og der er mange forskellige dataindsamlingsprocedurer, strategier og teknikker. De fleste dataindsamling er centreret om elektroniske data, og da denne type dataindsamling omfatter så meget information, krydser den normalt ind i Big data.

så hvorfor er dataindsamling vigtig? Det er gennem dataindsamling, at en virksomhed eller ledelse har de kvalitetsoplysninger, de har brug for til at træffe informerede beslutninger fra yderligere analyse, undersøgelse og forskning. Uden dataindsamling ville virksomheder snuble rundt i mørket ved hjælp af forældede metoder til at træffe deres beslutninger. Dataindsamling giver dem i stedet mulighed for at holde øje med tendenser, give svar på problemer og analysere ny indsigt med stor effekt.

det kønneste job i det 21. århundrede?

efter dataindsamling skal alle disse data behandles, undersøges og fortolkes af nogen, før de kan bruges til indsigt. Uanset hvilken slags data du taler om, at nogen normalt er dataforsker.

dataforskere er nu en af de mest efterspurgte stillinger. En tidligere direktør hos Google gik endda så langt som at kalde det det “kønneste job i det 21.århundrede”.

for at blive dataforsker har du brug for et solidt fundament inden for datalogi, modellering, statistik, analyse og matematik. Hvad der adskiller dem fra traditionelle jobtitler er en forståelse af forretningsprocesser og en evne til at kommunikere kvalitetsresultater til både virksomhedsledelse og IT-ledere på en måde, der kan påvirke, hvordan en organisation nærmer sig en forretningsudfordring og besvare problemer undervejs.

dataressourcer

hvis du er interesseret i at lære mere om big data, dataindsamling eller vil begynde at drage fordel af alt, hvad den har at tilbyde, så tjek disse blogs, begivenheder, virksomheder og mere.

data blogs

  • flydende Data – drevet af Dr. Nathan Yau, ph. d., Det har tutorials, visualiseringer, ressourcer, boganbefalinger og humoristiske diskussioner om udfordringer, som branchen står over for
  • FiveThirtyEight – drevet af data-troldmand Nate Silver, Det tilbyder dataanalyse om populære nyhedsemner inden for politik, kultur, sport og økonomi
  • Edvin Chen – den selvnavnede blog fra hoveddataforskeren ved Dropboks, denne blog tilbyder hånd-på-tip til brug af algoritmer og analyse
  • Data Science Ugentlig – for de seneste nyheder i Data Science, dette er den ultimative e-mail nyhedsbrev
  • ingen gratis fornemmelse (Kaggle) – er vært for en række forudsigelige modelleringskonkurrencer. Deres konkurrence-og datavidenskabsblog dækker alle ting, der er relateret til sporten inden for datalogi.
  • SmartData Collective – et online community modereret af sociale medier i dag, der giver information om de nyeste tendenser inden for business intelligence, datastyring og dataindsamling.
  • KDnuggets – er en omfattende ressource for alle med en interesse i datalogi samfund.
  • Data eliksir – er en stor roundup af data nyheder på tværs af nettet, kan du få en ugentlig digest sendt direkte til din indbakke.

data influencers

  • Marcus Borba (CTO Spark) – hans feed er stablet med visualiseringer af komplekse begreber som tingenes Internet (IoT) og flere inkarnationer af Noskl
  • Lillian Pierson (forfatter, Data Science For Dummies) – hun linker til et væld af informative artikler, fra nyhedsklip om de nyeste virksomheder, der drager fordel af Big Data, til hjælpsom blog posts from influencers in både data science and business space
  • Kirk borne – indlæg og genudsendelser links til fascinerende artikler om Big Data and data science
  • 40 data mavericks under 40 – denne liste omfatter hvem der er hvem af de lyse og innovative i data og startups

datakonferencer

  • Strata + Hadoop verden – Ny York, NY (Sept. 29-okt. 1) – fokuserer specifikt på Big Data ‘ s konsekvenser for big business.
  • Uddrag – San Francisco, CA (Oktober 30) – samler mere end 600 af de bedste sind inden for datalogi for at kombinere væksthacking med dataanalyse for at udstyre dig til at være den bedste dataforsker på området.
  • Big Data Tech Con 2015 – Chicago, IL (November 2 -4) – en stor “Hvordan” til Big Data brug, der vil vise sig at være meget lærerigt i, hvordan nye virksomheder tager på Big Data.
  • Big Data Bootcamp – Tampa, FL (December 7-9) – en intensiv, begyndervenlig, praktisk træningsoplevelse, der fordyber dig i en verden af Big Data
  • Big Data Innovation Summit-Las Vegas, NV (Januar 21-22)-Hør fra folk som Hershey, Netflick og Department of Homeland Security om nøjagtigt, hvordan du kan gøre dine data handlingsbare og effektive.
  • Data Summit 2016 – Ny (Maj 9-11) – samler offentlige myndigheder, offentlige institutioner og førende virksomheder til at udnytte nye teknologier og strategier til yderligere at inkorporere data i din daglige oplevelse.

Datakurser

  • Udemy – gratis og betalt for onlinekurser for at lære dig alt hvad du har brug for at vide
  • Kodeskole – Lær kodning online ved at følge disse enkle trinvise vejledninger og kurser
  • afkodet – væsentlig introduktion til kode, der låser op for det enorme potentiale i den digitale verden
  • Data Camp – byg et solidt fundament inden for datalogi, og styrk dine r-programmeringsevner.
  • Coursera – partnerskab med topuniversiteter og organisationer for at tilbyde kurser online
  • V3skoler – har gode online tutorials til at lære grundlæggende kodnings-og dataanalysefærdigheder.

dataværktøjer

  • OpenRefine – et datarengøringsprogram, der giver dig mulighed for at forbehandle dine data til analyse.
  • Volframalpha – giver detaljerede svar på tekniske søgninger og gør meget komplekse beregninger. For forretningsbrugere præsenterer den informationsdiagrammer og grafer og er fremragende til prishistorik på højt niveau, råvareinformation og emneoversigter.
  • Import.io is giver dig mulighed for at omdanne de ustrukturerede data, der vises på hjemmesider, til strukturerede datatabeller, som du kan få adgang til via en API.
  • Trifacta – rengør og krangel data af filer & databaser, du ikke kunne håndtere, med brugervenlige statistiske værktøjer
  • Tableau – et visualiseringsværktøj, der gør det nemt at se på dine data på nye måder.
  • Google Fusion Tables – et alsidigt værktøj til dataanalyse, stor datasæt visualisering og kortlægning.
  • Blockspring – få live data, Opret interaktive kort, få gadevisningsbilleder, Kør billedgenkendelse og gem i Dropboks med dette Google Sheets plugin
  • Plot.ly-Visualiser dine data på en nem måde for hurtigt at se trends og indsigter
  • Luminoso – Identificer forholdet mellem nøgleord og koncepter i dit datasæt og få indsigt i produktopfattelse
  • BigML – Opbyg en model af dit marked med alle variabler som prisfastsættelse, produktfunktioner og geografi