Hva er data, og hvorfor er det viktig?

*Opprinnelig publisert 16.September 2015. Oppdatert 28. juni 2018

Data-en samling fakta (tall, ord, målinger, observasjoner osv.) som har blitt oversatt til et skjema som datamaskiner kan behandle

Uansett hvilken bransje du jobber i, eller hva dine interesser, vil du nesten helt sikkert ha kommet over en historie om hvordan «data» endrer ansiktet til vår verden. Det kan være en del av en studie som bidrar til å kurere en sykdom, øke selskapets inntekter, gjøre en bygning mer effektiv eller være ansvarlig for de målrettede annonsene du ser.

generelt er data bare et annet ord for informasjon. Men i databehandling og næringsliv (det meste av det du leser om i nyhetene når det gjelder data – spesielt hvis det handler Om Store Data), refererer data til informasjon som er maskinlesbar i motsetning til menneskelig lesbar.

Mennesker vs Maskiner

Lesbar (også kjent som ustrukturerte data) refererer til informasjon som bare mennesker kan tolke og studere, for eksempel et bilde eller betydningen av en tekstblokk. Hvis det krever at en person tolker det, er denne informasjonen menneskelig lesbar.

Maskinlesbare (eller strukturerte data) refererer til informasjon som dataprogrammer kan behandle. Et program er et sett med instruksjoner for å manipulere data. Og når vi tar data og bruker et sett med programmer, får vi programvare. For at et program skal kunne utføre instruksjoner om data, må dataene ha en slags ensartet struktur.

FOR eksempel, DEN AMERIKANSKE Marineoffiseren Matthew Maury, snudde år med gamle håndskrevne fraktlogger (lesbar for mennesker) til en stor samling av koordinatruter (maskinlesbar). Han var da i stand til å behandle disse rutene i hopetall for å redusere den gjennomsnittlige sjøreisen med 33%.

Data i nyhetene

når det gjelder hvilke typer strukturerte data Som finnes I Forbes-artikler og McKinsey-rapporter, er Det noen forskjellige typer som pleier å få mest oppmerksomhet…

Personopplysninger

Personopplysninger er alt som er spesifikt for deg. Den dekker din demografi, din plassering, din e-postadresse og andre identifiserende faktorer. Det er vanligvis i nyhetene når det blir lekket (Som Ashley Madison-skandalen) eller blir brukt på en kontroversiell måte (Når Uber jobbet ut hvem som hadde en affære).

Mange forskjellige selskaper samler inn dine personlige data( spesielt sosiale medier), når du må legge inn din e-postadresse eller kredittkortdetaljer, gir du bort dine personlige data. Ofte bruker de disse dataene til å gi deg personlige forslag for å holde deg engasjert. Facebook bruker for eksempel din personlige informasjon til å foreslå innhold du kanskje har lyst til å se basert på hva andre mennesker som ligner på deg.

i tillegg blir personopplysninger samlet (for å depersonalisere dem noe) og deretter solgt til andre selskaper, hovedsakelig for reklame og konkurransedyktige forskningsformål. Det er en av måtene du får målrettede annonser og innhold fra selskaper du aldri har hørt om.

Transaksjonsdata

Transaksjonsdata er alt som krever en handling å samle inn. Du kan klikke på en annonse, foreta et kjøp, besøke en bestemt nettside, etc.

Stort sett hvert nettsted du besøker samler transaksjonsdata av noe slag, Enten Gjennom Google Analytics, et annet 3. partysystem eller sitt eget interne datafangst system.

Transaksjonsdata er utrolig viktig for bedrifter fordi Det hjelper dem med å avsløre variabilitet og optimalisere driften for resultater av høyeste kvalitet. Ved å undersøke store mengder data, er det mulig å avdekke skjulte mønstre og sammenhenger. Disse mønstrene kan skape konkurransefortrinn, og resultere i forretningsfordeler som mer effektiv markedsføring og økte inntekter.

Webdata

Webdata er et samlebegrep som refererer til alle typer data du kan trekke fra internett, enten du skal studere for forskningsformål eller på annen måte. Det kan være data om hva konkurrentene dine selger, publiserte regjeringsdata, fotballpoeng, etc. Det er en catchall for alt du kan finne på nettet som er offentlig vendt (dvs. ikke lagret i noen intern database). Å studere disse dataene kan være veldig informativ, spesielt når det kommuniseres godt til ledelsen.

Webdata er viktig fordi det er en av de viktigste måtene bedrifter kan få tilgang til informasjon som ikke genereres av seg selv. Når bedrifter skal skape kvalitetsmodeller og ta viktige BI-beslutninger, trenger de informasjon om hva som skjer internt og eksternt i organisasjonen og hva som skjer i det bredere markedet.

Webdata kan brukes til å overvåke konkurrenter, spore potensielle kunder, holde oversikt over kanalpartnere, generere potensielle kunder, bygge apper og mye mer. Det er bruker fortsatt blir oppdaget som teknologien for å snu ustrukturerte data til strukturerte data forbedrer.

Webdata kan samles inn ved å skrive webskraper for å samle det, ved hjelp av et skrapeverktøy, eller ved å betale en tredjepart for å gjøre skrapingen for deg. En webskraper er et dataprogram som tar EN URL som en inngang og trekker dataene ut i et strukturert format-vanligvis EN JSON-feed eller CSV.

Sensordata

Sensordata er produsert av objekter og blir ofte referert til Som Tingenes Internett. Den dekker alt fra smartklokken som måler pulsen din til en bygning med eksterne sensorer som måler været.

så langt har sensordata for det meste blitt brukt til å optimalisere prosesser. For Eksempel sparte AirAsia $ 30-50 millioner ved Å bruke ge-sensorer og teknologi for å redusere driftskostnadene og øke bruken av fly. Ved å måle hva som skjer rundt dem, kan maskiner gjøre smarte endringer for å øke produktiviteten og varsle folk når de har behov for vedlikehold.

Når blir Data Big Data?

Teknisk sett bidrar Alle datatypene ovenfor Til Store Data. Det er ingen offisiell størrelse som gjør data «store». Begrepet representerer bare den økende mengden og de varierte datatypene som nå samles inn som en del av datainnsamlingen.

etter hvert som mer og mer av verdens informasjon beveger seg på nettet og blir digitalisert, betyr det at analytikere kan begynne å bruke den som data. Ting som sosiale medier, elektroniske bøker, musikk, videoer og den økte mengden sensorer har alle lagt til den forbløffende økningen i mengden data som har blitt tilgjengelig for analyse.

det som skiller Big Data fra de «vanlige dataene» vi analyserte før, er at verktøyene vi bruker til å samle inn, lagre og analysere det, har måttet endres for å imøtekomme økningen i størrelse og kompleksitet. Med de nyeste verktøyene på markedet, trenger vi ikke lenger å stole på prøvetaking. I stedet kan vi behandle datasett i sin helhet og få et langt mer komplett bilde av verden rundt oss.

betydningen av datainnsamling

datainnsamling skiller seg fra datautvinning ved at det er en prosess der data samles inn og måles. Alt dette må gjøres før forskning av høy kvalitet kan begynne og svar på dvelende spørsmål kan bli funnet. Datainnsamling gjøres vanligvis med programvare, og det er mange forskjellige datainnsamlingsprosedyrer, strategier og teknikker. Mest datainnsamling er sentrert på elektroniske data, og siden denne typen datainnsamling omfatter så mye informasjon, krysser den vanligvis inn i riket av store data.

så hvorfor er datainnsamling viktig? Det er gjennom datainnsamling at en bedrift eller ledelse har den kvalitetsinformasjonen de trenger for å ta informerte beslutninger fra videre analyse, studier og forskning. Uten datainnsamling ville selskaper snuble rundt i mørket ved hjelp av utdaterte metoder for å ta sine beslutninger. Datainnsamling i stedet tillater dem å holde seg på toppen av trender, gi svar på problemer, og analysere ny innsikt til stor effekt.

den mest sexy jobben i det 21. århundre?

etter datainnsamling må alle dataene behandles, undersøkes og tolkes av noen før de kan brukes til innsikt. Uansett hva slags data du snakker om, er noen vanligvis en datavitenskapsmann.

dataforskere er nå en av de mest ettertraktede stillingene. En Tidligere exec På Google gikk selv så langt som å kalle Det «sexiest job of the 21st century».

for å bli datavitenskapsmann trenger du et solid fundament i datavitenskap, modellering, statistikk, analyse og matematikk. Det som skiller dem fra tradisjonelle jobbtitler er en forståelse av forretningsprosesser og en evne til å kommunisere kvalitetsfunn til både bedriftsledelse og IT-ledere på en måte som kan påvirke hvordan en organisasjon nærmer seg en forretningsutfordring og svarer på problemer underveis.

dataressurser

hvis du er interessert i å lære mer om big data, datainnsamling, eller ønsker å begynne å dra nytte av alt det har å tilby, sjekk ut disse bloggene, arrangementer, selskaper og mer.

data blogger

  • Flytende Data-drevet Av Dr. Nathan Yau, PhD, den har opplæringsprogrammer, visualiseringer, ressurser, bokanbefalinger og humoristiske diskusjoner om utfordringer som bransjen står overfor
  • FiveThirtyEight – drevet av data-wiz Nate Silver, den tilbyr dataanalyse på populære nyhetsemner i politikk, kultur, sport og økonomi
  • Edwin Chen – den selvbetegnede bloggen fra head data scientist på Dropbox, denne bloggen tilbyr praktiske tips for bruk av algoritmer og analyse
  • Data science Weekly-for de siste nyhetene i data science, er dette den ultimate nyhetsbrev
  • ingen gratis anelse (kaggle) – vert for en rekke prediktiv modellering konkurranser. Deres konkurranse-og datavitenskapsblogg dekker alle ting relatert til datavitenskapens sport.
  • SmartData Collective – Et nettsamfunn moderert Av Sosiale Medier I Dag som gir informasjon om de nyeste trendene innen business intelligence, datahåndtering og datainnsamling.
  • KDnuggets-Er en omfattende ressurs for alle med en egeninteresse i data science samfunnet.
  • Data Elixir-Er en stor roundup av data nyheter over nettet, kan du få en ukentlig sammendrag sendt rett til innboksen din.

data influencers

  • Marcus Borba (CTO Spark) – hans feed er stablet med visualiseringer av komplekse konsepter Som Tingenes Internett (Iot) Og flere inkarnasjoner Av NoSQL
  • Lillian Pierson (Forfatter, Data Science For Dummies) – hun lenker til en mengde informative artikler, fra nyhetsklipp på de nyeste selskapene som utnytter Store Data, til nyttig blogg innlegg fra influencers i både datavitenskap og næringsliv
  • kirk borne (principal data scientist ved boozallen) – Innlegg OG Retweets LENKER Til Fascinerende artikler om Big Data og datavitenskap
  • 40 data mavericks under 40 – denne listen omfatter hvem som er hvem av de lyse og innovative i data og oppstart

datakonferanser

  • Strata + Hadoop World – New York, NY (September. 29-Oktober. 1) – fokuserer spesielt På Big Data implikasjoner på big business.
  • Utdrag-San Francisco, CA (30. oktober) – samler mer enn 600 av de beste sinnene i datavitenskap for å kombinere veksthacking med dataanalyse for å utstyre deg til å være den beste datavitenskaperen på feltet.
  • Big Data Tech Con 2015-Chicago, IL (November 2 -4) – en stor «hvordan» For Big data bruk som vil vise seg å være svært lærerikt i hvordan nye bedrifter tar På Store Data.
  • Big Data Bootcamp-Tampa, FL – desember 7-9) – en intensiv, nybegynnervennlig, praktisk opplæringsopplevelse Som fordyper deg i Verden Av Store Data
  • Big Data Innovation Summit – Las Vegas, NV (januar 21-22) – Hør fra slike Som Hershey, Netflix og Department Of Homeland Security på nøyaktig hvordan du kan gjøre dataene dine handlingsbare og effektive.
  • Data Summit 2016-New York, NY (9. -11. Mai) – samler offentlige etater, offentlige institusjoner og ledende bedrifter for å utnytte ny teknologi og strategier for ytterligere å inkorporere data i din daglige opplevelse.

datakurs

  • Udemy – gratis og betalt for online kurs for å lære deg alt du trenger å vite
  • Kodeskole – lær koding på nettet ved å følge disse enkle trinnvise veiledningene og kursene
  • Dekodet – viktig introduksjon til kode som låser opp det enorme potensialet i den digitale verden
  • Datakamp – bygg et solid fundament i datavitenskap, og styrke dine r-programmeringsevner.
  • Coursera-samarbeider med toppuniversiteter og organisasjoner for å tilby kurs på nettet
  • W3schools-har gode online opplæringsprogrammer for å lære grunnleggende koding og dataanalyse ferdigheter.

data tools

  • OpenRefine-en data rengjøring programvare som lar deg pre-behandle dine data for analyse.
  • WolframAlpha-gir detaljerte svar på tekniske søk og gjør svært komplekse beregninger. For bedriftsbrukere presenterer den informasjonsdiagrammer og grafer, og er utmerket for prishistorikk på høyt nivå, råvareinformasjon og emneoversikt.
  • Import.io is lar deg slå ustrukturerte data som vises på nettsider i strukturerte tabeller med data som kan nås via EN API.
  • Trifacta – ren og krangle data av filer & databaser du ikke kunne håndtere i excel, med enkle å bruke statistiske verktøy
  • Tableau – et visualiseringsverktøy som gjør det enkelt å se på dataene dine på nye måter.
  • Google Fusion Tables-et allsidig verktøy for dataanalyse, store datasett visualisering og kartlegging.
  • Blockspring-få live data, lage interaktive kart, få street view-bilder, kjøre bildegjenkjenning, og lagre Til Dropbox med Denne Google Sheets plugin
  • Plot.se trender og innsikt
  • Luminoso-identifiser forholdet mellom søkeord og konsepter i datasettet ditt og få innsikt om produktoppfattelse
  • BigML-Bygg en modell av markedet ditt, med alle variablene som priser, produktfunksjoner og geografi