Vad är data och varför är det viktigt?
*ursprungligen publicerad den 16 September 2015. Uppdaterad Juni 28th, 2018
Data – en samling fakta (siffror, ord, mätningar, observationer, etc) som har översatts till en form som datorer kan bearbeta
oavsett bransch du arbetar i, eller vad dina intressen, kommer du nästan säkert att ha stött på en historia om hur ”data” förändrar vår värld. Det kan vara en del av en studie som hjälper till att bota en sjukdom, öka företagets intäkter, göra en byggnad effektivare eller vara ansvarig för de riktade annonserna du fortsätter att se.
i allmänhet är data helt enkelt ett annat ord för information. Men i datorer och affärer (det mesta av det du läser om i nyheterna när det gäller data – särskilt om det handlar om stora Data) hänvisar data till information som är maskinläsbar i motsats till läsbar.
människor vs maskiner
läsbar (även känd som ostrukturerad data) hänvisar till information som bara människor kan tolka och studera, till exempel en bild eller betydelsen av ett textblock. Om det kräver att en person ska tolka den, är den informationen läsbar för människor.
maskinläsbar (eller strukturerad data) avser information som datorprogram kan bearbeta. Ett program är en uppsättning instruktioner för att manipulera data. Och när vi tar data och tillämpar en uppsättning program får vi programvara. För att ett program ska kunna utföra instruktioner om data måste dessa data ha någon form av enhetlig struktur.
till exempel, US Naval Officer Matthew Maury, förvandlade år av gamla handskrivna fraktloggar (läsbara för människor) till en stor samling koordinatvägar (maskinläsbara). Han kunde sedan bearbeta dessa rutter massor för att minska den genomsnittliga sjöresan med 33%.
Data i nyheterna
när det gäller de typer av strukturerad data som finns i Forbes artiklar och McKinsey rapporter, Det finns några olika typer som tenderar att få mest uppmärksamhet…
personuppgifter
personuppgifter är något som är specifikt för dig. Det täcker din demografi, din plats, din e-postadress och andra identifierande faktorer. Det är vanligtvis i nyheterna när det blir läckt (som Ashley Madison-skandalen) eller används på ett kontroversiellt sätt (när Uber utarbetade vem som hade en affär).
massor av olika företag samlar in dina personuppgifter (särskilt sociala medier), när som helst du måste lägga in din e-postadress eller kreditkortsuppgifter som du ger bort dina personuppgifter. Ofta kommer de att använda dessa data för att ge dig personliga förslag för att hålla dig engagerad. Facebook använder till exempel din personliga information för att föreslå innehåll som du kanske vill se baserat på vad andra som liknar dig gillar.
dessutom aggregeras personuppgifter (för att depersonalisera det något) och säljs sedan till andra företag, främst för reklam och konkurrenskraftiga forskningsändamål. Det är ett av sätten att få riktade annonser och innehåll från företag som du aldrig ens hört talas om.
transaktionsdata
transaktionsdata är allt som kräver en åtgärd för att samla in. Du kan klicka på en annons, göra ett köp, besöka en viss webbsida, etc.
nästan varje webbplats du besöker samlar transaktionsdata av något slag, antingen via Google Analytics, ett annat 3: e parts system eller sitt eget interna datafångningssystem.
transaktionsdata är oerhört viktigt för företag eftersom det hjälper dem att exponera variabilitet och optimera sin verksamhet för högsta kvalitet resultat. Genom att undersöka stora mängder data är det möjligt att avslöja dolda mönster och korrelationer. Dessa mönster kan skapa konkurrensfördelar och resultera i affärsfördelar som effektivare marknadsföring och ökade intäkter.
webbdata
webbdata är en kollektiv term som hänvisar till alla typer av data du kan hämta från internet, oavsett om du ska studera för forskningsändamål eller på annat sätt. Det kan vara data om vad dina konkurrenter säljer, publicerade statliga data, fotbollsresultat etc. Det är en catchall för allt du kan hitta på webben som är offentligt vänd (dvs inte lagrad i någon intern databas). Att studera dessa data kan vara mycket informativt, särskilt när det kommuniceras bra till ledningen.
webbdata är viktigt eftersom det är ett av de viktigaste sätten företag kan få tillgång till information som inte genereras av sig själva. När man skapar affärsmodeller av hög kvalitet och fattar viktiga BI-beslut behöver företag information om vad som händer internt och externt inom sin organisation och vad som händer på den bredare marknaden.
webbdata kan användas för att övervaka konkurrenter, spåra potentiella kunder, hålla reda på kanalpartners, generera leads, bygga appar och mycket mer. Dess användningsområden upptäcks fortfarande eftersom tekniken för att förvandla ostrukturerad data till strukturerad data förbättras.
webbdata kan samlas in genom att skriva webbskrapor för att samla in det, använda ett skrapverktyg eller genom att betala en tredje part för att göra skrapningen åt dig. En webbskrapa är ett datorprogram som tar en URL som ingång och drar ut data i ett strukturerat format – vanligtvis ett JSON-flöde eller CSV.
sensordata
sensordata produceras av objekt och kallas ofta sakernas Internet. Det täcker allt från din smartwatch som mäter din hjärtfrekvens till en byggnad med externa sensorer som mäter vädret.
hittills har sensordata mest använts för att optimera processer. Till exempel sparade AirAsia 30-50 miljoner dollar genom att använda ge-sensorer och teknik för att minska driftskostnaderna och öka flygplansanvändningen. Genom att mäta vad som händer runt omkring dem kan maskiner göra smarta förändringar för att öka produktiviteten och varna människor när de behöver underhåll.
när blir Data Big Data?
tekniskt sett bidrar alla typer av data ovan till Big Data. Det finns ingen officiell storlek som gör data ”stora”. Termen representerar helt enkelt den ökande mängden och de olika typerna av data som nu samlas in som en del av datainsamlingen.
när mer och mer av världens information rör sig online och blir digitaliserad betyder det att analytiker kan börja använda den som data. Saker som sociala medier, onlineböcker, musik, videor och den ökade mängden sensorer har alla lagt till den häpnadsväckande ökningen av mängden data som har blivit tillgänglig för analys.
det som skiljer Big Data från de ”vanliga data” som vi analyserade tidigare är att verktygen vi använder för att samla in, lagra och analysera den måste ändras för att tillgodose ökningen i storlek och komplexitet. Med de senaste verktygen på marknaden behöver vi inte längre lita på provtagning. Istället kan vi bearbeta datamängder i sin helhet och få en mycket mer fullständig bild av världen omkring oss.
betydelsen av datainsamling
datainsamling skiljer sig från datautvinning genom att det är en process genom vilken data samlas in och mäts. Allt detta måste göras innan högkvalitativ forskning kan börja och svar på långvariga frågor kan hittas. Datainsamling görs vanligtvis med programvara, och det finns många olika datainsamlingsprocedurer, strategier och tekniker. De flesta datainsamling är centrerad på elektroniska data, och eftersom denna typ av datainsamling omfattar så mycket information, passerar den vanligtvis in i Big data.
så varför är datainsamling viktigt? Det är genom datainsamling att ett företag eller en ledning har den kvalitetsinformation de behöver för att fatta välgrundade beslut från vidare analys, studier och forskning. Utan datainsamling skulle företag snubbla runt i mörkret med föråldrade metoder för att fatta sina beslut. Datainsamling ger dem istället möjlighet att hålla koll på trender, ge svar på problem och analysera nya insikter med stor effekt.
det sexigaste jobbet i det 21: a århundradet?
efter datainsamling måste all data behandlas, undersökas och tolkas av någon innan den kan användas för insikter. Oavsett vilken typ av data du pratar om, att någon vanligtvis är en datavetenskapare.
Dataforskare är nu en av de mest eftertraktade positionerna. En tidigare exec på Google gick till och med så långt som att kalla det ”det sexigaste jobbet i det 21: a århundradet”.
för att bli datavetare behöver du en solid grund inom datavetenskap, modellering, statistik, analys och matematik. Vad som skiljer dem från traditionella jobbtitlar är en förståelse för affärsprocesser och en förmåga att kommunicera kvalitetsresultat till både företagsledning och IT-ledare på ett sätt som kan påverka hur en organisation närmar sig en affärsutmaning och svarar på problem på vägen.
data resources
om du är intresserad av att lära dig mer om big data, datainsamling eller vill börja dra nytta av allt det har att erbjuda, kolla in dessa bloggar, evenemang, företag och mer.
data bloggar
- flödande Data – drivs av Dr. Nathan Yau, PhD, det har handledning, visualiseringar, resurser, bokrekommendationer och humoristiska diskussioner om utmaningar som branschen står inför
- FiveThirtyEight – drivs av data-wiz Nate Silver, det erbjuder dataanalys om populära nyhetsämnen inom politik, kultur, sport och ekonomi
- Edwin Chen – den självnamngivna bloggen från Head Data scientist på Dropbox, den här bloggen erbjuder hand-on tips för att använda algoritmer och analys
- Data Science Weekly-för de senaste nyheterna inom Data Science, är detta den ultimata nyhetsbrev
- ingen fri föraning (Kaggle) – värd för ett antal prediktiva modelleringstävlingar. Deras konkurrens-och datavetenskapsblogg täcker alla saker relaterade till datavetenskapens sport.
- SmartData Collective – en online-community modererad av sociala medier idag som ger information om de senaste trenderna inom business intelligence, datahantering och datainsamling.
- KDnuggets-är en omfattande resurs för alla med ett intresse för datavetenskapssamhället.
- Data Elixir-är en stor roundup av data nyheter över webben, kan du få en vecka digest skickas direkt till din inkorg.
data influencers
- Marcus Borba (CTO Spark) – hans flöde staplas med visualiseringar av komplexa begrepp som Internet of Things (IoT) och flera inkarnationer av NoSQL
- Lillian Pierson (författare, Data Science for Dummies) – hon länkar till en mängd informativa artiklar, från nyhetsklipp på de senaste företagen som utnyttjar Big Data, till hjälpsamma blogginlägg från influencers i både data science och business space
- Kirk borne (principal Data Scientist på boozallen) – inlägg och retweets länkar till fascinerande artiklar om Big Data och datavetenskap
- 40 data mavericks under 40 – denna lista omfattar vem som är vem av de ljusa och innovativa i data och startups
datakonferenser
- Strata + Hadoop World – New York, NY (Sept. 29-okt. 1) – fokuserar specifikt på Big Data konsekvenser för stora företag.
- Extract – San Francisco, CA (Oktober 30) – sammanföra mer än 600 av de bästa hjärnorna i datavetenskap för att kombinera tillväxthackning med dataanalys för att utrusta dig för att vara den bästa datavetenskapsmannen inom området.
- Big Data Tech Con 2015 – Chicago, IL (November 2 -4) – en stor ”hur” för Big Data Användning som kommer att visa sig vara mycket lärorikt i hur nya företag tar på Big Data.
- Big Data Bootcamp – Tampa, FL (December 7-9) – en intensiv, nybörjarvänlig, praktisk träningsupplevelse som fördjupar dig i Big Data-världen
- Big Data Innovation Summit-Las Vegas, NV (januari 21-22) – hör från sådana som Hershey, Netflix och Department of Homeland Security om exakt hur du kan göra dina data handlingsbara och effektiva.
- Data Summit 2016 – New York, NY (maj 9-11) – samlar myndigheter, offentliga institutioner och ledande företag för att utnyttja ny teknik och strategier för att ytterligare integrera data i din dagliga upplevelse.
datakurser
- Udemy – gratis och betalt för onlinekurser för att lära dig allt du behöver veta
- Kodskola – lär dig kodning online genom att följa dessa enkla stegvisa handledning och kurser
- avkodad – väsentlig introduktion till kod som låser upp den enorma potentialen i den digitala världen
- data Camp – bygg en solid grund i datavetenskap och stärka dina r-programmeringsfärdigheter.
- Coursera – samarbetar med högsta universitet och organisationer att erbjuda kurser på nätet
- W3schools – har stora online tutorials för att lära sig grundläggande kodning och dataanalys färdigheter.
dataverktyg
- OpenRefine – en datarengöringsprogramvara som låter dig förbehandla dina data för analys.
- WolframAlpha – ger detaljerade svar på tekniska sökningar och gör mycket komplexa beräkningar. För företagsanvändare presenterar den informationstabeller och grafer och är utmärkt för högnivåprishistorik, råvaruinformation och ämnesöversikter.
- Import.io med is kan du förvandla ostrukturerade data som visas på webbsidor till strukturerade tabeller med data som kan nås via ett API.
- Trifacta – ren och wrangle data av filer& databaser som du inte kunde hantera i excel, med lättanvända statistiska verktyg
- Tableau – ett visualiseringsverktyg som gör det enkelt att titta på dina data på nya sätt.
- Google Fusion Tables – ett mångsidigt verktyg för dataanalys, stor datamängd visualisering och kartläggning.
- Blockspring – få live-data, skapa interaktiva kartor, Få street view-bilder, kör bildigenkänning och spara till Dropbox med detta Google Sheets-plugin
- Plot.Ly-visualisera dina data på ett enkelt sätt att snabbt se trender och insikter
- Luminoso-identifiera relationerna mellan nyckelord och begrepp inom din datamängd och få insikt om produktuppfattning
- BigML-Bygg en modell av din marknad, med alla variabler som prissättning, produktegenskaper och geografi