Mitä data on ja miksi se on tärkeää?
*julkaistu alun perin 16. syyskuuta 2015. Päivitetty 28.6.2018
Data – kokoelma faktoja (numeroita, sanoja, mittauksia, havaintoja jne.), jotka on käännetty muotoon, että tietokoneet voivat käsitellä
riippumatta siitä, missä toimialassa työskentelet, tai mitä tahansa kiinnostuksen kohteitasi, olet lähes varmasti törmännyt tarinaan siitä, kuinka ”data” muuttaa maailmamme kasvoja. Se voi olla osa tutkimusta, joka auttaa parantamaan sairautta, lisäämään yrityksen tuloja, tekemään rakennuksesta tehokkaamman tai olemaan vastuussa niistä kohdistetuista mainoksista, joita näet jatkuvasti.
yleensä tieto on vain toinen sana tiedolle. Mutta tietotekniikassa ja liiketoiminnassa (suurin osa siitä, mitä uutisista lukee, kun on kyse datasta – varsinkin jos kyse on Big datasta), data viittaa tietoon, joka on koneellisesti luettavaa eikä ihmisen luettavaa.
ihmiset vs. koneet
ihmisen luettavissa oleva (myös jäsentämätön tieto) tarkoittaa tietoa, jota vain ihminen voi tulkita ja tutkia, kuten kuvaa tai tekstilohkon merkitystä. Jos se vaatii ihmistä tulkitsemaan sitä, se tieto on ihmisen luettavissa.
koneellisesti luettavalla (tai strukturoidulla) tiedolla tarkoitetaan tietoa, jota tietokoneohjelmat voivat käsitellä. Ohjelma on joukko ohjeita datan manipulointiin. Kun otamme dataa ja sovellamme ohjelmia, saamme ohjelmistoja. Jotta ohjelma voi suorittaa ohjeita datasta, sillä tiedolla täytyy olla jonkinlainen yhtenäinen rakenne.
esimerkiksi Yhdysvaltain laivastoupseeri Matthew Maury muutti vuosia vanhat käsin kirjoitetut laivapäiväkirjat (ihmisten luettavissa) suureksi kokoelmaksi koordinaattireittejä (koneellisesti luettavissa). Tämän jälkeen hän pystyi käsittelemään näitä reittejä joukoittain vähentääkseen laivaston keskimatkaa 33%.
tiedot uutisissa
Forbesin artikkeleissa ja McKinseyn raporteissa on muutamia erityyppisiä strukturoituja tietoja, jotka yleensä saavat eniten huomiota…
henkilötiedot
henkilötiedot ovat mitä tahansa sinulle erityistä. Se kattaa väestötiedot, sijaintisi, sähköpostiosoitteesi ja muut tunnistavat tekijät. Se on yleensä uutisissa, kun se vuotaa (kuten Ashley Madison-skandaali) tai sitä käytetään kiistanalaisella tavalla (kun Uber selvitti, kenellä oli suhde).
monet eri yritykset keräävät henkilökohtaisia tietojasi (erityisesti sosiaalisen median sivustot) aina, kun sinun on syötettävä sähköpostiosoitteesi tai luottokorttitietosi, jotka annat henkilökohtaisia tietojasi pois. Usein he käyttävät näitä tietoja tarjotakseen sinulle yksilöllisiä ehdotuksia pitääkseen sinut mukana. Facebook esimerkiksi käyttää henkilökohtaisia tietojasi ehdottaakseen sisältöä, jonka haluat nähdä sen perusteella, mitä muut samankaltaiset ihmiset pitävät sinusta.
lisäksi henkilötiedot kootaan yhteen (depersonalisoidakseen niitä jonkin verran) ja myydään sitten muille yrityksille, lähinnä mainos-ja kilpailututkimustarkoituksiin. Se on yksi tapa saada kohdennettuja mainoksia ja sisältöä yrityksiltä, joista et ole edes kuullut.
tapahtumatiedot
tapahtumatiedot ovat mitä tahansa, jonka keräämiseen tarvitaan toimia. Voit klikata mainosta,tehdä ostoksen, käydä tietyllä sivulla jne.
suurin piirtein jokainen verkkosivusto, jolla vierailet, kerää jonkinlaisia tapahtumatietoja joko Google Analyticsin, toisen kolmannen osapuolen järjestelmän tai oman sisäisen tiedonkeruujärjestelmän kautta.
liiketoiminnalliset tiedot ovat erittäin tärkeitä yrityksille, koska ne auttavat niitä paljastamaan vaihtelun ja optimoimaan toimintansa mahdollisimman laadukkaiden tulosten saavuttamiseksi. Tutkimalla suuria tietomääriä on mahdollista löytää piilotettuja kuvioita ja korrelaatioita. Nämä kuviot voivat luoda kilpailuetuja ja johtaa liiketoimintaetuihin, kuten tehokkaampaan markkinointiin ja liikevaihdon kasvuun.
Web data
Web data on yhteisnimitys, jolla tarkoitetaan mitä tahansa internetistä saatavaa tietoa, joko tutkimustarkoituksessa tai muuten. Se voi olla tietoja siitä, mitä kilpailijat myyvät, julkaistuja hallituksen tietoja, jalkapallotuloksia, jne. Se on catchall mitään voit löytää web, joka on julkinen päin (eli ei tallenneta johonkin sisäiseen tietokantaan). Näiden tietojen tutkiminen voi olla hyvin informatiivista, varsinkin kun niistä tiedotetaan hyvin johdolle.
Web data on tärkeää, koska se on yksi tärkeimmistä tavoista yritykset voivat käyttää tietoja, jotka eivät ole itse. Kun luodaan laadukkaita liiketoimintamalleja ja tehdään tärkeitä BI-päätöksiä, yritykset tarvitsevat tietoa siitä, mitä tapahtuu sisäisesti ja ulkoisesti organisaatiossaan ja mitä tapahtuu laajemmilla markkinoilla.
Web-dataa voidaan käyttää kilpailijoiden seuraamiseen, potentiaalisten asiakkaiden seuraamiseen, kanavakumppaneiden seuraamiseen, liidien luomiseen, sovellusten rakentamiseen ja paljon muuta. Sen käyttötarkoitukset ovat edelleen löydettävissä, kun tekniikka jäsentämättömän tiedon muuttamiseksi strukturoiduksi dataksi paranee.
Web data voidaan kerätä kirjoittamalla web kaavinta kerätä sitä, käyttämällä kaavinta työkalu, tai maksamalla kolmannelle osapuolelle tehdä kaavinta puolestasi. Web kaavin on tietokoneohjelma, joka ottaa URL syötteenä ja vetää tiedot ulos jäsennellyssä muodossa-yleensä JSON feed tai CSV.
anturitiedot
Sensoridataa tuottavat esineet, ja siitä käytetään usein nimitystä Esineiden Internet. Se kattaa kaiken sykettä mittaavasta älykellosta rakennukseen, jossa on säätä mittaavat ulkoiset anturit.
tähän mennessä anturitietoja on käytetty lähinnä prosessien optimointiin. Esimerkiksi AirAsia säästi 30-50 miljoonaa dollaria käyttämällä GE-sensoreita ja-teknologiaa, joka auttoi vähentämään käyttökustannuksia ja lisäämään lentokoneiden käyttöä. Mittaamalla, mitä ympärillä tapahtuu, koneet voivat tehdä älykkäitä muutoksia tuottavuuden lisäämiseksi ja varoittaa ihmisiä, kun he tarvitsevat huoltoa.
milloin datasta tulee Big Data?
teknisesti kaikki edellä mainitut tietotyypit edistävät Big Dataa. Mikään virallinen koko ei tee datasta ”isoa”. Termi kuvaa yksinkertaisesti sitä, kuinka paljon ja mitä erilaisempia tietoja nyt kerätään osana tiedonkeruuta.
kun yhä useampi maailman tieto liikkuu verkossa ja digitalisoituu, se tarkoittaa, että analyytikot voivat alkaa käyttää sitä datana. Muun muassa sosiaalinen media, nettikirjat, musiikki, videot ja sensoreiden lisääntynyt määrä ovat kaikki lisänneet analysoitavaksi tulleen datamäärän ällistyttävää kasvua.
asia, joka erottaa Big Datan aiemmin analysoimastamme ”normaalista datasta”, on se, että työkaluja, joita käytämme sen keräämiseen, tallentamiseen ja analysointiin, on täytynyt muuttaa koon ja monimutkaisuuden kasvun huomioon ottamiseksi. Markkinoiden uusimpien työkalujen ansiosta meidän ei tarvitse enää luottaa näytteenottoon. Sen sijaan voimme käsitellä aineistoja kokonaisuudessaan ja saada paljon kattavamman kuvan ympäröivästä maailmasta.
tiedonkeruun merkitys
tiedonkeruu eroaa tiedonlouhinnasta siinä, että se on prosessi, jolla tietoa kerätään ja mitataan. Kaikki tämä on tehtävä ennen kuin korkeatasoinen tutkimus voi alkaa ja vastaukset viipyviin kysymyksiin voidaan löytää. Tiedonkeruu tehdään yleensä ohjelmistoilla, ja erilaisia tiedonkeruumenetelmiä, strategioita ja tekniikoita on monia. Suurin osa tiedonkeruusta keskittyy sähköiseen dataan, ja koska tällainen tiedonkeruu sisältää niin paljon tietoa, se yleensä siirtyy big datan valtakuntaan.
miksi tiedonkeruu on siis tärkeää? Se on tiedonkeruun että yritys tai johto on laadukasta tietoa he tarvitsevat tehdä tietoon perustuvia päätöksiä jatkoanalyysi, tutkimus, ja tutkimus. Ilman tiedonkeruuta yritykset kompuroisivat pimeässä vanhentuneilla menetelmillä tehdessään päätöksiään. Tiedonkeruu sen sijaan antaa heille mahdollisuuden pysyä trendien tasalla, tarjota vastauksia ongelmiin ja analysoida uusia oivalluksia tehokkaasti.
2000-luvun seksikkäin työ?
tiedonkeruun jälkeen kaikki se tieto täytyy jonkun käsitellä, tutkia ja tulkita ennen kuin sitä voidaan käyttää oivalluksiin. Ei ole väliä minkälaisesta datasta on kyse, että joku on yleensä datatieteilijä.
Datatutkijat ovat nyt yksi haetuimmista viroista. Googlen entinen johtaja meni jopa niin pitkälle, että kutsui sitä ”2000-luvun seksikkäimmäksi työksi”.
tullaksesi datatieteilijäksi tarvitset vankan perustan tietojenkäsittelytieteessä, mallinnuksessa, tilastoissa, analytiikassa ja matematiikassa. Se, mikä erottaa heidät perinteisistä tehtävänimikkeistä, on liiketoimintaprosessien ymmärtäminen ja kyky välittää laadukkaita tuloksia sekä liiketoiminnan johdolle että IT-johtajille tavalla, joka voi vaikuttaa siihen, miten organisaatio lähestyy liiketoiminnan haasteita ja vastaa ongelmiin matkan varrella.
Data resources
jos olet kiinnostunut oppimaan lisää big datasta, tiedonkeruusta tai haluat alkaa hyödyntää kaikkea, mitä sillä on tarjottavanaan, tutustu näihin blogeihin, tapahtumiin, yrityksiin ja muihin.
Datablogit
- virtaava Data-Dr. Nathan Yau, PhD, it has tutorials, visualizations, resources, book recommendations and humor discussions on challenges at the industry
- FiveThirtyEight – run by data-wiz Nate Silver, it offers data analysis on popular news topics in politics, culture, sports and economics
- Edwin Chen – the self-named blog from the head data scientist at Dropbox, this blog offers hand-on tips to use algorithms and analysis
- Data Science Weekly – tuoreimmat uutiset datatieteessä, tämä on Ultimate email uutiskirje
- no free hunch (Kaggle) – isännöi useita ennakoivia mallinnus kilpailuja. Heidän kilpailu-ja datatiedeblogissaan käsitellään kaikkia datatieteen lajiin liittyviä asioita.
- SmartData Collective – sosiaalisen median moderoima verkkoyhteisö, joka tarjoaa tietoa uusimmista trendeistä liiketoiminnan älykkyydessä, tiedonhallinnassa ja tiedonkeruussa.
- KDnuggets – on kattava resurssi kaikille, joilla on oma etu datatieteellisessä yhteisössä.
- Data Elixir – on suuri kooste datauutisia ympäri Webiä, voit saada viikoittain digest lähetetään suoraan sähköpostiisi.
Data influencers
- Marcus Borba (CTO Spark) – hänen feed on pinottu visualisointeja monimutkaisia käsitteitä, kuten esineiden Internet (IoT) ja useita inkarnaatioita NoSQL
- Lillian Pierson (Author, Data Science For Dummies) – hän linkit bevy informatiivinen artikkeleita, uutislehdet uusimmista yrityksistä hyödyntää Big Data, hyödyllinen blogi viestejä vaikuttajilta sekä datatieteessä että liiketilassa
- Kirk borne (principal data scientist, boozallen) – viestejä ja Uudelleentwiittauksia linkkejä kiehtoviin artikkeleihin Big Data and data science
- 40 data mavericks under 40 – tämä luettelo kattaa The Who ’ s who: n valoisasta ja innovatiivisesta datasta ja startupeista
Datakonferenssit
- Strata + Hadoop World – New York, NY (Syyskuu. 29.Lokakuuta. 1) – keskittyy erityisesti Big datan vaikutuksiin suuryrityksiin.
- Extract-San Francisco, CA (30. lokakuuta) – kokoaa yhteen yli 600 datatieteen huippua yhdistämään kasvuhakkeroinnin data-analyysiin, jotta sinusta tulisi alan paras datatieteilijä.
- Big Data Tech Con 2015 – Chicago, IL (Marraskuu 2 -4) – suuri ”miten” Big datan käyttöön, joka osoittautuu erittäin opettavaiseksi siinä, miten uudet yritykset ottavat Big Datan vastaan.
- Big Data Bootcamp – Tampa, FL (7.-9. joulukuuta) – intensiivinen, aloittelijaystävällinen käytännön harjoittelukokemus, joka uppoutuu Big Datan maailmaan
- Big Data Innovation Summit-Las Vegas, NV (21. -22. tammikuuta)-kuule hersheyltä, Netflixiltä ja kotimaan turvallisuuden laitokselta, miten voit tehdä tiedoistasi toimintakelpoisia ja tehokkaita.
- Data Summit 2016 – New York, NY (9.-11. toukokuuta) – kokoaa yhteen valtion virastot, julkiset laitokset ja johtavat yritykset hyödyntämään uusia teknologioita ja strategioita datan sisällyttämiseksi edelleen päivittäiseen kokemukseesi.
Datakurssit
- Udemy – ilmainen ja maksullinen verkkokurssi, jolla voi opettaa kaiken tarvittavan
- Koodikoulu – opettele koodausta verkossa näitä yksinkertaisia askel askeleelta oppaita ja kursseja
- dekoodattu – olennainen johdatus koodiin, joka avaa digitaalisen maailman valtavan potentiaalin
- Dataleiri – rakenna vankka perusta datatieteessä ja vahvista r-ohjelmointitaitojasi.
- Coursera – yhteistyössä huippuyliopistojen ja – organisaatioiden kanssa tarjoamalla kursseja verkossa
- W3schools-tarjoaa hyviä online-tutoriaaleja koodauksen ja data-analyysin perustaitojen oppimiseen.
Datatyökalut
- OpenRefine – tietojen puhdistusohjelma, jonka avulla voit esikäsitellä tietojasi analysointia varten.
- WolframAlpha – tarjoaa yksityiskohtaisia vastauksia teknisiin hakuihin ja tekee hyvin monimutkaisia laskelmia. Yrityskäyttäjille, se esittelee tiedot kaavioita ja kaavioita, ja on erinomainen korkean tason hinnoittelu historia, hyödyke tiedot, ja aihe katsauksia.
- Import.io is: n avulla voit muuttaa verkkosivujen jäsentämättömät tiedot jäsennellyiksi datataulukoiksi, joita voidaan käyttää API: n kautta.
- Trifacta – puhdas ja vääntynyt tieto tiedostoista & tietokannoista, joita ei voinut käsitellä Excelissä, helppokäyttöisillä tilastotyökaluilla
- Tableau – visualisointityökalu, jonka avulla tietoja on helppo tarkastella uusilla tavoilla.
- Google Fusion Tables-monipuolinen työkalu datan analysointiin, suuren datan visualisointiin ja kartoitukseen.
- Blockspring – Hanki live-dataa, luo interaktiivisia karttoja, Hanki street view-kuvia, suorita kuvantunnistus ja tallenna Dropboxiin Tällä Google Sheets-liitännäisellä
- juoni.ly-visualisoi tietosi helposti niin, että näet nopeasti trendit ja oivallukset
- Luminoso-tunnista avainsanojen ja käsitteiden väliset suhteet tietokokonaisuudessasi ja ota selvää tuotteen havainnoinnista
- BigML-Rakenna markkinasi malli, jossa on kaikki muuttujat, kuten hinnoittelu, tuotteen ominaisuudet ja maantiede