Mi az adat, és miért fontos?
*eredetileg megjelent szeptember 16, 2015. Frissítve június 28th, 2018
adatok-tények gyűjteménye (számok, szavak, mérések, megfigyelések stb.), amelyeket lefordítottak olyan formába, amelyet a számítógépek feldolgozhatnak
bármelyik iparágban dolgozik, vagy bármi is legyen az érdeklődése, szinte biztosan találkozott egy történettel arról, hogy az “adatok” hogyan változtatják meg világunk arcát. Lehet, hogy része egy tanulmánynak, amely segít gyógyítani egy betegséget, növelni a vállalat bevételeit, hatékonyabbá tenni egy épületet, vagy felelőssé tenni azokat a célzott hirdetéseket, amelyeket folyamatosan lát.
általában az adatok egyszerűen egy másik szó az információra. De a számítástechnikában és az üzleti életben (a legtöbb, amit a hírekben olvasunk, amikor az adatokról van szó – különösen, ha nagy adatokról van szó), az adatok olyan információkra utalnak, amelyek géppel olvashatók, szemben az ember által olvashatóval.
emberek vs gépek
ember által olvasható (más néven strukturálatlan adatok) olyan információra utal, amelyet csak az emberek tudnak értelmezni és tanulmányozni, például egy kép vagy egy szövegblokk jelentése. Ha megköveteli, hogy egy személy értelmezze, akkor ez az információ ember által olvasható.
géppel olvasható (vagy strukturált adatok) olyan információ, amelyet a számítógépes programok feldolgozhatnak. A program az adatok manipulálására vonatkozó utasítások halmaza. És amikor adatokat veszünk, és programokat alkalmazunk, szoftvereket kapunk. Annak érdekében, hogy egy program utasításokat hajtson végre az adatokon, az adatoknak valamilyen egységes szerkezettel kell rendelkezniük.
például Matthew Maury amerikai haditengerészeti tiszt, a régi, kézzel írt (ember által olvasható) szállítási naplókat koordináta útvonalak nagy gyűjteményévé változtatta (géppel olvasható). Ezután tömegesen tudta feldolgozni ezeket az útvonalakat, hogy az átlagos tengeri utat 33% – kal csökkentse.
adatok a hírekben
ami a Forbes cikkeiben és a McKinsey jelentésekben szereplő strukturált adatok típusait illeti, van néhány különböző Típus, amelyek általában a legtöbb figyelmet kapják…
személyes adatok
a személyes adatok minden, ami az Ön számára különleges. Ez magában foglalja a demográfiai adatokat, a tartózkodási helyét, az e-mail címét és más azonosító tényezőket. Általában a hírekben van, amikor kiszivárog (például az Ashley Madison-botrány), vagy ellentmondásos módon használják (amikor Uber kitalálta, hogy kinek van viszonya).
számos különböző vállalat gyűjti az Ön személyes adatait (különösen a közösségi média oldalakat), bármikor be kell írnia az e-mail címét vagy a hitelkártya adatait, amelyeket személyes adatait ad el. Gyakran ezeket az adatokat arra használják, hogy személyre szabott javaslatokat nyújtsanak Önnek, hogy elkötelezzék magukat. A Facebook például az Ön személyes adatait arra használja fel, hogy olyan tartalmat javasoljon, amelyet esetleg szeretne látni annak alapján, hogy más hozzád hasonló emberek mit szeretnek.
ezenkívül a személyes adatokat összesítik (hogy valamelyest személytelenítsék őket), majd eladják más vállalatoknak, főleg hirdetési és versenykutatási célokra. Ez az egyik módja annak, hogy célzott hirdetéseket és tartalmakat kapjon olyan cégektől, amelyekről még soha nem is hallott.
tranzakciós adatok
a tranzakciós adatok bármi, ami műveletet igényel a gyűjtéshez. Lehet, hogy rákattint egy hirdetésre, vásárol, meglátogat egy bizonyos weboldalt stb.
nagyjából minden meglátogatott webhely valamilyen tranzakciós adatot gyűjt, akár a Google Analytics segítségével, egy másik 3rd party rendszer vagy saját belső adatrögzítő rendszerük.
a tranzakciós adatok hihetetlenül fontosak a vállalkozások számára, mert segítenek a változékonyságnak és a legmagasabb minőségű eredmények optimalizálásában. Nagy mennyiségű adat vizsgálatával lehetséges a rejtett minták és összefüggések feltárása. Ezek a minták versenyelőnyöket hozhatnak létre, és olyan üzleti előnyöket eredményezhetnek, mint a hatékonyabb marketing és a megnövekedett bevétel.
webes adatok
a webes adatok gyűjtőfogalom, amely bármilyen típusú adatra utal, amelyet az internetről nyerhet, akár kutatási célból, akár más módon. Ezek lehetnek adatok arról, hogy a versenytársak mit árulnak, közzétett kormányzati adatok, futball eredmények stb. Ez egy catchall bármit megtalálhat az interneten, amely nyilvános (azaz nem tárolható valamilyen belső adatbázisban). Ezen adatok tanulmányozása nagyon informatív lehet, különösen akkor, ha jól kommunikálnak a menedzsmenttel.
a webes adatok azért fontosak, mert ez az egyik fő módja annak, hogy a vállalkozások hozzáférjenek olyan információkhoz, amelyeket nem maguk generálnak. Minőségi üzleti modellek létrehozásakor és fontos BI döntések meghozatalakor a vállalkozásoknak információra van szükségük arról, hogy mi történik a szervezeten belül és kívül, és mi történik a szélesebb piacon.
a webes adatok felhasználhatók a versenytársak nyomon követésére, a potenciális ügyfelek nyomon követésére, a csatornapartnerek nyomon követésére, a leadek generálására, az alkalmazások létrehozására és még sok másra. Felhasználásait még mindig felfedezik, mivel javul a strukturálatlan adatok strukturált adatokká történő átalakításának technológiája.
a webes adatok összegyűjthetők webes kaparók írásával, kaparó eszköz használatával, vagy egy harmadik fél fizetésével, hogy elvégezze a kaparást az Ön számára. A webkaparó olyan számítógépes program, amely bemenetként URL – t vesz fel, és strukturált formátumban-általában JSON-hírcsatornában vagy CSV-ben-húzza ki az adatokat.
érzékelő adatok
az Érzékelőadatokat objektumok állítják elő, és gyakran a dolgok internetének nevezik. Ez magában foglalja mindent a smartwatch mérési pulzusszám egy épület külső érzékelők, amelyek mérik az időjárás.
eddig az érzékelő adatait leginkább a folyamatok optimalizálására használták. Az AirAsia például 30-50 millió dollárt takarított meg a GE szenzorok és technológiák használatával, amelyek segítenek csökkenteni az üzemeltetési költségeket és növelni a repülőgépek használatát. A körülöttük zajló események mérésével a gépek okos változtatásokat hajthatnak végre a termelékenység növelése érdekében, és figyelmeztethetik az embereket, ha karbantartásra van szükségük.
mikor válnak az adatok Big Data-Vá?
technikailag az összes fenti adattípus hozzájárul a nagy adatokhoz. Nincs olyan hivatalos méret, amely az adatokat “nagyra”tenné. A kifejezés egyszerűen az adatgyűjtés részeként jelenleg gyűjtött adatok növekvő mennyiségét és változatos típusait jelenti.
ahogy a világ egyre több információja mozog online és digitalizálódik, ez azt jelenti, hogy az elemzők elkezdhetik használni adatként. Az olyan dolgok, mint a közösségi média, az online könyvek, a zene, a videók és az érzékelők megnövekedett mennyisége mind hozzáadták az elemzésre rendelkezésre álló adatok mennyiségének elképesztő növekedését.
az a dolog, ami megkülönbözteti a Big Data-t a korábban elemzett “rendszeres adatoktól”, az, hogy a gyűjtéshez, tároláshoz és elemzéshez használt eszközöknek meg kellett változniuk, hogy alkalmazkodjanak a méret és a komplexitás növekedéséhez. A piac legújabb eszközeivel már nem kell a mintavételre támaszkodnunk. Ehelyett teljes adathalmazokat dolgozhatunk fel, és sokkal teljesebb képet kaphatunk a körülöttünk lévő világról.
az adatgyűjtés fontossága
az adatgyűjtés abban különbözik az adatbányászattól, hogy az adatgyűjtés és-mérés folyamata. Mindezt meg kell tenni, mielőtt a magas színvonalú kutatás megkezdődhet, és válaszokat találhatunk az elhúzódó kérdésekre. Az adatgyűjtés általában szoftverrel történik, és sok különböző adatgyűjtési eljárás, stratégia és technika létezik. A legtöbb adatgyűjtés középpontjában az elektronikus adatok állnak, és mivel ez a fajta adatgyűjtés annyi információt ölel fel, általában a nagy adatok birodalmába lép.
miért fontos az adatgyűjtés? Az adatgyűjtés révén az üzleti vagy menedzsment rendelkezik a szükséges minőségi információkkal ahhoz, hogy megalapozott döntéseket hozzon a további elemzésekből, tanulmányokból és kutatásokból. Adatgyűjtés nélkül a vállalatok sötétben botladoznának elavult módszerekkel döntéseik meghozatalához. Az adatgyűjtés ehelyett lehetővé teszi számukra, hogy a trendek tetején maradjanak, válaszokat adjanak a problémákra, és nagy hatással elemezzék az új betekintést.
a 21. század legszexisebb munkája?
az adatgyűjtés után az összes adatot fel kell dolgozni, kutatni és értelmezni, mielőtt az adatokat betekintésre lehet használni. Nem számít, milyen adatról beszélünk, hogy valaki általában egy adat tudós.
az Adattudósok ma az egyik legkeresettebb pozíció. A Google egykori végrehajtója még odáig ment, hogy “a 21.század legszexisebb munkájának”nevezte.
ahhoz, hogy egy adat tudós szüksége van egy szilárd alapot a számítástechnika, modellezés, statisztika, analitika és a matematika. Ami megkülönbözteti őket a hagyományos munkaköröktől, az az üzleti folyamatok megértése és a minőségi eredmények kommunikálásának képessége mind az üzleti menedzsment, mind az informatikai vezetők számára olyan módon, amely befolyásolhatja, hogy egy szervezet hogyan közelít egy üzleti kihíváshoz és válaszol a problémákra az út mentén.
adatforrások
Ha többet szeretne megtudni a big data-ról, az adatgyűjtésről, vagy szeretné kihasználni mindazt, amit kínál, nézze meg ezeket a blogokat, eseményeket, vállalatokat és így tovább.
Adatblogok
- adatfolyamok – Dr. Nathan Yau, PhD, oktatóanyagok, vizualizációk, források, könyvajánlások és humoros megbeszélések az iparág előtt álló kihívásokról
- FiveThirtyEight – a data-wiz Nate Silver üzemelteti, adatelemzést kínál a politika, a kultúra, a sport és a közgazdaságtan népszerű híreiről
- Edwin Chen – a Dropbox vezető adattudósának saját nevű blogja, ez a blog gyakorlati tippeket kínál algoritmusok és elemzések használatához
- Adatelemzés Science Weekly-a legfrissebb hírek az adatok tudomány, ez a végső e-mail hírlevél
- nem szabad megérzés (Kaggle) – számos prediktív modellezési versenyt rendez. Verseny-és adattudományi blogjuk az Adattudomány sportjával kapcsolatos összes dolgot lefedi.
- SmartData Collective – a közösségi média által moderált online közösség, amely tájékoztatást nyújt az üzleti intelligencia, Az adatkezelés és az adatgyűjtés legújabb trendjeiről.
- KDnuggets – egy átfogó forrás mindenki számára, aki érdekelt az adatok tudományos közösség.
- Data Elixir – egy nagy roundup adatok hírek az Interneten keresztül, akkor kap egy heti digest küldött egyenesen a postaládájába.
Adatbefolyásolók
- Marcus Borba (CTO Spark) – a takarmány halmozott vizualizációk komplex fogalmak, mint a tárgyak internete (IoT), és több inkarnációja NoSQL
- Lillian Pierson (szerző, Data Science For Dummies) – ő linkek egy sereg informatív cikkek, a hírek klipek a legújabb cégek kihasználva a Big Data, hogy hasznos blog influencerek hozzászólásai mind az adattudományban, mind az üzleti térben
- Kirk borne (a boozallen fő adattudósa) – hozzászólások és retweetek linkek lenyűgöző cikkekhez Big Data és data science
- 40 data mavericks Alatt 40-Ez a lista magában foglalja a Ki kicsoda a fényes és innovatív adatok és induló
adatok konferenciák
- Strata + Hadoop World – New York, NY (szeptember. 29-ott. 1) – kifejezetten a Big Data nagyvállalatokra gyakorolt hatásaira összpontosít.
- kivonat-San Francisco, CA (október 30.) – az Adattudomány több mint 600 legjobb elméjét egyesíti, hogy összekapcsolja a növekedési hackelést az adatelemzéssel, hogy felkészítse Önt arra, hogy a legjobb adattudós legyen a területen.
- Big Data Tech Con 2015 – Chicago, IL (November 2 -4) – a nagy “hogyan kell” a nagy Adatfelhasználáshoz, amely nagyon tanulságosnak bizonyul abban, hogy az új vállalkozások hogyan veszik fel a nagy adatokat.
- Big Data Bootcamp – Tampa, FL (December 7-9) – intenzív, kezdőbarát, gyakorlati képzési tapasztalat, amely elmerül a Big Data világában
- Big Data Innovation Summit-Las Vegas, NV (január 21-22)-Hallgassa meg Hershey, a Netflix és a Belbiztonsági Minisztérium kedvelőit arról, hogy pontosan hogyan teheti adatait cselekvhetővé és hatékonyvá.
- Data Summit 2016 – New York, NY (május 9-11) – összehozza a kormányzati szerveket, a közintézményeket és a vezető vállalkozásokat, hogy új technológiákat és stratégiákat használjanak az adatok további beépítéséhez a napi tapasztalatokba.
adat tanfolyamok
- Udemy – ingyenes és fizetett online tanfolyamok tanítani mindent, amit tudnod kell
- Code School – tanulj kódolás online követve ezeket az egyszerű lépésről lépésre útmutatók és tanfolyamok
- dekódolt – alapvető bevezetés a kódot, amely feloldja a hatalmas potenciál a digitális világban
- Data Camp – építsen szilárd alapot az adattudományban, és erősítse meg R programozási készségeit.
- Coursera – partneri vezető egyetemek és szervezetek kínálnak tanfolyamok online
- W3schools – nagy online oktatóanyagok a tanulás alapvető kódolási és adatelemzési készségek.
Data tools
- OpenRefine – adattisztító szoftver, amely lehetővé teszi az adatok előzetes feldolgozását elemzés céljából.
- WolframAlpha – részletes válaszokat ad a műszaki keresésekre és nagyon összetett számításokat végez. Az üzleti felhasználók számára információs diagramokat és grafikonokat mutat be, és kiválóan alkalmas magas szintű árazási előzményekre, árucikk-információkra és témakörök áttekintésére.
- Import.io az is lehetővé teszi, hogy a weboldalakon megjelenített strukturálatlan adatokat strukturált adattáblákká alakítsa, amelyek API-n keresztül érhetők el.
- Trifacta – tiszta és wrangle adatok fájlok & adatbázisok nem tudta kezelni az excel, könnyen használható statisztikai eszközök
- Tableau – a megjelenítő eszköz, amely megkönnyíti, hogy nézd meg az adatokat új módon.
- Google Fusion Tables – sokoldalú eszköz adatelemzéshez, nagyméretű adathalmazok megjelenítéséhez és leképezéséhez.
- Blockspring – élő adatok beszerzése, interaktív térképek készítése, Utcakép képek készítése, képfelismerés futtatása és Dropbox mentése ezzel a Google Táblázatok bővítménnyel
- telek.ly-vizualizálja adatait egyszerű módon, hogy gyorsan láthassa a trendeket és a betekintést
- Luminoso-azonosítsa a kulcsszavak és fogalmak közötti kapcsolatokat az adatkészleten belül, és betekintést nyerjen a termék észlelésébe
- BigML-készítsen egy modellt a piacáról, az összes változóval, mint az árazás, a termékjellemzők és a földrajz