Co jsou data a proč je to důležité?
*původně vyšlo 16. září 2015. Aktualizováno 28. června, 2018
Data – sběr faktů (čísel, slov, měření, pozorování atd.), který byl přeložen do podoby, že počítače mohou proces
Ať už pracujete, nebo bez ohledu na vaše zájmy, budete téměř jistě narazíte na příběh o tom, jak „data“ se mění tvář našeho světa. Může to být součástí studie, která pomáhá léčit nemoc, zvýšit příjmy společnosti, zefektivnit budovu nebo být zodpovědný za cílené reklamy, které stále vidíte.
obecně jsou data jednoduše jiným slovem pro informaci. Ale v oblasti výpočetní techniky a podnikání (většina z toho, o čem čtete ve zprávách, pokud jde o data-zejména pokud jde o velká Data), se data týkají informací, které jsou strojově čitelné, na rozdíl od čitelných pro člověka.
Lidé vs Stroje
čitelném Lidským okem (také známý jako nestrukturovaných dat) odkazuje na informace, že pouze lidé mohou interpretovat a studie, jako je například obrázek nebo smyslu blok textu. Pokud to vyžaduje, aby ji osoba interpretovala, jsou tyto informace čitelné pro člověka.
strojově čitelná (nebo strukturovaná data) označuje informace, které mohou počítačové programy zpracovat. Program je sada pokynů pro manipulaci s daty. A když vezmeme data a použijeme sadu programů, získáme software. Aby program mohl provádět pokyny k datům, musí mít tato data nějakou jednotnou strukturu.
například americký námořní důstojník Matthew Maury změnil roky starých ručně psaných přepravních protokolů (čitelných pro člověka) na velkou sbírku souřadnicových tras (strojově čitelných). Poté byl schopen tyto trasy hromadně zpracovat, aby snížil průměrnou námořní cestu o 33%.
Data ve zprávách
Když jde o typy strukturovaných dat, která jsou v Forbes články a zprávy McKinsey, existuje několik různých typů, které mají tendenci získat co nejvíce pozornosti…
Osobní údaje
Osobních údajů je něco, co je specifické pro vás. Pokrývá vaše demografické údaje, vaši polohu, vaši e-mailovou adresu a další identifikační faktory. Obvykle je to ve zprávách, když se dostane do úniku (jako skandál Ashley Madison) nebo je používán kontroverzním způsobem (když Uber zjistil, kdo má poměr).
Spousta různých firem shromažďovat vaše osobní údaje (zejména sociálních médií stránky), kdykoliv budete muset dát svou e-mailovou adresu nebo údaje o kreditní kartě jsou rozdávání vaše osobní údaje. Tato data často použijí k tomu, aby vám poskytli personalizované návrhy, které vás udrží v záběru. Facebook například používá vaše osobní informace naznačují obsah byste chtěli vidět na základě toho, co ostatní lidé podobné vám líbí.
kromě toho jsou osobní údaje agregovány (poněkud depersonalizovány) a poté prodávány jiným společnostem, většinou pro reklamní a konkurenční výzkumné účely. To je jeden ze způsobů, jak získat cílené reklamy a obsah od společností, o kterých jste nikdy neslyšeli.
transakční data
transakční data jsou cokoli, co vyžaduje akci ke shromáždění. Můžete kliknout na reklamu, provést nákup, navštívit určitou webovou stránku atd.
skoro každé webové stránky, které navštívíte shromažďuje transakční data, a to buď prostřednictvím Google Analytics, další 3 strany systému, nebo jejich vlastní interní data capture systém.
Transakční data, je neuvěřitelně důležité pro podniky, protože jim pomáhá odhalit variabilitu a optimalizovat své operace pro nejvyšší kvalitu výsledků. Zkoumáním velkého množství dat je možné odhalit skryté vzorce a korelace. Tyto vzorce mohou vytvářet konkurenční výhody a vést k obchodním výhodám, jako je efektivnější marketing a zvýšení příjmů.
Web data
Web dat je kolektivní termín, který odkazuje na jakýkoli typ dat, můžete vytáhnout z internetu, ať už na studium pro výzkumné účely nebo jinak. To mohou být údaje o tom, co vaši konkurenti prodávají, zveřejněné vládní údaje, fotbalové skóre, atd. Je to catchall pro vše, co můžete najít na webu, který je veřejný čelí (tj není uložen v nějaké interní databázi). Studium těchto údajů může být velmi informativní, zejména pokud je dobře sděleno vedení.
Webová data jsou důležitá, protože je to jeden z hlavních způsobů, jak mohou podniky přistupovat k informacím, které samy nevytvářejí. Při vytváření kvalitních obchodních modelů a při důležitých rozhodnutích BI potřebují podniky informace o tom, co se děje interně i externě v jejich organizaci a co se děje na širším trhu.
Webová data lze použít ke sledování konkurentů, sledování potenciálních zákazníků, sledování partnerů kanálů, generování potenciálních zákazníků, vytváření aplikací a mnoho dalšího. Jeho použití se stále objevuje, protože technologie pro přeměnu nestrukturovaných dat na strukturovaná data se zlepšuje.
Webová data mohou být shromažďovány tím, že psaní webových škrabky sbírat, pomocí škrábání nástroj, nebo tím, že zaplatí třetí straně, aby škrábání pro vás. Webový škrabka je počítačový program, který bere URL jako vstup a vytáhne data ve strukturovaném formátu-obvykle zdroj JSON nebo CSV.
data Snímače
Snímače dat je produkován objekty a je často označován jako Internet Věcí. Pokrývá vše od chytrých hodinek, které měří srdeční frekvenci, až po budovu s externími senzory, které měří počasí.
doposud byla data senzorů většinou používána k optimalizaci procesů. Například AirAsia zachránil $30-50 milionů pomocí GE senzory a technologie, které pomohou snížit provozní náklady a zvýšit využití letadel. Měřením toho, co se kolem nich děje, mohou stroje provádět inteligentní změny, které zvyšují produktivitu a upozorňují lidi, když potřebují údržbu.
kdy se data stanou velkými daty?
technicky všechny výše uvedené typy dat přispívají k velkým datům. Neexistuje žádná oficiální velikost, která by DATA „velká“. Termín jednoduše představuje rostoucí množství a různé typy dat, která se nyní shromažďují jako součást sběru dat.
jak se stále více světových informací pohybuje online a digitalizuje se, Znamená to, že analytici je mohou začít používat jako data. Věci jako sociální média, online knihy, hudba, videa a zvýšené množství senzorů přispěly k ohromujícímu nárůstu množství dat, která jsou k dispozici pro analýzu.
věc, která odlišuje Big Data od „normální data“ jsme analyzovali dříve, je, že nástroje, které používáme k shromažďovat, ukládat a analyzovat ji musela změnit, aby se přizpůsobila zvýšení velikosti a složitosti. S nejnovějšími nástroji na trhu se již nemusíme spoléhat na vzorkování. Místo toho můžeme zpracovávat datové sady v plném rozsahu a získat mnohem ucelenější obraz světa kolem nás.
význam sběru dat
sběr dat se liší od dolování dat tím, že se jedná o proces, kterým se data shromažďují a měří. To vše musí být provedeno před zahájením vysoce kvalitního výzkumu a lze nalézt odpovědi na přetrvávající otázky. Sběr dat se obvykle provádí pomocí softwaru a existuje mnoho různých postupů, strategií a technik sběru dat. Většina sběru dat je zaměřena na elektronická data, a protože tento typ sběru dat zahrnuje tolik informací, obvykle přechází do oblasti velkých dat.
proč je tedy sběr dat důležitý? Prostřednictvím sběru dat má podnik nebo management kvalitní informace, které potřebují k informovanému rozhodování z další analýzy, studie a výzkumu. Bez sběru dat by společnosti klopýtaly ve tmě pomocí zastaralých metod, aby se rozhodovaly. Sběr dat jim místo toho umožňuje zůstat na vrcholu trendů, poskytovat odpovědi na problémy a analyzovat nové poznatky s velkým efektem.
nejsexi práce 21. století?
po sběru dat musí být všechna tato data zpracována, prozkoumána a interpretována někým dříve, než mohou být použita k nahlédnutí. Bez ohledu na to, o jakých datech mluvíte, že někdo je obvykle datový vědec.
datoví vědci jsou nyní jednou z nejvyhledávanějších pozic. Bývalý exec na Googlu dokonce šel tak daleko, že to nazval „nejsexi prací 21. století“.
Chcete-li se stát datovým vědcem, potřebujete pevný základ v informatice, modelování, statistice, analytice a matematice. To, co je odlišuje od tradičních pracovních titulů je pochopení business procesů a schopnost komunikovat kvalitu zjištění jak pro obchodní řízení a vůdci způsobem, který může ovlivnit, jak organizace přistupuje na obchodní výzvu a odpovědět na problémy podél cesty.
Datové zdroje
Pokud máte zájem dozvědět se více o big data, sběr dat, nebo chcete začít využívat všech, že má co nabídnout, podívejte se na tyto blogy, akce, firmy a další.
datové blogy
- Flowing Data-run by Dr. Nathan Yau, PhD, má konzultace, vizualizace, zdroje, knihy, doporučení a vtipné diskuse o výzvách, jimž čelí průmysl
- FiveThirtyEight – run dat-wiz Nate Silver, nabízí analýzu dat na populárních zpravodajských témat v politice, kultuře, sportu a ekonomiky
- Edwin Chen – self-jmenoval blog z hlavy údaje vědec na Dropbox, tento blog nabízí ruku na tipy pro používání algoritmů a analýza
- Data Science Týdenní – pro nejnovější zprávy v datové vědy, to je konečný e-mail newsletter
- Žádné Volné Tušení (Kaggle) – hostí řadu prediktivních modelovacích soutěží. Jejich soutěž a data science blog, pokrývá všechny věci související se sportem datové vědy.
- SmartData Collective-online komunita moderovaná sociálními médii Dnes, která poskytuje informace o nejnovějších trendech v oblasti business intelligence, správy dat a sběru dat.
- KDnuggets-je komplexní zdroj pro každého, kdo má zájem o komunitu datových věd.
- Data Elixir-je skvělý přehled datových zpráv na webu, můžete získat týdenní přehled zaslaný přímo do vaší doručené pošty.
Data vlivných
- Marcus Borba (ČTÚ Jiskra) – jeho podávání je skládaný s vizualizací složitých pojmů, jako je Internet Věcí (IoT) a několik inkarnací NoSQL
- Lillian Pierson (Autor, Data Science for Dummies) – ona odkazů na houf informativní články, zprávy z klipů na nejnovější firmy s využitím Big Data, užitečné blog příspěvky od vlivných v obou vědeckých dat a obchodních prostor
- Kirk Nese (základní Údaje Vědec na BoozAllen) – příspěvky a retweets odkazy na fascinující články o Big Data a data science
- 40 údaje mavericks pod 40 – tento seznam encompases kdo je kdo, světlé a inovativní dat a začínajících
Data konferencí
- Strata + Hadoop World – New York, NY (Sept. 29.října. 1) – zaměřuje se konkrétně na důsledky velkých dat na velké podniky.
- Extract – San Francisco, CA (30. října) – sdružuje více než 600 z nejlepších mozků v data science kombinovat růst hacking s analýzou dat vybavit vás být nejlepší data vědec v oboru.
- Big Data Tech con 2015-Chicago, IL (listopad 2 -4) – Hlavní „jak na to“ pro velké využití dat, které se ukáže být velmi poučné v tom, jak nové podniky vzít na velkých dat.
- Big Data Bootcamp – Tampa, FL (prosinec 7-9) – intenzivní, začátečník-přátelský, hands-na školení zážitek, který vtáhne se do světa Big Data
- Big Dat Inovační Summit – Las Vegas, NV (leden 21-22) – Slyšet od likes Hershey, Netflix, a Ministerstvo pro Vnitřní Bezpečnost na přesně, jak můžete, aby se vaše data žalovatelné a efektivní.
- Data Summit 2016 – New York, NY (Může 9-11) – sdružuje vládní agentury, veřejné instituce, a vede podniky k využití nových technologií a strategií pro další začlenění dat do vašeho den-to-day zkušenosti.
Údaje kurzy
- Udemy – bezplatné a placené on-line kurzy, aby vás naučí vše, co potřebujete vědět,
- Kód Školy – učit kódování on-line pomocí následujících tyto jednoduché krok za krokem návody a kurzy
- Dekódovat – základní úvod do kódu, který odemkne obrovský potenciál digitálního světa
- Data Tábor – vybudovat pevné základy v data science, a posílit vaše R. znalosti programování.
- Coursera – partnerství s předními univerzitami a organizace nabízejí kurzy on-line
- W3schools – má velký on-line tutoriály pro učení základní kódování a analýzu dat dovedností.
datové nástroje
- OpenRefine-software pro čištění dat, který vám umožní předem zpracovat data pro analýzu.
- WolframAlpha-poskytuje podrobné odpovědi na technické vyhledávání a provádí velmi složité výpočty. Pro firemní uživatele představuje informační grafy a grafy a je vynikající pro historii cen na vysoké úrovni, informace o komoditách a přehledy témat.
- Import.io is umožňuje přeměnit nestrukturovaná data zobrazená na webových stránkách na strukturované tabulky dat, ke kterým lze přistupovat přes API.
- Trifacta – čisté a hádat datových souborů & databází, kterou nelze zvládnout v excelu, s snadné použití statistických nástrojů
- Tablo – vizualizační nástroj, který dělá to snadné podívat se na data novými způsoby.
- Google Fusion Tables-univerzální nástroj pro analýzu dat, vizualizaci a mapování velkých datových sad.
- Blockspring-získejte živá data, vytvářejte interaktivní mapy, získejte obrázky street view, spusťte rozpoznávání obrázků a uložte do Dropboxu pomocí tohoto pluginu Google Sheets
- Plot.ly – vizualizace dat v snadný způsob, jak rychle vidět trendy a postřehy
- Luminoso – identifikovat vztahy mezi klíčová slova a pojmy ve vašem souboru údajů a získat přehled o vnímání produktu
- BigML – Postavit model na trhu, všechny proměnné, jako jsou ceny, produktu, funkce a geografie