Che cosa sono i dati, e perché è importante?
*Originariamente pubblicato il 16 settembre 2015. Updated on June 28th, 2018
Data-una raccolta di fatti (numeri, parole, misurazioni, osservazioni, ecc.) che è stata tradotta in una forma che i computer possono elaborare
Qualunque sia il settore in cui lavori, o qualunque siano i tuoi interessi, quasi certamente ti sarai imbattuto in una storia su come i “dati” stanno cambiando il volto del nostro mondo. Potrebbe essere parte di uno studio che aiuta a curare una malattia, aumentare le entrate di un’azienda, rendere un edificio più efficiente o essere responsabile di quegli annunci mirati che continui a vedere.
In generale, i dati sono semplicemente un’altra parola per informazioni. Ma nell’informatica e nel business (la maggior parte di ciò che si legge nelle notizie quando si tratta di dati, specialmente se si tratta di Big Data), i dati si riferiscono a informazioni leggibili dalla macchina anziché leggibili dall’uomo.
Humans vs Machines
Human-readable (noto anche come dati non strutturati) si riferisce a informazioni che solo gli esseri umani possono interpretare e studiare, come un’immagine o il significato di un blocco di testo. Se richiede a una persona di interpretarla, tali informazioni sono leggibili dall’uomo.
I dati leggibili dalla macchina (o strutturati) si riferiscono alle informazioni che i programmi per computer possono elaborare. Un programma è un insieme di istruzioni per la manipolazione dei dati. E quando prendiamo i dati e applichiamo una serie di programmi, otteniamo il software. Affinché un programma esegua le istruzioni sui dati, quei dati devono avere una sorta di struttura uniforme.
Ad esempio, l’ufficiale della marina statunitense Matthew Maury, ha trasformato anni di vecchi registri di spedizione scritti a mano (leggibili dall’uomo) in una vasta collezione di rotte coordinate (leggibili dalla macchina). Fu quindi in grado di elaborare queste rotte in massa per ridurre il viaggio navale medio del 33%.
Dati nelle notizie
Quando si tratta di tipi di dati strutturati che si trovano negli articoli di Forbes e nei rapporti McKinsey, ci sono alcuni tipi diversi che tendono a ottenere la massima attenzione
Dati personali
I dati personali sono tutto ciò che è specifico per te. Copre i tuoi dati demografici, la tua posizione, il tuo indirizzo email e altri fattori identificativi. Di solito è nelle notizie quando viene trapelato (come lo scandalo Ashley Madison) o viene utilizzato in modo controverso (quando Uber ha scoperto chi aveva una relazione).
Molte aziende diverse raccolgono i tuoi dati personali (in particolare i siti di social media), ogni volta che devi inserire il tuo indirizzo email o i dettagli della carta di credito che stai dando via i tuoi dati personali. Spesso useranno quei dati per fornirti suggerimenti personalizzati per tenerti impegnato. Facebook, ad esempio, utilizza le tue informazioni personali per suggerire contenuti che ti piacerebbe vedere in base a ciò che piace ad altre persone simili a te.
Inoltre, i dati personali vengono aggregati (per spersonalizzarli in qualche modo) e poi venduti ad altre società, principalmente per scopi pubblicitari e di ricerca competitiva. Questo è uno dei modi per ottenere annunci e contenuti mirati da aziende di cui non hai mai sentito parlare.
Dati transazionali
I dati transazionali sono tutto ciò che richiede un’azione per la raccolta. È possibile fare clic su un annuncio, effettuare un acquisto, visitare una determinata pagina web, ecc.
Praticamente ogni sito Web che visiti raccoglie dati transazionali di qualche tipo, tramite Google Analytics, un altro sistema di terze parti o il proprio sistema di acquisizione dati interno.
I dati transazionali sono incredibilmente importanti per le aziende perché li aiutano a esporre la variabilità e ottimizzare le loro operazioni per risultati di altissima qualità. Esaminando grandi quantità di dati, è possibile scoprire modelli nascosti e correlazioni. Questi modelli possono creare vantaggi competitivi e portare a vantaggi aziendali come un marketing più efficace e un aumento delle entrate.
Dati web
I dati web sono un termine collettivo che si riferisce a qualsiasi tipo di dati che si potrebbe estrarre da Internet, sia per studiare a fini di ricerca o in altro modo. Potrebbero essere dati su ciò che i tuoi concorrenti stanno vendendo, dati governativi pubblicati, punteggi di calcio, ecc. È un catchall per tutto ciò che puoi trovare sul Web che è pubblico (cioè non memorizzato in un database interno). Lo studio di questi dati può essere molto informativo, specialmente se comunicato bene alla direzione.
I dati Web sono importanti perché sono uno dei principali modi in cui le aziende possono accedere a informazioni che non vengono generate da sole. Quando si creano modelli di business di qualità e si prendono importanti decisioni di BI, le aziende hanno bisogno di informazioni su ciò che sta accadendo internamente ed esternamente all’interno della loro organizzazione e su ciò che sta accadendo nel mercato più ampio.
I dati Web possono essere utilizzati per monitorare i concorrenti, monitorare i potenziali clienti, tenere traccia dei partner di canale, generare lead, creare app e molto altro. I suoi usi sono ancora scoperti mentre la tecnologia per trasformare i dati non strutturati in dati strutturati migliora.
I dati Web possono essere raccolti scrivendo raschietti web per raccoglierli, utilizzando uno strumento di raschiatura o pagando una terza parte per fare lo scraping per te. Un raschietto web è un programma per computer che prende un URL come input e estrae i dati in un formato strutturato, di solito un feed JSON o CSV.
Dati del sensore
I dati del sensore sono prodotti da oggetti e vengono spesso definiti Internet of Things. Copre tutto, dal tuo smartwatch che misura la frequenza cardiaca a un edificio con sensori esterni che misurano il tempo.
Finora, i dati dei sensori sono stati utilizzati principalmente per ottimizzare i processi. Ad esempio, AirAsia ha risparmiato million 30-50 milioni utilizzando i sensori e la tecnologia GE per ridurre i costi operativi e aumentare l’utilizzo degli aeromobili. Misurando ciò che accade intorno a loro, le macchine possono apportare modifiche intelligenti per aumentare la produttività e avvisare le persone quando hanno bisogno di manutenzione.
Quando i dati diventano Big Data?
Tecnicamente tutti i tipi di dati sopra riportati contribuiscono ai Big Data. Non esiste una dimensione ufficiale che renda i dati “grandi”. Il termine rappresenta semplicemente la quantità crescente e i vari tipi di dati che vengono ora raccolti come parte della raccolta dei dati.
Man mano che sempre più informazioni del mondo si spostano online e diventano digitalizzate, significa che gli analisti possono iniziare a usarle come dati. Cose come i social media, libri online, musica, video e l’aumento della quantità di sensori hanno tutti aggiunto all’incredibile aumento della quantità di dati che è diventato disponibile per l’analisi.
La cosa che differenzia i Big Data dai “dati regolari” che stavamo analizzando prima è che gli strumenti che usiamo per raccoglierli, archiviarli e analizzarli hanno dovuto cambiare per adattarsi all’aumento di dimensioni e complessità. Con gli strumenti più recenti sul mercato, non dobbiamo più fare affidamento sul campionamento. Invece, possiamo elaborare i set di dati nella loro interezza e ottenere un quadro molto più completo del mondo che ci circonda.
L’importanza della raccolta dei dati
La raccolta dei dati differisce dal data mining in quanto è un processo mediante il quale i dati vengono raccolti e misurati. Tutto ciò deve essere fatto prima che la ricerca di alta qualità possa iniziare e si possano trovare risposte a domande persistenti. La raccolta dei dati è di solito fatto con il software, e ci sono molte diverse procedure di raccolta dei dati, strategie e tecniche. La maggior parte della raccolta dei dati è centrata sui dati elettronici e, poiché questo tipo di raccolta dei dati comprende così tante informazioni, di solito attraversa il regno dei big data.
Allora, perché la raccolta dei dati è importante? È attraverso la raccolta dei dati che un’azienda o una gestione ha le informazioni di qualità di cui hanno bisogno per prendere decisioni informate da ulteriori analisi, studi e ricerche. Senza la raccolta dei dati, le aziende sarebbero inciampare in giro al buio utilizzando metodi obsoleti per prendere le loro decisioni. La raccolta dei dati consente invece di rimanere al passo con le tendenze, fornire risposte ai problemi e analizzare nuove intuizioni con grande effetto.
Il lavoro più sexy del 21 ° secolo?
Dopo la raccolta dei dati, tutti i dati devono essere elaborati, ricercati e interpretati da qualcuno prima di poter essere utilizzati per approfondimenti. Non importa che tipo di dati si sta parlando, che qualcuno è di solito un data scientist.
Gli scienziati dei dati sono ora una delle posizioni più ricercate. Un ex dirigente di Google arrivò addirittura a definirlo il “lavoro più sexy del 21 ° secolo”.
Per diventare un data scientist hai bisogno di una solida base in informatica, modellazione, statistica, analisi e matematica. Ciò che li distingue dai titoli di lavoro tradizionali è la comprensione dei processi aziendali e la capacità di comunicare risultati di qualità sia alla gestione aziendale che ai leader IT in un modo che può influenzare il modo in cui un’organizzazione si avvicina a una sfida aziendale e risponde ai problemi lungo la strada.
Risorse di dati
Se sei interessato a saperne di più sui big data, sulla raccolta dei dati o vuoi iniziare a sfruttare tutto ciò che ha da offrire, dai un’occhiata a questi blog, eventi, aziende e altro ancora.
Blog di dati
- Dati fluenti-gestito dal Dr. Nathan Yau, Dottorato di ricerca, ha i tutorial, le visualizzazioni, le risorse, suggerimenti su libri e divertenti discussioni sulle sfide affrontate dal settore
- FiveThirtyEight – eseguito da data-wiz Nate Silver, offre l’analisi dei dati sul popolare argomenti di notizie di politica, cultura, sport ed economia
- Edwin Chen – auto-nominato dal blog di testa dati scienziato a Dropbox, questo blog offre a mano consigli per l’uso di algoritmi di analisi e
- Scienza di Dati Settimanali – per le ultime news in data science, questa è l’ultima newsletter
- No Gratis Sospetto (Kaggle) – ospita una serie di concorsi di modellazione predittiva. La loro concorrenza e la scienza dei dati blog, copre tutte le cose relative allo sport della scienza dei dati.
- SmartData Collective-una comunità online moderata dai social media oggi che fornisce informazioni sulle ultime tendenze in business intelligence, gestione dei dati e raccolta dei dati.
- KDnuggets – è una risorsa completa per chiunque abbia un interesse acquisito nella comunità della scienza dei dati.
- Data Elixir-è una grande carrellata di notizie di dati in tutto il web, è possibile ottenere un digest settimanale inviato direttamente alla tua casella di posta.
Dati influenzatori
- Marcus Borba (CTO Scintilla) – la sua alimentazione è accatastato con la visualizzazione di concetti complessi come l’Internet delle Cose (IoT) e diverse incarnazioni di NoSQL
- Lillian Pierson (Autore, Data Science for Dummies) – ha collegamenti a una serie di articoli informativi, dalla clip di notizie sulle ultime aziende approfittando dei Big Data, di post di blog utili da fattori di influenza sia i dati che la scienza e il business space
- Kirk a Carico (Principali Dati Scienziato BoozAllen) – post e tweet collegamenti affascinante articoli su Big Data e data science
- 40 data mavericks under 40 – questo elenco comprende il who’s who del brillante e innovativo nei dati e nelle startup
Data conferences
- Strata + Hadoop World – New York, NY (Sept. 29-Ott. 1) – si concentra in particolare sulle implicazioni dei Big Data sulle grandi imprese.
- Extract-San Francisco, CA (30 ottobre) – riunisce più di 600 delle migliori menti nella scienza dei dati per combinare l’hacking della crescita con l’analisi dei dati per equipaggiarti per essere il miglior scienziato dei dati nel campo.
- Big Data Tech Con 2015 – Chicago, IL (novembre 2 -4) – un importante “how to” per l’uso dei Big Data che si rivelerà molto istruttivo nel modo in cui le nuove aziende assumono i Big Data.
- Big Data Bootcamp – Tampa, FL (7-9 dicembre) – una per la cpu, principiante-friendly, hands-on esperienza di formazione che si immerge di se stessi nel mondo dei Big Data
- Big Data Innovation Summit – Las Vegas, NV (21-22 gennaio) – Ascoltare artisti del calibro di Hershey, Netflix, e il Dipartimento della Homeland Security esattamente su come è possibile rendere i dati fruibili ed efficaci.
- Data Summit 2016-New York, NY (9-11 maggio) – riunisce agenzie governative, istituzioni pubbliche e aziende leader per sfruttare nuove tecnologie e strategie per integrare ulteriormente i dati nella tua esperienza quotidiana.
corsi
- Udemy – free e a pagamento per i corsi online di insegnare tutto quello che ti serve sapere
- Codice Scuola – imparare codifica on-line seguendo questi semplici step by step tutorial e corsi
- Decodifica – introduzione essenziale per il codice che sblocca le immense potenzialità del mondo digitale
- Dati del Campeggio – costruire una solida base in scienza di dati, e rafforzare il vostro R competenze di programmazione.
- Coursera-partnership con le migliori università e organizzazioni per offrire corsi online
- W3schools-ha grandi tutorial online per l’apprendimento di codifica di base e capacità di analisi dei dati.
Data tools
- OpenRefine – un software di pulizia dei dati che consente di pre-elaborare i dati per l’analisi.
- WolframAlpha-fornisce risposte dettagliate alle ricerche tecniche e fa calcoli molto complessi. Per gli utenti aziendali, presenta grafici e grafici informativi ed è eccellente per la cronologia dei prezzi di alto livello, le informazioni sulle materie prime e le panoramiche sugli argomenti.
- Import.io is consente di trasformare i dati non strutturati visualizzati nelle pagine Web in tabelle strutturate di dati accessibili tramite un’API.
- Trifacta – pulire e disputare i dati dei file& database non è possibile gestire in Excel, con facile da usare strumenti statistici
- Tableau – uno strumento di visualizzazione che lo rende facile da guardare i dati in modi nuovi.
- Google Fusion Tables: uno strumento versatile per l’analisi dei dati, la visualizzazione e la mappatura di set di dati di grandi dimensioni.
- Blockspring-ottieni dati in tempo reale, crea mappe interattive, ottieni immagini street view, esegui il riconoscimento delle immagini e salva su Dropbox con questo plugin Google Sheets
- Plot.ly – visualizzare i dati in un modo semplice per visualizzare rapidamente le tendenze e approfondimenti
- Luminoso – identificare le relazioni tra parole chiave e concetti all’interno di un insieme di dati e di raccogliere indicazioni sulla percezione del prodotto
- BigML – Costruire un modello di mercato, con tutte le variabili come prezzi, caratteristiche del prodotto e geografia