Wat is data, en waarom is het belangrijk?
*oorspronkelijk gepubliceerd op 16 September 2015. Bijgewerkt op 28 juni 2018
Data-een verzameling feiten (getallen, woorden, metingen, observaties, enz.) die is vertaald in een vorm die computers kunnen verwerken
in welke branche u ook werkt, of wat uw interesses ook zijn, u zult vrijwel zeker een verhaal zijn tegengekomen over hoe “data” het gezicht van onze wereld verandert. Het kan onderdeel zijn van een studie die helpt om een ziekte te genezen, de omzet van een bedrijf te verhogen, een gebouw efficiënter te maken of verantwoordelijk te zijn voor die gerichte advertenties die u blijft zien.
in het algemeen zijn gegevens gewoon een ander woord voor informatie. Maar in de informatica en het bedrijfsleven (de meeste van wat je leest over in het nieuws als het gaat om data – vooral als het gaat over Big Data), data verwijst naar informatie die is machine-leesbaar in tegenstelling tot de mens-leesbaar.
mensen versus Machines
mens-leesbaar (ook bekend als ongestructureerde gegevens) verwijst naar informatie die alleen mensen kunnen interpreteren en bestuderen, zoals een afbeelding of de Betekenis van een blok tekst. Als iemand het moet interpreteren, is die informatie leesbaar voor mensen.
machineleesbare (of gestructureerde gegevens) verwijst naar informatie die computerprogramma ‘ s kunnen verwerken. Een programma is een set instructies voor het manipuleren van gegevens. En als we data nemen en een set programma ‘ s toepassen, krijgen we software. Om een programma instructies over gegevens uit te voeren, moeten die gegevens een soort uniforme structuur hebben.
bijvoorbeeld, de US Naval Officer Matthew Maury, veranderde jaren van oude handgeschreven scheepslogboeken (menselijk leesbaar) in een grote verzameling coördinatenroutes (machinaal leesbaar). Hij was vervolgens in staat om deze routes en masse te verwerken om de gemiddelde Marinereis met 33% te verminderen.
gegevens in het nieuws
als het gaat om de soorten gestructureerde gegevens die in Forbes articles en McKinsey reports staan, zijn er een paar verschillende soorten die de meeste aandacht krijgen…
persoonlijke gegevens
persoonlijke gegevens zijn iets dat specifiek voor u is. Het heeft betrekking op uw Demografie, uw locatie, uw e-mailadres en andere identificerende factoren. Het is meestal in het nieuws wanneer het wordt gelekt (zoals de Ashley Madison schandaal) of wordt gebruikt op een controversiële manier (wanneer Uber uitgewerkt wie had een affaire).
veel verschillende bedrijven verzamelen uw persoonlijke gegevens (met name social media sites), wanneer u moet in uw e-mailadres of credit card gegevens die u weggeven van uw persoonlijke gegevens. Vaak gebruiken ze die gegevens om u gepersonaliseerde suggesties te geven om u bezig te houden. Facebook gebruikt bijvoorbeeld uw persoonlijke gegevens om inhoud voor te stellen die u misschien wilt zien op basis van wat andere mensen die op u lijken leuk vinden.
daarnaast worden persoonsgegevens geaggregeerd (om ze enigszins te depersonaliseren) en vervolgens verkocht aan andere bedrijven, meestal voor reclame-en onderzoeksdoeleinden. Dat is een van de manieren waarop je gerichte advertenties en content krijgt van bedrijven waar je nog nooit van gehoord hebt.
transactiegegevens
transactiegegevens zijn alles waarvoor een actie moet worden verzameld. U kunt op een advertentie klikken, een aankoop doen, een bepaalde webpagina bezoeken, enz.
vrijwel elke website die u bezoekt verzamelt transactionele gegevens van een soort, hetzij via Google Analytics, een ander 3rd party systeem of hun eigen interne data capture systeem.
transactiegegevens zijn ongelooflijk belangrijk voor bedrijven omdat het hen helpt om variabiliteit bloot te leggen en hun activiteiten te optimaliseren voor resultaten van de hoogste kwaliteit. Door het onderzoeken van grote hoeveelheden gegevens, is het mogelijk om verborgen patronen en correlaties te ontdekken. Deze patronen kunnen concurrentievoordelen creëren, en resulteren in zakelijke voordelen zoals effectievere marketing en verhoogde inkomsten.
webgegevens
webgegevens zijn een verzamelterm die verwijst naar elk type gegevens dat u van het internet zou kunnen halen, of u nu wilt studeren voor onderzoeksdoeleinden of anderszins. Dat kunnen gegevens zijn over wat uw concurrenten verkopen, gepubliceerde overheidsgegevens, voetbal scores, enz. Het is een catchall voor alles wat je kunt vinden op het web dat is publiek geconfronteerd (dat wil zeggen niet opgeslagen in een interne database). Het bestuderen van deze gegevens kan zeer informatief zijn, vooral wanneer goed gecommuniceerd aan het management.
Web data is belangrijk omdat het een van de belangrijkste manieren waarop bedrijven toegang hebben tot informatie die niet door zichzelf wordt gegenereerd. Bij het creëren van hoogwaardige businessmodellen en het nemen van belangrijke BI-beslissingen, bedrijven nodig hebben informatie over wat er gebeurt intern en extern binnen hun organisatie en wat er gebeurt in de bredere markt.
webgegevens kunnen worden gebruikt om concurrenten te monitoren, potentiële klanten te volgen, kanaalpartners bij te houden, leads te genereren, apps te bouwen en nog veel meer. Het is toepassingen worden nog steeds ontdekt als de technologie voor het omzetten van ongestructureerde gegevens in gestructureerde gegevens verbetert.
webgegevens kunnen worden verzameld door het schrijven van web schrapers om het te verzamelen, met behulp van een schrapen tool, of door het betalen van een derde partij om het schrapen voor u doen. Een web scraper is een computerprogramma dat een URL als invoer neemt en de gegevens eruit haalt in een gestructureerd formaat – meestal een JSON-feed of CSV.
sensorgegevens
sensorgegevens worden geproduceerd door objecten en worden vaak aangeduid als het Internet of Things. Het dekt alles, van uw smartwatch die uw hartslag meet tot een gebouw met externe sensoren die het weer meten.
tot nu toe werden sensorgegevens meestal gebruikt om processen te optimaliseren. AirAsia bespaarde bijvoorbeeld $ 30-50 miljoen door GE-sensoren en-technologie te gebruiken om de operationele kosten te verlagen en het vliegtuiggebruik te verhogen. Door te meten wat er om hen heen gebeurt, kunnen machines slimme veranderingen doorvoeren om de productiviteit te verhogen en mensen te waarschuwen wanneer ze onderhoud nodig hebben.
wanneer wordt data Big Data?
technisch gezien dragen alle bovengenoemde soorten gegevens bij aan Big Data. Er is geen officiële grootte die data “groot”maakt. De term geeft gewoon de toenemende hoeveelheid en de gevarieerde soorten gegevens weer die nu worden verzameld als onderdeel van het verzamelen van gegevens.
naarmate meer en meer informatie over de wereld online gaat en gedigitaliseerd wordt, betekent dit dat analisten het als gegevens kunnen gaan gebruiken. Dingen als sociale media, online boeken, muziek, video ‘ s en de toegenomen hoeveelheid sensoren hebben allemaal toegevoegd aan de verbazingwekkende toename van de hoeveelheid gegevens die beschikbaar is gekomen voor analyse.
Wat Big Data onderscheidt van de “reguliere data” die we eerder analyseerden, is dat de tools die we gebruiken om het te verzamelen, op te slaan en te analyseren, moesten veranderen om rekening te houden met de toename in omvang en complexiteit. Met de nieuwste tools op de markt hoeven we niet langer te vertrouwen op bemonstering. In plaats daarvan kunnen we datasets in hun geheel verwerken en een veel completer beeld krijgen van de wereld om ons heen.
het belang van gegevensverzameling
dataverzameling verschilt van datamining in die zin dat het een proces is waarbij gegevens worden verzameld en gemeten. Dit alles moet worden gedaan voordat hoogwaardig onderzoek kan beginnen en antwoorden op aanhoudende vragen kunnen worden gevonden. Het verzamelen van gegevens wordt meestal gedaan met software, en er zijn veel verschillende procedures, strategieën en technieken voor het verzamelen van gegevens. De meeste gegevensverzameling is gericht op elektronische gegevens, en aangezien dit soort gegevensverzameling zoveel informatie omvat, kruist het meestal in het rijk van big data.
dus waarom is gegevensverzameling belangrijk? Het is door het verzamelen van gegevens dat een bedrijf of management heeft de kwaliteit van de informatie die ze nodig hebben om weloverwogen beslissingen te nemen van verdere analyse, studie, en onderzoek. Zonder dataverzameling zouden bedrijven rondstrompelen in het donker met behulp van verouderde methoden om hun beslissingen te nemen. Het verzamelen van gegevens stelt hen in plaats daarvan in staat om op de hoogte te blijven van trends, antwoorden op problemen te bieden en nieuwe inzichten met groot effect te analyseren.
de meest sexy baan van de 21e eeuw?
na het verzamelen van gegevens moeten al die gegevens door iemand worden verwerkt, onderzocht en geïnterpreteerd voordat ze voor inzichten kunnen worden gebruikt. Het maakt niet uit wat voor soort gegevens je het over hebt, die iemand is meestal een data scientist.
Data scientists zijn nu een van de meest gewilde posities. Een voormalig directeur bij Google ging zelfs zo ver om het de “meest sexy baan van de 21e eeuw” te noemen.
om een data scientist te worden heb je een solide basis nodig in de informatica, modellering, statistiek, analyse en wiskunde. Wat hen onderscheidt van de traditionele functie titels is een begrip van bedrijfsprocessen en een vermogen om de kwaliteit bevindingen te communiceren aan zowel business management en IT-leiders op een manier die kan beïnvloeden hoe een organisatie benadert een zakelijke uitdaging en problemen langs de weg te beantwoorden.
gegevensbronnen
als u meer wilt weten over big data, het verzamelen van gegevens, of wilt profiteren van alles wat het te bieden heeft, bekijk dan deze blogs, evenementen, bedrijven en meer.
Gegevensblogs
- vloeiende gegevens-uitgevoerd door Dr. Nathan Yau, PhD, heeft tutorials, visualisaties, middelen, reserveer aanbevelingen en humoristische discussies over de uitdagingen van de industrie
- FiveThirtyEight beheerd door data-wiz Nate Silver, het biedt data-analyse op het populaire nieuws onderwerpen in de politiek, cultuur, sport en economie
- Edwin Chen – de zelf-benoemde blog van de hoofd data scientist bij Dropbox, deze blog biedt hand-on tips voor het gebruik van algoritmen en analyse
- Data Science per week – voor het laatste nieuws in data science, dit is de ultieme e-mail nieuwsbrief
- Geen Gratis Voorgevoel (Kaggle) – organiseert een aantal predictive modeling wedstrijden. Hun competitie en data science blog, behandelt alle dingen die verband houden met de sport van data science.
- SmartData Collective-een online community gemodereerd door Social Media Today die informatie biedt over de laatste trends op het gebied van business intelligence, databeheer en dataverzameling.
- KDnuggets-is een uitgebreide bron voor iedereen met een gevestigd belang in de data science gemeenschap.
- Data Elixir-is een geweldige roundup van data nieuws over het web, kunt u een wekelijkse digest rechtstreeks naar uw inbox.
Gegevens beïnvloeders
- Marcus Borba (CTO Vonk) – zijn-feed is gestapeld met visualisaties van complexe, concepten als het Internet of Things (IoT) en verschillende incarnaties van NoSQL
- Lillian Pierson (Auteur, Gegevens Wetenschap voor Dummies) – ze links naar een reeks informatieve artikelen, van nieuws clips op de laatste bedrijven profiteren van Big Data de nuttige blog berichten van beïnvloeders in zowel de gegevens van de wetenschap en het bedrijfsleven ruimte
- Kirk Borne (Belangrijkste Data Scientist bij BoozAllen) – berichten en retweets links naar boeiende artikelen op Big Data and data science
- 40 data mavericks under 40-Deze lijst omvat de who ‘ s who van de bright and innovative in data and startups
Data conferences
- Strata + Hadoop World – New York, NY (Sept. 29-okt. 1) – richt zich specifiek op de gevolgen van Big Data voor big business.
- Extract-San Francisco, CA (oktober 30) – het samenbrengen van meer dan 600 van de knapste koppen in data science om growth hacking te combineren met data-analyse om u uit te rusten om de beste data scientist in het veld te zijn.
- Big Data Tech Con 2015-Chicago, IL – November 2 -4) – een belangrijke “how to” Voor het gebruik van Big Data die zal blijken te zijn zeer leerzaam in hoe nieuwe bedrijven nemen op Big Data.
- Big Data Bootcamp-Tampa, FL (7-9 December) – een intensieve, beginnersvriendelijke, hands-on trainingservaring die jezelf onderdompelt in de wereld van Big Data
- Big Data Innovation Summit-Las Vegas, NV (21-22 januari) – hoor van mensen als Hershey, Netflix en het Department of Homeland Security over hoe je je gegevens uitvoerbaar en effectief kunt maken.
- Data Summit 2016 – New York, NY (9-11 mei) – brengt overheidsinstanties, openbare instellingen en toonaangevende bedrijven samen om nieuwe technologieën en strategieën te benutten voor het verder integreren van gegevens in uw dagelijkse ervaring.
Data courses
- Udemy-gratis en betaald voor online cursussen om u alles te leren wat u moet weten
- Code School – leer Online programmeren door deze eenvoudige stap voor stap tutorials en cursussen te volgen
- Decoded – essential introduction to code that unlocks the immense potential of the digital world
- Data Camp – bouw een solide basis in data science, en versterk uw R programmeervaardigheden.Coursera-in samenwerking met topuniversiteiten en organisaties om online cursussen aan te bieden
- W3schools – heeft geweldige online tutorials voor het leren van basisvaardigheden op het gebied van programmeren en data-analyse.
Data tools
- OpenRefine-een software voor het opschonen van gegevens waarmee u uw gegevens vooraf kunt verwerken voor analyse.
- WolframAlpha-geeft gedetailleerde antwoorden op technische zoekopdrachten en doet zeer complexe berekeningen. Voor zakelijke gebruikers, het presenteert informatie grafieken en grafieken, en is uitstekend voor high level pricing geschiedenis, commodity informatie, en onderwerp overzichten.
- Import.io Hiermee kunt u de ongestructureerde gegevens weergegeven op webpagina ‘ s om te zetten in gestructureerde tabellen van gegevens die toegankelijk zijn via een API.
- Trifacta-clean en wrangle gegevens van bestanden & databases die u niet kon verwerken in excel, met eenvoudig te gebruiken statistische tools
- Tableau-een visualisatie tool die het gemakkelijk maakt om uw gegevens op nieuwe manieren te bekijken.
- Google Fusion Tables – een veelzijdige tool voor data-analyse, visualisatie van grote datasets en mapping.
- Blockspring-krijg live-gegevens, maak interactieve kaarten, krijg street view-afbeeldingen, uitvoeren beeldherkenning, en opslaan in Dropbox met deze Google Sheets plugin
- Plot.ly-visualiseer uw gegevens op een eenvoudige manier om snel trends en inzichten te zien
- Luminoso-identificeer de relaties tussen trefwoorden en concepten binnen uw dataset en verzamel inzicht over productperceptie
- BigML-Bouw een model van uw markt, met alle variabelen zoals prijzen, productfuncties en geografie