Was sind Daten und warum sind sie wichtig?

* Ursprünglich veröffentlicht am September 16, 2015. Aktualisiert am Juni 28th, 2018

Daten – Eine Sammlung von Fakten (Zahlen, Wörter, Messungen, Beobachtungen usw.), die in eine Form übersetzt wurden, die Computer verarbeiten können

Unabhängig davon, in welcher Branche Sie arbeiten oder welche Interessen Sie haben, werden Sie mit ziemlicher Sicherheit auf eine Geschichte darüber gestoßen sein, wie „Daten“ das Gesicht unserer Welt verändern. Es könnte Teil einer Studie sein, die hilft, eine Krankheit zu heilen, den Umsatz eines Unternehmens zu steigern, ein Gebäude effizienter zu machen oder für die gezielten Anzeigen verantwortlich zu sein, die Sie immer wieder sehen.

Im Allgemeinen ist Daten einfach ein anderes Wort für Information. Aber in der Informatik und in der Wirtschaft (das meiste, worüber Sie in den Nachrichten lesen, wenn es um Daten geht – besonders wenn es um Big Data geht), beziehen sich Daten auf Informationen, die maschinenlesbar sind, im Gegensatz zu menschenlesbar.

Menschen gegen Maschinen

Menschenlesbar (auch als unstrukturierte Daten bezeichnet) bezieht sich auf Informationen, die nur Menschen interpretieren und studieren können, z. B. ein Bild oder die Bedeutung eines Textblocks. Wenn eine Person sie interpretieren muss, sind diese Informationen für Menschen lesbar.

Maschinenlesbare (oder strukturierte Daten) bezieht sich auf Informationen, die Computerprogramme verarbeiten können. Ein Programm ist eine Reihe von Anweisungen zum Bearbeiten von Daten. Und wenn wir Daten nehmen und eine Reihe von Programmen anwenden, erhalten wir Software. Damit ein Programm Anweisungen für Daten ausführen kann, müssen diese Daten eine einheitliche Struktur haben.

Zum Beispiel verwandelte der US-Marineoffizier Matthew Maury Jahre alter handgeschriebener Schiffsprotokolle (menschenlesbar) in eine große Sammlung von Koordinatenrouten (maschinenlesbar). Er war dann in der Lage, diese Routen massenhaft zu bearbeiten, um die durchschnittliche Schiffsreise um 33% zu reduzieren.

Daten in den Nachrichten

Wenn es um die Arten von strukturierten Daten geht, die in Forbes-Artikeln und McKinsey-Berichten enthalten sind, gibt es einige verschiedene Arten, die die meiste Aufmerksamkeit erregen …

Persönliche Daten

Persönliche Daten sind alles, was für Sie spezifisch ist. Es deckt Ihre Demografie, Ihren Standort, Ihre E-Mail-Adresse und andere identifizierende Faktoren ab. Es ist normalerweise in den Nachrichten, wenn es durchgesickert ist (wie der Ashley Madison-Skandal) oder auf kontroverse Weise verwendet wird (als Uber herausfand, wer eine Affäre hatte).

Viele verschiedene Unternehmen sammeln Ihre persönlichen Daten (vor allem Social-Media-Sites), immer wenn Sie Ihre E-Mail-Adresse oder Kreditkartendaten eingeben müssen, geben Sie Ihre persönlichen Daten preis. Oft verwenden sie diese Daten, um Ihnen personalisierte Vorschläge zu machen, um Sie zu beschäftigen. Facebook verwendet Ihre persönlichen Daten beispielsweise, um Inhalte vorzuschlagen, die Sie möglicherweise sehen möchten, basierend auf dem, was andere Personen, die Ihnen ähnlich sind, mögen.

Darüber hinaus werden personenbezogene Daten aggregiert (um sie etwas zu entpersonalisieren) und dann an andere Unternehmen verkauft, hauptsächlich zu Werbe- und Wettbewerbsforschungszwecken. Auf diese Weise erhalten Sie gezielte Anzeigen und Inhalte von Unternehmen, von denen Sie noch nie gehört haben.

Transaktionsdaten

Transaktionsdaten sind alles, was eine Aktion zum Sammeln erfordert. Sie können auf eine Anzeige klicken, einen Kauf tätigen, eine bestimmte Webseite besuchen usw.

So ziemlich jede Website, die Sie besuchen, sammelt Transaktionsdaten irgendeiner Art, entweder über Google Analytics, ein anderes 3rd-Party-System oder ein eigenes internes Datenerfassungssystem.

Transaktionsdaten sind für Unternehmen unglaublich wichtig, da sie ihnen helfen, Variabilität aufzudecken und ihre Abläufe für Ergebnisse von höchster Qualität zu optimieren. Durch die Untersuchung großer Datenmengen ist es möglich, verborgene Muster und Zusammenhänge aufzudecken. Diese Muster können Wettbewerbsvorteile schaffen und zu geschäftlichen Vorteilen wie effektiverem Marketing und gesteigertem Umsatz führen.

Webdaten

Webdaten ist ein Sammelbegriff, der sich auf jede Art von Daten bezieht, die Sie aus dem Internet abrufen können, sei es für Forschungszwecke oder auf andere Weise. Das können Daten darüber sein, was Ihre Konkurrenten verkaufen, veröffentlichte Regierungsdaten, Fußballergebnisse usw. Es ist ein Catchall für alles, was Sie im Web finden können, das öffentlich zugänglich ist (dh nicht in einer internen Datenbank gespeichert ist). Das Studium dieser Daten kann sehr informativ sein, insbesondere wenn sie dem Management gut mitgeteilt werden.

Webdaten sind wichtig, da sie eine der wichtigsten Möglichkeiten für Unternehmen sind, auf Informationen zuzugreifen, die nicht von ihnen selbst generiert werden. Wenn Unternehmen hochwertige Geschäftsmodelle erstellen und wichtige BI-Entscheidungen treffen, benötigen sie Informationen darüber, was intern und extern in ihrem Unternehmen und auf dem weiteren Markt geschieht.

Webdaten können verwendet werden, um Wettbewerber zu überwachen, potenzielle Kunden zu verfolgen, Channel-Partner zu verfolgen, Leads zu generieren, Apps zu erstellen und vieles mehr. Seine Anwendungen werden immer noch entdeckt, da sich die Technologie zur Umwandlung unstrukturierter Daten in strukturierte Daten verbessert.

Webdaten können gesammelt werden, indem Sie Web Scraper schreiben, um sie zu sammeln, ein Scraping-Tool verwenden oder einen Dritten dafür bezahlen, das Scraping für Sie durchzuführen. Ein Web Scraper ist ein Computerprogramm, das eine URL als Eingabe verwendet und die Daten in einem strukturierten Format abruft – normalerweise einem JSON-Feed oder CSV.

Sensordaten

Sensordaten werden von Objekten erzeugt und werden oft als Internet der Dinge bezeichnet. Es deckt alles ab, von Ihrer Smartwatch, die Ihre Herzfrequenz misst, bis zu einem Gebäude mit externen Sensoren, die das Wetter messen.

Bisher wurden Sensordaten vor allem zur Prozessoptimierung genutzt. AirAsia konnte beispielsweise durch den Einsatz von Sensoren und Technologien von GE 30 bis 50 Millionen US-Dollar einsparen, um die Betriebskosten zu senken und die Flugzeugnutzung zu steigern. Durch die Messung dessen, was um sie herum geschieht, können Maschinen intelligente Änderungen vornehmen, um die Produktivität zu steigern und Menschen zu warnen, wenn sie Wartungsbedarf haben.

Wann werden Daten zu Big Data?

Technisch gesehen tragen alle oben genannten Datentypen zu Big Data bei. Es gibt keine offizielle Größe, die Daten „groß“ macht. Der Begriff steht einfach für die zunehmende Menge und die unterschiedlichen Arten von Daten, die jetzt im Rahmen der Datenerfassung gesammelt werden.

Da immer mehr Informationen der Welt online gehen und digitalisiert werden, bedeutet dies, dass Analysten beginnen können, sie als Daten zu verwenden. Dinge wie Social Media, Online-Bücher, Musik, Videos und die erhöhte Anzahl von Sensoren haben alle zu der erstaunlichen Zunahme der Datenmenge beigetragen, die für die Analyse verfügbar geworden ist.

Was Big Data von den „regulären Daten“ unterscheidet, die wir zuvor analysiert haben, ist, dass sich die Tools, mit denen wir sie sammeln, speichern und analysieren, ändern mussten, um der Zunahme von Größe und Komplexität gerecht zu werden. Mit den neuesten Tools auf dem Markt müssen wir uns nicht mehr auf Sampling verlassen. Stattdessen können wir Datensätze in ihrer Gesamtheit verarbeiten und ein viel vollständigeres Bild der Welt um uns herum erhalten.

Die Bedeutung der Datenerfassung

Die Datenerfassung unterscheidet sich vom Data Mining darin, dass es sich um einen Prozess handelt, mit dem Daten gesammelt und gemessen werden. All dies muss getan werden, bevor qualitativ hochwertige Forschung beginnen kann und Antworten auf anhaltende Fragen gefunden werden können. Die Datenerfassung erfolgt normalerweise mit Software, und es gibt viele verschiedene Datenerfassungsverfahren, Strategien und Techniken. Die meisten Datenerhebungen konzentrieren sich auf elektronische Daten, und da diese Art der Datenerfassung so viele Informationen umfasst, geht sie normalerweise in den Bereich der Big Data über.

Warum ist die Datenerfassung so wichtig? Durch die Datenerfassung verfügt ein Unternehmen oder Management über die Qualitätsinformationen, die es benötigt, um fundierte Entscheidungen aus weiteren Analysen, Studien und Forschungen zu treffen. Ohne Datenerfassung würden Unternehmen mit veralteten Methoden im Dunkeln herumstolpern, um ihre Entscheidungen zu treffen. Die Datenerfassung ermöglicht es ihnen stattdessen, über Trends auf dem Laufenden zu bleiben, Antworten auf Probleme zu geben und neue Erkenntnisse mit großer Wirkung zu analysieren.

Der sexieste Job des 21.Jahrhunderts?

Nach der Datenerfassung müssen alle diese Daten von jemandem verarbeitet, recherchiert und interpretiert werden, bevor sie für Erkenntnisse verwendet werden können. Egal über welche Art von Daten Sie sprechen, dass jemand normalerweise ein Datenwissenschaftler ist.

Data Scientists sind heute eine der gefragtesten Positionen. Ein ehemaliger Exec bei Google ging sogar so weit, es den „sexiest Job des 21.Jahrhunderts“ zu nennen.

Um Data Scientist zu werden, benötigen Sie eine solide Grundlage in Informatik, Modellierung, Statistik, Analytik und Mathematik. Was sie von traditionellen Berufsbezeichnungen unterscheidet, ist ein Verständnis von Geschäftsprozessen und die Fähigkeit, Qualitätsergebnisse sowohl an die Geschäftsleitung als auch an IT-Führungskräfte zu kommunizieren, die beeinflussen können, wie eine Organisation eine geschäftliche Herausforderung angeht und Probleme auf dem Weg beantwortet.

Datenressourcen

Wenn Sie mehr über Big Data und Datenerfassung erfahren möchten oder alles nutzen möchten, was es zu bieten hat, schauen Sie sich diese Blogs, Veranstaltungen, Unternehmen und mehr an.

Datenblogs

  • Fließende Daten – geführt von Dr. Nathan Yau, PhD, bietet Tutorials, Visualisierungen, Ressourcen, Buchempfehlungen und humorvolle Diskussionen zu Herausforderungen der Branche
  • FiveThirtyEight – geführt von Daten-Wiz Nate Silver, bietet es Datenanalysen zu beliebten Nachrichtenthemen in Politik, Kultur, Sport und Wirtschaft
  • Edwin Chen – der selbsternannte Blog des Head Data Scientist bei Dropbox, dieser Blog bietet praktische Tipps zur Verwendung von Algorithmen und Analysen
  • Data Science Weekly – Für die neuesten Nachrichten in der Datenwissenschaft ist dies der ultimative E-Mail–Newsletter
  • No Free Hunch (Kaggle) – veranstaltet eine Reihe von vorausschauenden Modellierungswettbewerben. Ihr Wettbewerb und Data Science Blog, deckt alles ab, was mit dem Sport der Datenwissenschaft zu tun hat.
  • SmartData Collective – eine von Social Media Today moderierte Online-Community, die Informationen zu den neuesten Trends in den Bereichen Business Intelligence, Datenmanagement und Datenerfassung bereitstellt.
  • KDnuggets – ist eine umfassende Ressource für alle, die ein Interesse an der Data Science-Community haben.
  • Datenelixier – ist eine großartige Zusammenfassung von Datennachrichten im Internet.

Datenbeeinflusser

  • Marcus Borba (CTO Spark) – Sein Feed ist mit Visualisierungen komplexer Konzepte wie dem Internet der Dinge (IoT) und mehreren Inkarnationen von NoSQL
  • Lillian Pierson (Autor, Data Science for Dummies) – Sie verlinkt auf eine Schar informativer Artikel, von Nachrichtenclips über die neuesten Unternehmen, die Big Data nutzen, bis hin zu hilfreichen beiträge von Influencern aus dem Bereich Data Science und Business
  • Kirk Borne (Principal Data Scientist bei BoozAllen) – Beiträge und Retweets Links zu faszinierenden Artikeln über Big Data und Data Science
  • 40 Data Mavericks unter 40 – diese Liste umfasst das Who is Who der hellen und innovativen Daten und Startups

Datenkonferenzen

  • Strata + Hadoop World – New York, NY (Sept. 29 – Okt. 1) – konzentriert sich speziell auf die Auswirkungen von Big Data auf Big Business.
  • Extract – San Francisco, CA (Oktober 30) – Zusammenführung von mehr als 600 der besten Köpfe in der Datenwissenschaft, um Growth Hacking mit Datenanalyse zu kombinieren, um Sie zum besten Datenwissenschaftler auf diesem Gebiet auszurüsten.
  • Big Data Tech Con 2015 – Chicago, IL (2. -4. November) – ein wichtiges „How to“ für die Nutzung von Big Data, das sich als sehr lehrreich erweisen wird, wie neue Unternehmen Big Data übernehmen.
  • Big Data Bootcamp – Tampa, FL (Dezember 7-9) – eine intensive, anfängerfreundliche, praktische Trainingserfahrung, die Sie in die Welt der Big Data eintaucht
  • Big Data Innovation Summit – Las Vegas, NV (Januar 21-22) – Hören Sie von Leuten wie Hershey, Netflix und dem Department of Homeland Security, wie Sie Ihre Daten verwertbar und effektiv machen können.
  • Data Summit 2016 – New York, NY (9. -11. Mai) – bringt Regierungsbehörden, öffentliche Institutionen und führende Unternehmen zusammen, um neue Technologien und Strategien für die weitere Integration von Daten in Ihre tägliche Erfahrung zu nutzen.

Datenkurse

  • Udemy – kostenlose und kostenpflichtige Online–Kurse, in denen Sie alles lernen, was Sie wissen müssen
  • Code School – Lernen Sie das Codieren online, indem Sie diesen einfachen Schritt–für-Schritt-Anleitungen und Kursen folgen
  • Decoded – wesentliche Einführung in Code, die das immense Potenzial der digitalen Welt erschließt
  • Data Camp – bauen Sie eine solide Grundlage in Data Science auf und stärken Sie Ihre R-Programmierkenntnisse.
  • Coursera – Partnerschaft mit Top–Universitäten und Organisationen, um Kurse online anzubieten
  • W3schools – bietet großartige Online-Tutorials zum Erlernen grundlegender Codierungs- und Datenanalysefähigkeiten.

Data Tools

  • OpenRefine – eine Datenbereinigungssoftware, mit der Sie Ihre Daten für die Analyse vorverarbeiten können.
  • WolframAlpha – liefert detaillierte Antworten auf technische Suchanfragen und führt sehr komplexe Berechnungen durch. Für Geschäftsanwender werden Informationsdiagramme und -grafiken angezeigt, und eignet sich hervorragend für Preisentwicklungen auf hohem Niveau, Wareninformationen, und Themenübersichten.
  • Import.io mit is können Sie die auf Webseiten angezeigten unstrukturierten Daten in strukturierte Datentabellen umwandeln, auf die über eine API zugegriffen werden kann.
  • Trifacta – reinigen und wrangle Daten von Dateien & Datenbanken, die Sie nicht in Excel umgehen konnte, mit einfach zu statistischen Tools verwenden
  • Tableau – ein Visualisierungstool, das es einfach, Ihre Daten auf neue Weise zu betrachten macht.
  • Google Fusion Tables – ein vielseitiges Werkzeug für die Datenanalyse, Visualisierung großer Datensätze und Mapping.
  • Blockspring – Holen Sie sich Live-Daten, erstellen Sie interaktive Karten, erhalten Sie Street View-Bilder, führen Sie die Bilderkennung aus und speichern Sie sie in Dropbox mit diesem Google Sheets Plugin
  • Plot.ly – Visualisieren Sie Ihre Daten auf einfache Weise, um Trends und Erkenntnisse schnell zu erkennen
  • Luminoso – Identifizieren Sie die Beziehungen zwischen Schlüsselwörtern und Konzepten in Ihrem Datensatz und gewinnen Sie Einblicke in die Produktwahrnehmung
  • BigML – Erstellen Sie ein Modell Ihres Marktes mit allen Variablen wie Preisen, Produktmerkmalen und Geografie