データとは何か、そしてなぜそれが重要なのか?
*当初はSeptember16,2015に公開されました。 Updated on June28th,2018
データ–コンピュータが処理できる形に翻訳された事実(数字、言葉、測定、観測など)の集まり
あなたが働いている業界、またはあなたの興味が何であれ、”データ”が私たちの世界の顔をどのように変えているかについての話にほぼ確実に遭遇するでしょう。 これは、病気を治す、会社の収益を高める、建物をより効率的にする、またはあなたが見続けるターゲット広告を担当するのに役立つ研究の一部であるか
一般に、データは単に情報のための別の言葉です。 しかし、コンピューティングとビジネス(データに関してはニュースで読んだことの大部分、特にビッグデータに関するもの)では、データは人間が読めるのではな
人間対機械
人間が読める(非構造化データとも呼ばれる)とは、画像やテキストブロックの意味など、人間だけが解釈して研究できる情報を指します。 人がそれを解釈する必要がある場合、その情報は人間が読めるものです。
機械可読(または構造化データ)とは、コンピュータプログラムが処理できる情報を指します。 プログラムは、データを操作するための命令のセットです。 そして、データを取得し、プログラムのセットを適用すると、我々はソフトウェアを取得します。 プログラムがデータに対して命令を実行するためには、そのデータはある種の均一な構造を持たなければならない。
例えば、米海軍士官Matthew Mauryは、長年の手書きの出荷ログ(人間が読める)を座標ルートの大規模なコレクション(機械が読める)に変えました。 彼はその後、これらのルートを一括して処理して、平均海軍の旅を33%削減することができました。
ニュースのデータ
フォーブスの記事やマッキンゼーのレポートにある構造化データの種類に関しては、最も注目される傾向があるいくつかの異なるタイプがあ それはあなたの人口統計、あなたの場所、あなたの電子メールアドレスやその他の識別要因をカバーしています。 それは(Ashley Madison scandalのように)リークされたり、議論の余地のある方法で使用されているとき(Uberが誰が浮気をしていたかを調べたとき)、通常ニュースになります。
さまざまな企業の多くは、あなたの個人データ(特にソーシャルメディアサイト)を収集し、いつでもあなたがあなたの個人データを配っているあなたの電子 多くの場合、彼らはあなたが従事し続けるためにパーソナライズされた提案を提供するために、そのデータを使用します。 たとえば、Facebookはあなたの個人情報を使用して、あなたに似た他の人が好きなものに基づいて見たいかもしれないコンテンツを提案します。
また、個人データは(多少の個人化を解除するために)集計され、主に広告や競争力のある研究目的で他の企業に販売されます。 それはあなたが決して聞いたことがない会社から目標とされたadsそして内容を得る方法の一つである。
トランザクションデータ
トランザクションデータは、収集するアクションを必要とするものです。 広告をかちりと鳴らしたり、購入をしたり、ある特定のwebページ、等を訪問するかもしれない。
あなたが訪問するほとんどすべてのウェブサイトは、Google Analytics、別のサードパーティのシステム、または独自の内部データキャプチャシステムを通じて、ある種の
トランザクションデータは、変動性を明らかにし、最高品質の結果を得るために業務を最適化するのに役立つため、企業にとって非常に重要です。 大量のデータを調べることで、隠されたパターンや相関関係を明らかにすることができます。 これらのパターンは比較優位を作成できより有効なマーケティングおよび高められた収入のようなビジネス利点で起因する。
ウェブデータ
ウェブデータは、研究目的で勉強するかどうかにかかわらず、インターネットから取得する可能性のあるあらゆる種類のデータを指す総称です。 それはあなたの競争相手が販売しているもののデータ、出版された政府データ、フットボールのスコア、等であるかもしれない。 これは、公開されているweb上で見つけることができるもの(つまり、内部データベースに保存されていないもの)のためのキャッチオールです。 このデータを研究することは、特に経営陣にうまく伝えられた場合には、非常に有益です。
Webデータは、企業が自分で生成されない情報にアクセスできる主要な方法の1つであるため、重要です。 質の高いビジネスモデルを作成し、重要なBI意思決定を行う場合、企業は組織内で内外で何が起こっているのか、より広い市場で何が起こっているの
ウェブデータを使用して、競合他社の監視、潜在的な顧客の追跡、チャネルパートナーの追跡、リードの生成、アプリの構築などを行うことができます。 非構造化データを構造化データに変換する技術が向上するにつれて、その用途はまだ発見されています。
ウェブデータは、それを収集するためにウェブスクレーパーを書くことによって収集することができます,スクレイピングツールを使用して,またはあなたの Webスクレーパーは、URLを入力として受け取り、構造化された形式(通常はJSONフィードまたはCSV)でデータを取り出すコンピュータプログラムです。
センサーデータは、オブジェクトによって生成され、多くの場合、モノのインターネットと呼ばれています。 それは天候を測定する外的なセンサーが付いている建物にあなたの心拍数を測定するあなたのsmartwatchからのすべてをカバーする。
これまでのところ、センサーデータはプロセスの最適化に主に使用されてきました。 例えば、エアアジアは、運用コストの削減と航空機の使用量の増加を支援するためにGEセンサーと技術を使用することにより、$30-50百万を節約しました。 彼らの周りで何が起こっているのかを測定することによって、機械は生産性を向上させ、メンテナンスが必要なときに人々に警告するためにスマート
データがビッグデータになるのはいつですか?
技術的には、上記のすべてのタイプのデータがビッグデータに貢献しています。 データを「大きく」する公式のサイズはありません。 この用語は、データ収集の一部として現在収集されているデータの増加量と多様なタイプを単に表しています。
世界の情報がますますオンラインで移動し、デジタル化されるにつれて、アナリストはそれをデータとして使用することができることを意味します。 ソーシャルメディア、オンラインブック、音楽、ビデオ、センサーの増加量のようなものは、すべての分析のために利用可能になっているデータ量の驚異的な増
ビッグデータを以前に分析していた”通常のデータ”と区別するのは、それを収集、保存、分析するために使用するツールが、サイズと複雑さの増加に対応するた 市場の最も最近の用具によって、私達はもはや見本抽出に頼る必要がありません。 代わりに、データセット全体を処理して、私たちの周りの世界をはるかに完全に把握することができます。
データ収集の重要性
データ収集は、データが収集され、測定されるプロセスであるという点で、データマイニングとは異なります。 このすべては、高品質の研究を開始することができ、長引く質問への回答を見つけることができる前に行われなければなりません。 データ収集は通常、ソフトウェアを使用して行われ、多くの異なるデータ収集手順、戦略、および技術があります。 ほとんどのデータ収集は電子データを中心としており、このタイプのデータ収集には多くの情報が含まれているため、通常はビッグデータの領域に入ります。
では、なぜデータ収集が重要なのでしょうか? データ収集を通じて、ビジネスや経営陣は、さらなる分析、研究、研究から情報に基づいた意思決定を行うために必要な品質の情報を持っています。 データ収集がなければ、企業は時代遅れの方法を使用して暗闇の中でつまずき、決定を下すことになります。 代わりにデータを収集することで、傾向を把握し、問題への回答を提供し、新しい洞察を分析して大きな効果を得ることができます。
21世紀の最もセクシーな仕事?
データ収集後、すべてのデータは、洞察に使用する前に、誰かによって処理、研究、解釈される必要があります。 あなたが話しているデータの種類に関係なく、その誰かは通常、データ科学者です。
データサイエンティストは現在、最も人気のあるポジションの一つです。 Googleの元幹部は、それを「21世紀の最もセクシーな仕事」と呼ぶことさえしました。
データサイエンティストになるためには、コンピュータサイエンス、モデリング、統計、分析、数学の強固な基盤が必要です。 伝統的な役職から離れてそれらを設定するものは、ビジネスプロセスの理解と、組織がビジネスの課題にアプローチし、道に沿って問題に答える方法に影響を与えることができる方法で、ビジネス管理とITリーダーの両方に品質の調査結果を通信する能力です。
データリソース
ビッグデータ、データ収集についての詳細を学ぶことに興味がある場合、またはそれが提供しているすべての利点を活用し始めたい場合は、こ
データブログ
- Nathan Yau,PhD,it has tutorials,visualizations,resources,book recommendations and humorous discussions on challenges faced by the industry
- fivethirtyeight–run by data-wiz Nate Silver,it offers data analysis on popular news topics in politics,culture,sports and economics
- Edwin Chen–Dropboxのヘッドデータ科学者からの自己命名ブログ,このブログは、アルゴリズムと分析を使用するためのヒントを提供しています
- データサイエンスウィークリー-データサイエンスウィークリーの最新ニュースは、これが究極のメールニュースレター
- 無料の勘はありません(kaggle) -予測モデリング競技の数をホストします。 彼らの競争とデータサイエンスブログは、データサイエンスのスポーツに関連するすべてのものをカバーしています。
- SmartData Collective–今日のソーシャルメディアによって司会されたオンラインコミュニティで、ビジネスインテリジェンス、データ管理、データ収集の最新動向に関する情報
- KDnuggets–データサイエンスコミュニティに既得権益を持つ人のための包括的なリソースです。
- Data Elixir–ウェブ上のデータニュースの素晴らしいまとめです、あなたはあなたの受信トレイに直接送信された毎週のダイジェストを得ることができます。
データインフルエンサー
- Marcus Borba(CTO Spark)–彼のフィードは、モノのインターネット(IoT)やNoSQLのいくつかの化身のような複雑な概念の視覚化で積み重ねられています
- Lillian Pierson(著者、Dummiesのためのデータサイエンス)–彼女はビッグデータを利用している最新の企業のニュースクリップから、有益な記事の群れにリンクしています。データサイエンスとビジネス分野の両方の影響力のあるブログ投稿
- kirk borne(boozallenのプリンシパルデータサイエンティスト)–上の魅力的な記事への投稿とリツイート ビッグデータとデータサイエンス
- 40data mavericks under40–このリストは、データとスタートアップ
データ会議
- Strata+Hadoop World–ニューヨーク、ニューヨーク(Sept. 29-Oct. 1)-ビッグデータの大企業への影響に特に焦点を当てています。
- Extract–カリフォルニア州サンフランシスコ(10月30日)–成長ハッキングとデータ分析を組み合わせて、600人以上のデータサイエンスの最高の心を結集し、現場で最高のデータサイエンティストになるための装備を提供します。
- Big Data Tech Con2015–シカゴ、イリノイ州(November2–4)-新しいビジネスがビッグデータをどのように取るかに非常に有益であることが証明されるビッグデータの使用のた
- Big Data Bootcamp–フロリダ州タンパ(December7–9)-ビッグデータの世界に身を浸す集中的な、初心者に優しい、実践的なトレーニング体験
- Big Data Innovation Summit-ネバダ州ラスベガス(January21–22)–ハーシー、Netflix、国土安全保障省の同類から、データを実用的かつ効果的にする方法について聞いてください。
- Data Summit2016–ニューヨーク、ニューヨーク(May9–11)-政府機関、公的機関、および主要企業を結集して、日々の経験にデータをさらに組み込むための新しい技術と戦略を活用します。
データコース
- Udemy–あなたが知る必要があるすべてを教えるために、オンラインコースのための無料と有料
- コードスクール–ステップのチュートリアルとコーデータサイエンスの強固な基盤、およびあなたのrプログラミングスキルを強化します。
- Coursera–オンラインコースを提供するためにトップの大学や組織と提携
- W3Schools–基本的なコーディングとデータ分析スキルを学ぶための素晴らしいオンライ
データツール
- OpenRefine–分析のためにデータを前処理することを可能にするデータクリーニングソフトウェア。
- WolframAlpha–技術的な検索に対する詳細な応答を提供し、非常に複雑な計算を行います。 ビジネスユーザーのために、それは情報チャートやグラフを提示し、高レベルの価格履歴、商品情報、およびトピックの概要のために優れています。
- Import.io isを使用すると、webページに表示される非構造化データを、APIを介してアクセスできるデータの構造化テーブルに変換できます。
- Trifacta–ファイルのデータをきれいにし、論争&使いやすい統計ツールで、excelで扱うことができなかったデータベース
- Tableau–新しい方法でデータを見やすくする視覚化ツール。
- Google Fusion Tables–データ分析、大規模なデータセットの視覚化とマッピングのための汎用性の高いツール。
- Blockspring–ライブデータを取得し、インタラクティブなマップを作成し、ストリートビュー画像を取得し、画像認識を実行し、このGoogle Sheetsプラグイン
- プロットでDropboxに保存します。ly-データを簡単に視覚化して、トレンドと洞察をすばやく確認
- Luminoso–データセット内のキーワードと概念の関係を特定し、製品の知覚に関する洞察を収集
- BigML–価格、製品の機能、地理などのすべての変数を使用して、市場のモデルを構築