O que são dados, e por que é importante?

*originalmente publicado em 16 de setembro de 2015. Atualizado em 28 de junho de 2018

Dados – uma coleção de fatos (números, palavras, medições, observações, etc.), que foi traduzido em uma forma que os computadores possam processar

Qualquer setor onde você trabalha, ou seja qual for o seu interesse, você quase certamente irá deparei com uma história sobre como “dados” está mudando a cara do nosso mundo. Pode ser parte de um estudo que ajuda a curar uma doença, aumentar a receita de uma empresa, tornar um edifício mais eficiente ou ser responsável pelos anúncios que você continua vendo.

em geral, dados são simplesmente outra palavra para informação. Mas em computação e negócios (a maioria do que você lê nas notícias quando se trata de dados – especialmente se é sobre grandes dados), os dados se referem a informação que é legível por máquina em oposição a legível por humanos.

Humanos vs Máquinas

legível (também conhecidos como dados não estruturados) refere-se à informação de que apenas os seres humanos podem interpretar e estudar, como uma imagem ou o significado de um bloco de texto. Se requer que uma pessoa a interprete, essa informação é legível pelo homem.

dados legíveis por máquina (ou estruturados) refere-se à informação que os programas de computador podem processar. Um programa é um conjunto de instruções para manipular dados. E quando pegamos dados e aplicamos um conjunto de programas, obtemos software. Para que um programa possa executar instruções sobre os dados, esses dados devem ter algum tipo de estrutura uniforme.

por exemplo, o oficial naval norte-americano Matthew Maury, transformou anos de velhos diários de bordo escritos à mão (legível pelo homem) em uma grande coleção de rotas de coordenadas (legível por máquina). Ele foi então capaz de processar essas rotas em massa para reduzir a viagem Naval média em 33%.

Dados da notícia

Quando se trata de tipos de dados estruturados que são na Forbes artigos e McKinsey relatórios, existem alguns tipos diferentes que tendem a ficar mais atenção…

dados Pessoais

dados Pessoais é algo que é específico para você. Cobre a sua demografia, a sua localização, o seu endereço de E-mail e outros factores de identificação. É geralmente nas notícias quando ele vaza (como o escândalo Ashley Madison) ou está sendo usado de uma forma controversa (quando Uber trabalhou para fora quem estava tendo um caso).

muitas empresas diferentes coletam seus dados pessoais (especialmente sites de mídia social), a qualquer hora que você tem que colocar em seu endereço de E-mail ou dados de cartão de crédito que você está dando seus dados pessoais. Muitas vezes eles vão usar esses dados para lhe fornecer sugestões personalizadas para mantê-lo ocupado. O Facebook, por exemplo, usa suas informações pessoais para sugerir conteúdo que você pode gostar de ver com base no que outras pessoas semelhantes a você gostam.

além disso, os dados pessoais são agregados (para despersonalizá-lo um pouco) e depois vendidos a outras empresas, principalmente para fins publicitários e de investigação competitiva. Essa é uma das maneiras que você recebe anúncios e conteúdo de empresas que você nunca ouviu falar.

dados transacionais

dados transacionais é qualquer coisa que requer uma ação para coletar. Você pode clicar em um anúncio, fazer uma compra, visitar uma determinada página web, etc.

praticamente todos os sites que você visita coletam dados transacionais de algum tipo, seja através do Google Analytics, outro sistema de terceiros ou seu próprio sistema interno de captura de dados.

os dados transacionais são extremamente importantes para as empresas, porque os ajuda a expor a variabilidade e a otimizar as suas operações para obter os resultados de mais alta qualidade. Ao examinar grandes quantidades de dados, é possível descobrir padrões e correlações ocultas. Estes padrões podem criar vantagens competitivas, e resultar em benefícios comerciais como marketing mais eficaz e aumento da receita.Dados web

dados Web

dados Web é um termo coletivo que se refere a qualquer tipo de dados que você pode puxar da internet, quer para estudar para fins de pesquisa ou de outra forma. Isso pode ser dados sobre o que seus concorrentes estão vendendo, dados publicados do governo, pontuações de futebol, etc. É um catchall para qualquer coisa que você pode encontrar na web que é público face (ou seja, não armazenado em algum banco de dados interno). Estudar estes dados pode ser muito informativo, especialmente quando comunicado bem à gestão.

os dados da Web são importantes porque é uma das principais maneiras pelas quais as empresas podem acessar informações que não são geradas por si mesmas. Ao criar modelos de negócios de qualidade e tomar importantes decisões BI, as empresas precisam de informações sobre o que está acontecendo interna e externamente dentro de sua organização e o que está acontecendo no mercado mais amplo.

os dados Web podem ser usados para monitorar concorrentes, rastrear potenciais clientes, acompanhar parceiros de canal, gerar pistas, criar aplicativos e muito mais. Os seus usos ainda estão a ser descobertos à medida que a tecnologia para transformar dados não estruturados em dados estruturados melhora.

os dados da Web podem ser coletados escrevendo raspadores da web para coletá-lo, usando uma ferramenta de raspagem, ou pagando a um terceiro para fazer o rasping para você. Um raspador web é um programa de computador que pega uma URL como uma entrada e puxa os dados para fora em um formato estruturado – geralmente um feed JSON ou CSV.Dados dos sensores

os dados dos sensores são produzidos por objetos e são muitas vezes referidos como a Internet das coisas. Cobre tudo desde o seu smartwatch medindo seu ritmo cardíaco até um edifício com sensores externos que medem o tempo.

até agora, os dados dos sensores têm sido usados principalmente para ajudar a otimizar os processos. Por exemplo, a AirAsia economizou US $30-50 milhões usando sensores GE e tecnologia para ajudar a reduzir os custos operacionais e aumentar o uso de aeronaves. Ao medir o que está acontecendo ao seu redor, as máquinas podem fazer mudanças inteligentes para aumentar a produtividade e alertar as pessoas quando elas precisam de manutenção.

quando é que os dados se tornam dados grandes?Tecnicamente, todos os tipos de dados acima contribuem para grandes dados. Não há tamanho oficial que torne os dados “grandes”. O termo representa simplesmente a quantidade crescente e os variados tipos de dados que estão agora a ser recolhidos como parte da recolha de dados.

à medida que mais e mais informações do mundo se movem online e se digitalizam, isso significa que os analistas podem começar a usá-las como dados. Coisas como mídia social, livros online, música, vídeos e o aumento da quantidade de sensores têm todos adicionado ao surpreendente aumento na quantidade de dados que se tornou disponível para análise.

a coisa que diferencia grandes dados dos “dados regulares” que estávamos analisando antes é que as ferramentas que usamos para coletar, armazenar e analisar tiveram que mudar para acomodar o aumento de tamanho e complexidade. Com as mais recentes ferramentas no mercado, não temos mais que confiar na amostragem. Em vez disso, podemos processar conjuntos de dados na sua totalidade e obter uma imagem muito mais completa do mundo à nossa volta.

A importância da coleta de dados

coleta de Dados difere de mineração de dados em que é um processo pelo qual os dados são coletados e medidos. Tudo isto tem de ser feito antes de se poder iniciar uma investigação de alta qualidade e encontrar respostas para as questões pendentes. A coleta de dados é geralmente feita com software, e há muitos procedimentos, estratégias e técnicas de coleta de dados diferentes. A maioria da coleta de dados é centrada em dados eletrônicos, e uma vez que este tipo de coleta de dados engloba tanta informação, ele geralmente cruza para o reino dos grandes dados.

então por que a recolha de dados é importante? É através da coleta de dados que uma empresa ou administração tem a informação de qualidade necessária para tomar decisões informadas a partir de análise, estudo e pesquisa adicionais. Sem a coleta de dados, as empresas tropeçariam no escuro usando métodos desatualizados para tomar suas decisões. A coleta de dados, em vez disso, permite-lhes ficar no topo das tendências, fornecer respostas para problemas e analisar novos insights com grande efeito.O trabalho mais sexy do século XXI?

após a coleta de dados, todos esses dados precisam ser processados, pesquisados e interpretados por alguém antes que possam ser usados para insights. Não importa de que tipo de dados você está falando, esse alguém geralmente é um cientista de dados.

os cientistas de dados são agora uma das posições mais procuradas. Um ex-executivo do Google chegou mesmo a chamar-lhe o “trabalho mais sexy do século XXI”.

para se tornar um cientista de dados você precisa de uma base sólida em Ciência da computação, modelagem, estatística, análise e matemática. O que os distingue dos títulos tradicionais de trabalho é a compreensão dos processos de negócio e a capacidade de comunicar resultados de qualidade tanto para a gestão de negócios como para os líderes de TI, de uma forma que possa influenciar a forma como uma organização aborda um desafio de negócio e responde a problemas ao longo do caminho.

recursos de Dados

Se você estiver interessado em aprender mais sobre grandes volumes de dados, coleta de dados, ou deseja começar a tirar proveito de tudo o que tem para oferecer, confira esses blogs, eventos, empresas e muito mais.

Data blogs

  • Flowing Data – run by Dr. Nathan Yau, PhD, tem tutoriais, visualizações, recursos, recomendações de livros e bem-humorado, as discussões sobre os desafios enfrentados pela indústria
  • FiveThirtyEight – executar de dados-wiz Nate Silver, oferece análise de dados no notícias populares na política, cultura, esportes e economia
  • Edwin Chen – a auto-chamado blog do cabeça de dados cientista no Dropbox, este blog oferece a mão sobre dicas para o uso de algoritmos de análise e
  • Ciência de Dados Semanalmente as últimas notícias na ciência de dados, este é o último boletim de e-mail
  • Sem Palpite (Kaggle) – organiza várias competições de modelos preditivos. Seu blog de competição e ciência dos dados, cobre todas as coisas relacionadas ao esporte da ciência dos dados.
  • Smartdata Collective – uma comunidade online moderada pelas redes sociais de hoje que fornece informações sobre as últimas tendências na inteligência de negócios, gestão de dados e coleta de dados.
  • KDnuggets-é um recurso abrangente para qualquer pessoa com um interesse adquirido na comunidade de ciência dos dados.
  • Data Elixir-é um grande ajuntamento de notícias de dados em toda a web, você pode obter uma digestão semanal enviada diretamente para a sua caixa de entrada.

Dados influenciadores

    Marcus Borba (CTO Faísca) – sua alimentação é empilhado com visualizações de conceitos complexos como a Internet das Coisas (IoT) e várias encarnações de NoSQL Lillian Pierson (Autor, Dados da Ciência para leigos) – ela liga para um bando de artigos informativos, a partir de clips de notícias sobre as últimas empresas que tiram proveito do Big Data, útil para as postagens do blog influenciadores tanto a ciência de dados e espaço de negócios Kirk Cargo (Dados Principais Cientista BoozAllen) – posts e tweets links para artigos fascinantes sobre Big Data and data science

  • 40 data mavericks under 40-this list includes the who’s who of the bright and innovative in data and startups

Data conferences

  • Strata + Hadoop World – New York, NY (Sept. 29-out. 1) – centra-se especificamente nas implicações do Big Data para o big business.Extract-San Francisco, CA (30 de outubro) – reunindo mais de 600 das melhores mentes em ciência de dados para combinar o crescimento hacking com análise de dados para equipá-lo para ser o melhor cientista de dados no campo.
  • Big Data Tech Con 2015-Chicago, IL (November 2 – 4) – a major “how to” for Big Data use that will be very instructive in how new businesses take on Big Data.
  • Big Data Bootcamp – Tampa, FL (dezembro de 7-9) – intensivo, novato-friendly, treinamento hands-on experiência que envolve-te no mundo do Big Data Big Data Cúpula de Inovação – oportunidades de hotéis de Las Vegas, NV (janeiro 21-22) – Ouvir o que gosta de Hershey, Netflix, e o Departamento de Segurança Interna, exatamente como você pode fazer os seus dados acionáveis e eficaz.

  • Data Summit 2016-New York, NY (9-11 de Maio) – reúne agências governamentais, instituições públicas e empresas líderes para aproveitar novas tecnologias e estratégias para incorporar mais dados em sua experiência cotidiana.

cursos

    Udemy – gratuitos e pagos para cursos on-line para ensinar tudo o que você precisa saber Código da Escola – aprender codificação on-line, seguindo estes simples, passo a passo, tutoriais e cursos Decodificado – essencial introdução ao código que desbloqueia o imenso potencial do mundo digital Dados Camp – construir uma base sólida de ciência de dados, e fortalecer o R habilidades de programação.

  • Coursera-em parceria com as principais universidades e organizações para oferecer cursos online
  • W3schools – tem grandes tutoriais online para aprender codificação básica e habilidades de análise de dados.

Ferramentas de dados

  • OpenRefine-um software de limpeza de dados que lhe permite pré-processar os seus dados para análise.
  • WolframAlpha-fornece respostas detalhadas a pesquisas técnicas e faz cálculos muito complexos. Para os usuários de negócios, ele apresenta gráficos e gráficos de informação, e é excelente para o histórico de preços de alto nível, Informações de commodities, e visão geral do tópico.
  • Import.io é permite que você transforme os dados não estruturados exibidos em páginas web em tabelas estruturadas de dados que podem ser acessados através de uma API.
  • Trifacta – dados limpos e emaranhados de ficheiros & bases de dados que não podia lidar no excel, com ferramentas estatísticas fáceis de usar
  • Tableau – uma ferramenta de visualização que torna fácil olhar para os seus dados de novas formas.
  • Google Fusion Tables – uma ferramenta versátil para análise de dados, visualização e mapeamento de grandes conjuntos de dados.
  • Blockspring-get live data, create interactive maps, get street view images, run image recognition, and save to Dropbox with this Google Sheets plugin
  • Plot.ly – visualizar os seus dados de uma maneira fácil de ver rapidamente as tendências e insights
  • Luminoso – identificar as relações entre as palavras e conceitos dentro de seu conjunto de dados e obter insight sobre o produto percepção BigML – Construir um modelo de mercado, com todas as variáveis como preço, características do produto e geografia