Qu’est-ce que les données et pourquoi sont-elles importantes ?
* Initialement publié le 16 septembre 2015. Mis à jour le 28 juin 2018
Données – une collection de faits (chiffres, mots, mesures, observations, etc.) qui a été traduite sous une forme que les ordinateurs peuvent traiter
Quel que soit le secteur dans lequel vous travaillez, ou quels que soient vos intérêts, vous aurez presque certainement rencontré une histoire sur la façon dont les « données » changent la face de notre monde. Cela peut faire partie d’une étude aidant à guérir une maladie, à augmenter les revenus d’une entreprise, à rendre un bâtiment plus efficace ou à être responsable des publicités ciblées que vous continuez à voir.
En général, les données sont simplement un autre mot pour information. Mais dans l’informatique et les affaires (la plupart de ce que vous lisez dans les nouvelles en ce qui concerne les données – surtout s’il s’agit de Big Data), les données font référence à des informations lisibles par machine, par opposition à lisibles par l’homme.
Humains vs machines
Les données lisibles par l’homme (également appelées données non structurées) désignent des informations que seuls les humains peuvent interpréter et étudier, telles qu’une image ou la signification d’un bloc de texte. Si elle exige qu’une personne l’interprète, cette information est lisible par l’homme.
Les données lisibles par machine (ou structurées) désignent les informations que les programmes informatiques peuvent traiter. Un programme est un ensemble d’instructions pour manipuler des données. Et lorsque nous prenons des données et appliquons un ensemble de programmes, nous obtenons des logiciels. Pour qu’un programme exécute des instructions sur des données, ces données doivent avoir une sorte de structure uniforme.
Par exemple, l’officier de marine américain Matthew Maury a transformé des années de vieux journaux d’expédition écrits à la main (lisibles par l’homme) en une grande collection d’itinéraires de coordonnées (lisibles par la machine). Il a ensuite pu traiter ces routes en masse pour réduire le voyage naval moyen de 33%.
Données dans l’actualité
En ce qui concerne les types de données structurées qui figurent dans les articles de Forbes et les rapports McKinsey, il existe quelques types différents qui ont tendance à attirer le plus l’attention
Données personnelles
Les données personnelles sont tout ce qui vous est spécifique. Il couvre vos données démographiques, votre emplacement, votre adresse e-mail et d’autres facteurs d’identification. C’est généralement dans les nouvelles quand il est divulgué (comme le scandale Ashley Madison) ou est utilisé de manière controversée (lorsque Uber a déterminé qui avait une liaison).
De nombreuses entreprises différentes collectent vos données personnelles (en particulier les sites de médias sociaux), chaque fois que vous devez entrer votre adresse e-mail ou les détails de votre carte de crédit que vous donnez vos données personnelles. Souvent, ils utiliseront ces données pour vous fournir des suggestions personnalisées afin de vous fidéliser. Facebook, par exemple, utilise vos informations personnelles pour suggérer du contenu que vous aimeriez voir en fonction de ce que d’autres personnes similaires à vous aiment.
De plus, les données personnelles sont agrégées (pour les dépersonnaliser quelque peu) puis vendues à d’autres entreprises, principalement à des fins de publicité et de recherche concurrentielle. C’est l’une des façons dont vous obtenez des publicités et du contenu ciblés de la part d’entreprises dont vous n’avez jamais entendu parler.
Données transactionnelles
Les données transactionnelles sont tout ce qui nécessite une action à collecter. Vous pouvez cliquer sur une annonce, effectuer un achat, visiter une certaine page Web, etc.
À peu près tous les sites Web que vous visitez collectent des données transactionnelles de quelque nature que ce soit, soit via Google Analytics, un autre système tiers ou leur propre système de capture de données interne.
Les données transactionnelles sont extrêmement importantes pour les entreprises car elles les aident à exposer la variabilité et à optimiser leurs opérations pour des résultats de la plus haute qualité. En examinant de grandes quantités de données, il est possible de découvrir des modèles et des corrélations cachés. Ces modèles peuvent créer des avantages concurrentiels et se traduire par des avantages commerciaux tels qu’un marketing plus efficace et une augmentation des revenus.
Données Web
Les données Web sont un terme collectif qui désigne tout type de données que vous pourriez extraire d’Internet, que ce soit pour étudier à des fins de recherche ou autrement. Cela peut être des données sur ce que vos concurrents vendent, des données gouvernementales publiées, des scores de football, etc. C’est un fourre-tout pour tout ce que vous pouvez trouver sur le Web qui est public (c’est-à-dire non stocké dans une base de données interne). L’étude de ces données peut être très informative, surtout lorsqu’elles sont bien communiquées à la direction.
Les données Web sont importantes car elles constituent l’un des principaux moyens pour les entreprises d’accéder à des informations qui ne sont pas générées par elles-mêmes. Lorsqu’elles créent des modèles commerciaux de qualité et prennent des décisions importantes en matière de BI, les entreprises ont besoin d’informations sur ce qui se passe en interne et en externe au sein de leur organisation et sur ce qui se passe sur le marché au sens large.
Les données Web peuvent être utilisées pour surveiller les concurrents, suivre les clients potentiels, suivre les partenaires de distribution, générer des prospects, créer des applications et bien plus encore. Ses utilisations sont encore en cours de découverte à mesure que la technologie permettant de transformer des données non structurées en données structurées s’améliore.
Les données Web peuvent être collectées en écrivant des grattoirs Web pour les collecter, en utilisant un outil de grattage ou en payant un tiers pour faire le grattage pour vous. Un grattoir Web est un programme informatique qui prend une URL en entrée et extrait les données dans un format structuré – généralement un flux JSON ou CSV.
Données du capteur
Les données des capteurs sont produites par des objets et sont souvent appelées Internet des objets. Il couvre tout, de votre smartwatch mesurant votre fréquence cardiaque à un bâtiment doté de capteurs externes qui mesurent la météo.
Jusqu’à présent, les données des capteurs ont principalement été utilisées pour optimiser les processus. Par exemple, AirAsia a économisé de 30 à 50 millions de dollars en utilisant les capteurs et la technologie GE pour réduire les coûts d’exploitation et augmenter l’utilisation des avions. En mesurant ce qui se passe autour d’eux, les machines peuvent apporter des modifications intelligentes pour augmenter la productivité et alerter les gens lorsqu’ils ont besoin d’entretien.
Quand les données deviennent-elles des mégadonnées ?
Techniquement, tous les types de données ci-dessus contribuent au Big Data. Il n’y a pas de taille officielle qui rend les données « grandes ». Le terme représente simplement la quantité croissante et les types variés de données qui sont maintenant recueillies dans le cadre de la collecte de données.
Au fur et à mesure que de plus en plus d’informations mondiales se déplacent en ligne et se numérisent, cela signifie que les analystes peuvent commencer à les utiliser comme données. Des éléments tels que les médias sociaux, les livres en ligne, la musique, les vidéos et la quantité accrue de capteurs ont tous ajouté à l’augmentation stupéfiante de la quantité de données disponibles pour analyse.
Ce qui différencie le Big Data des « données régulières » que nous analysions auparavant, c’est que les outils que nous utilisons pour le collecter, le stocker et l’analyser ont dû changer pour s’adapter à l’augmentation de la taille et de la complexité. Avec les derniers outils du marché, nous n’avons plus besoin de nous fier à l’échantillonnage. Au lieu de cela, nous pouvons traiter les ensembles de données dans leur intégralité et obtenir une image beaucoup plus complète du monde qui nous entoure.
L’importance de la collecte de données
La collecte de données diffère de l’exploration de données en ce sens qu’il s’agit d’un processus par lequel les données sont collectées et mesurées. Tout cela doit être fait avant que des recherches de haute qualité puissent commencer et que des réponses aux questions persistantes puissent être trouvées. La collecte de données se fait généralement avec un logiciel, et il existe de nombreuses procédures, stratégies et techniques de collecte de données différentes. La plupart des collectes de données sont centrées sur des données électroniques, et comme ce type de collecte de données englobe tant d’informations, elles entrent généralement dans le domaine du big Data.
Alors pourquoi la collecte de données est-elle importante? C’est grâce à la collecte de données qu’une entreprise ou une direction dispose de l’information de qualité dont elle a besoin pour prendre des décisions éclairées à partir d’analyses, d’études et de recherches plus poussées. Sans collecte de données, les entreprises trébucheraient dans l’obscurité en utilisant des méthodes obsolètes pour prendre leurs décisions. La collecte de données leur permet plutôt de rester au fait des tendances, de fournir des réponses aux problèmes et d’analyser de nouvelles informations avec un grand effet.
Le métier le plus sexy du 21e siècle ?
Après la collecte des données, toutes ces données doivent être traitées, recherchées et interprétées par quelqu’un avant de pouvoir être utilisées pour des informations. Quel que soit le type de données dont vous parlez, cette personne est généralement un scientifique des données.
Les scientifiques des données sont maintenant l’un des postes les plus recherchés. Un ancien dirigeant de Google est même allé jusqu’à l’appeler le « travail le plus sexy du 21e siècle ».
Pour devenir un data scientist, vous avez besoin d’une base solide en informatique, modélisation, statistiques, analyses et mathématiques. Ce qui les distingue des titres de poste traditionnels, c’est une compréhension des processus métier et une capacité à communiquer des résultats de qualité à la direction de l’entreprise et aux responsables informatiques d’une manière qui peut influencer la façon dont une organisation aborde un défi commercial et répondre aux problèmes en cours de route.
Ressources de données
Si vous souhaitez en savoir plus sur le big Data, la collecte de données ou si vous souhaitez commencer à profiter de tout ce qu’il a à offrir, consultez ces blogs, événements, entreprises et plus encore.
Blogs de données
- Flux de données – géré par le Dr. Nathan Yau, PhD, il propose des tutoriels, des visualisations, des ressources, des recommandations de livres et des discussions humoristiques sur les défis auxquels l’industrie est confrontée
- FiveThirtyEight – géré par data-wiz Nate Silver, il propose une analyse de données sur des sujets d’actualité populaires en politique, culture, sport et économie
- Edwin Chen – le blog éponyme du responsable scientifique des données chez Dropbox, ce blog propose des conseils pratiques pour utiliser les algorithmes et l’analyse
- Data Science Weekly – pour les dernières nouvelles en science des données, c’est le bulletin électronique ultime
- No Free Hunch (Kaggle) – organise un certain nombre de concours de modélisation prédictive. Leur blog sur la compétition et la science des données couvre tout ce qui concerne le sport de la science des données.
- SmartData Collective – une communauté en ligne modérée par les médias sociaux Aujourd’hui qui fournit des informations sur les dernières tendances en matière de business intelligence, de gestion des données et de collecte de données.
- KDnuggets – est une ressource complète pour toute personne ayant un intérêt direct dans la communauté de la science des données.
- Elixir de données – est un excellent tour d’horizon des nouvelles de données sur le Web, vous pouvez obtenir un résumé hebdomadaire envoyé directement dans votre boîte de réception.
Influenceurs de données
- Marcus Borba (CTO Spark) – son flux est empilé de visualisations de concepts complexes comme l’Internet des objets (IoT) et plusieurs incarnations de NoSQL
- Lillian Pierson (Auteur, Data Science for Dummies) – elle renvoie à une foule d’articles informatifs, allant de clips d’actualités sur les dernières entreprises tirant parti du Big Data, à des articles utiles articles de blog d’influenceurs dans le domaine de la science des données et de l’espace commercial
- Kirk Borne (Data Scientist principal chez BoozAllen) – publie et retweete des liens vers des articles fascinants sur Big Data et science des données
- 40 data mavericks de moins de 40 ans – cette liste englobe le who’s who des brillants et innovants dans les données et les startups
Conférences sur les données
- Strata + Hadoop World – New York, NY (sept. 29 – Oct. 1) – se concentre spécifiquement sur les implications du Big Data sur les grandes entreprises.
- Extrait – San Francisco, CA (30 octobre) – réunissant plus de 600 des meilleurs esprits de la science des données pour combiner le growth hacking avec l’analyse de données afin de vous équiper pour être le meilleur data scientist dans le domaine.
- Big Data Tech Con 2015 – Chicago, Illinois (2-4 novembre) – un « mode d’emploi » majeur pour l’utilisation du Big Data qui s’avérera très instructif dans la façon dont les nouvelles entreprises prennent le Big Data.
- Big Data Bootcamp – Tampa, Floride (7-9 décembre) – une expérience de formation pratique intensive, adaptée aux débutants, qui vous plonge dans le monde du Big Data
- Big Data Innovation Summit – Las Vegas, NV (21-22 janvier) – Écoutez des gens comme Hershey, Netflix et le Département de la Sécurité intérieure sur la façon exacte de rendre vos données exploitables et efficaces.
- Data Summit 2016 – New York, NY (9-11 mai) – rassemble des agences gouvernementales, des institutions publiques et des entreprises de premier plan pour exploiter de nouvelles technologies et stratégies pour intégrer davantage les données dans votre expérience quotidienne.
Cours de données
- Udemy – cours en ligne gratuits et payants pour vous apprendre tout ce que vous devez savoir
- Code School – apprenez le codage en ligne en suivant ces simples tutoriels et cours étape par étape
- Décodé – introduction essentielle au code qui libère l’immense potentiel du monde numérique
- Camp de données – construisez une base solide en science des données et renforcez vos compétences en programmation R.
- Coursera – en partenariat avec les meilleures universités et organisations pour offrir des cours en ligne
- W3schools – propose d’excellents tutoriels en ligne pour apprendre les compétences de base en codage et en analyse de données.
Outils de données
- OpenRefine – un logiciel de nettoyage de données qui vous permet de pré-traiter vos données pour analyse.
- WolframAlpha – fournit des réponses détaillées aux recherches techniques et effectue des calculs très complexes. Pour les utilisateurs professionnels, il présente des tableaux d’informations et des graphiques, et est excellent pour l’historique des prix de haut niveau, les informations sur les produits et les aperçus de sujets.
- Import.io is vous permet de transformer les données non structurées affichées sur les pages Web en tableaux structurés de données accessibles via une API.
- Trifacta – nettoyer et analyser les données des fichiers & bases de données que vous ne pouviez pas gérer dans Excel, avec des outils statistiques faciles à utiliser
- Tableau – un outil de visualisation qui facilite l’examen de vos données de nouvelles manières.
- Tables Google Fusion – un outil polyvalent pour l’analyse de données, la visualisation de grands ensembles de données et la cartographie.
- Blockspring – obtenez des données en direct, créez des cartes interactives, obtenez des images street view, exécutez la reconnaissance d’images et enregistrez-les dans Dropbox avec ce plugin Google Sheets
- Tracé.ly – visualisez facilement vos données pour voir rapidement les tendances et les informations
- Luminoso – identifiez les relations entre les mots-clés et les concepts au sein de votre ensemble de données et obtenez des informations sur la perception du produit
- BigML – Construisez un modèle de votre marché, avec toutes les variables telles que les prix, les caractéristiques du produit et la géographie