¿Qué son los datos y por qué son importantes?
*Publicado originalmente el 16 de septiembre de 2015. Actualizado el 28 de junio de 2018
Datos: una colección de hechos (números, palabras, mediciones, observaciones, etc.) que se ha traducido a una forma que las computadoras pueden procesar
Cualquiera que sea la industria en la que trabaje o sean sus intereses, es casi seguro que se habrá encontrado con una historia sobre cómo los «datos» están cambiando la faz de nuestro mundo. Puede ser parte de un estudio que ayude a curar una enfermedad, aumentar los ingresos de una empresa, hacer que un edificio sea más eficiente o ser responsable de esos anuncios segmentados que sigues viendo.
En general, datos es simplemente otra palabra para información. Pero en informática y negocios (la mayor parte de lo que se lee en las noticias cuando se trata de datos, especialmente si se trata de Big Data), los datos se refieren a información que es legible por máquina en lugar de legible por humanos.
Humanos vs Máquinas
La lectura humana (también conocida como datos no estructurados) se refiere a información que solo los humanos pueden interpretar y estudiar, como una imagen o el significado de un bloque de texto. Si requiere que una persona la interprete, esa información es legible por humanos.
Los datos legibles por máquina (o estructurados) se refieren a la información que los programas informáticos pueden procesar. Un programa es un conjunto de instrucciones para manipular datos. Y cuando tomamos datos y aplicamos un conjunto de programas, obtenemos software. Para que un programa realice instrucciones sobre los datos, esos datos deben tener algún tipo de estructura uniforme.
Por ejemplo, el oficial naval estadounidense Matthew Maury, convirtió años de viejos registros de envío escritos a mano (legibles por humanos) en una gran colección de rutas coordinadas (legibles por máquinas). Luego pudo procesar estas rutas en masa para reducir el viaje naval promedio en un 33%.
Datos en las noticias
Cuando se trata de los tipos de datos estructurados que se encuentran en los artículos de Forbes y los informes de McKinsey, hay algunos tipos diferentes que tienden a recibir la mayor atención:
Datos personales
Los datos personales son cualquier cosa que sea específica para usted. Cubre sus datos demográficos, su ubicación, su dirección de correo electrónico y otros factores de identificación. Por lo general, aparece en las noticias cuando se filtra (como el escándalo de Ashley Madison) o se usa de una manera controvertida (cuando Uber averiguó quién tenía una aventura).
Muchas empresas diferentes recopilan sus datos personales (especialmente los sitios de redes sociales), cada vez que tiene que ingresar su dirección de correo electrónico o los datos de su tarjeta de crédito, está regalando sus datos personales. A menudo, utilizarán esos datos para proporcionarte sugerencias personalizadas para mantenerte involucrado. Facebook, por ejemplo, utiliza su información personal para sugerir contenido que le gustaría ver en función de lo que le gusta a otras personas similares a usted.
Además, los datos personales se agregan (para despersonalizarlos un poco) y luego se venden a otras empresas, principalmente con fines publicitarios y de investigación competitiva. Esa es una de las formas en que obtienes anuncios y contenido segmentados de compañías de las que nunca has oído hablar.
Datos transaccionales
Los datos transaccionales son cualquier cosa que requiera una acción para recopilar. Puede hacer clic en un anuncio,hacer una compra, visitar una determinada página web, etc.
Casi todos los sitios web que visita recopilan datos transaccionales de algún tipo, ya sea a través de Google Analytics, otro sistema de terceros o su propio sistema interno de captura de datos.
Los datos transaccionales son increíblemente importantes para las empresas porque les ayudan a exponer la variabilidad y optimizar sus operaciones para obtener resultados de la más alta calidad. Al examinar grandes cantidades de datos, es posible descubrir patrones y correlaciones ocultos. Estos patrones pueden crear ventajas competitivas y dar lugar a beneficios comerciales, como un marketing más efectivo y un aumento de los ingresos.
Datos web
Los datos web son un término colectivo que se refiere a cualquier tipo de datos que pueda extraer de Internet, ya sea para estudiar con fines de investigación o de otro tipo. Podrían ser datos sobre lo que venden sus competidores, datos gubernamentales publicados, resultados de fútbol, etc. Es un catchall para cualquier cosa que pueda encontrar en la web que sea pública (es decir, no almacenada en alguna base de datos interna). El estudio de estos datos puede ser muy informativo, especialmente cuando se comunica bien a la administración.
Los datos web son importantes porque es una de las principales formas en que las empresas pueden acceder a información que no es generada por ellas mismas. Al crear modelos de negocio de calidad y tomar decisiones importantes de BI, las empresas necesitan información sobre lo que está sucediendo interna y externamente dentro de su organización y lo que está sucediendo en el mercado en general.
Los datos web se pueden usar para monitorear competidores, rastrear clientes potenciales, realizar un seguimiento de socios de canal, generar clientes potenciales, crear aplicaciones y mucho más. Sus usos aún se están descubriendo a medida que mejora la tecnología para convertir datos no estructurados en datos estructurados.
Los datos web se pueden recopilar escribiendo raspadores web para recopilarlos, utilizando una herramienta de raspado o pagando a un tercero para que haga el raspado por usted. Un raspador web es un programa informático que toma una URL como entrada y extrae los datos en un formato estructurado, generalmente una fuente JSON o CSV.
Datos del sensor
Los datos de los sensores son producidos por objetos y a menudo se conoce como Internet de las Cosas. Cubre todo, desde el reloj inteligente que mide la frecuencia cardíaca hasta un edificio con sensores externos que miden el clima.
Hasta ahora, los datos de los sensores se han utilizado principalmente para ayudar a optimizar los procesos. Por ejemplo, AirAsia ahorró entre 30 y 50 millones de dólares al usar sensores y tecnología GE para ayudar a reducir los costos operativos y aumentar el uso de aeronaves. Al medir lo que sucede a su alrededor, las máquinas pueden realizar cambios inteligentes para aumentar la productividad y alertar a las personas cuando necesitan mantenimiento.
¿Cuándo se convierten los datos en Big Data?
Técnicamente todos los tipos de datos anteriores contribuyen al Big Data. No hay un tamaño oficial que haga que los datos sean «grandes». El término simplemente representa la cantidad creciente y los diversos tipos de datos que ahora se están recopilando como parte de la recopilación de datos.
A medida que más y más información del mundo se mueve en línea y se digitaliza, significa que los analistas pueden comenzar a usarla como datos. Cosas como las redes sociales, los libros en línea, la música, los videos y la mayor cantidad de sensores se han sumado al asombroso aumento en la cantidad de datos que se han disponible para el análisis.
Lo que diferencia a Big Data de los «datos regulares» que analizábamos antes es que las herramientas que usamos para recopilarlos, almacenarlos y analizarlos han tenido que cambiar para adaptarse al aumento de tamaño y complejidad. Con las últimas herramientas del mercado, ya no tenemos que depender del muestreo. En su lugar, podemos procesar conjuntos de datos en su totalidad y obtener una imagen mucho más completa del mundo que nos rodea.
La importancia de la recopilación de datos
La recopilación de datos difiere de la minería de datos en que es un proceso mediante el cual se recopilan y miden los datos. Todo esto debe hacerse antes de que la investigación de alta calidad pueda comenzar y se puedan encontrar respuestas a preguntas persistentes. La recopilación de datos generalmente se realiza con software, y hay muchos procedimientos, estrategias y técnicas de recopilación de datos diferentes. La mayor parte de la recopilación de datos se centra en datos electrónicos, y dado que este tipo de recopilación de datos abarca tanta información, generalmente se cruza con el reino de los big data.
Entonces, ¿por qué es importante la recopilación de datos? Es a través de la recopilación de datos que una empresa o administración tiene la información de calidad que necesita para tomar decisiones informadas a partir de análisis, estudios e investigaciones adicionales. Sin la recopilación de datos, las empresas tropezarían en la oscuridad utilizando métodos obsoletos para tomar sus decisiones. La recopilación de datos, en cambio, les permite mantenerse al tanto de las tendencias, proporcionar respuestas a los problemas y analizar nuevas ideas con gran efecto.
¿El trabajo más sexy del siglo XXI?
Después de la recopilación de datos, todos esos datos deben ser procesados, investigados e interpretados por alguien antes de que puedan usarse para obtener información. No importa de qué tipo de datos estés hablando, esa persona suele ser un científico de datos.
Los científicos de datos son ahora uno de los puestos más buscados. Un ex ejecutivo de Google incluso llegó a llamarlo el «trabajo más sexy del siglo XXI».
Para convertirse en un científico de datos, necesita una base sólida en ciencias de la computación, modelado, estadísticas, análisis y matemáticas. Lo que los diferencia de los títulos de trabajo tradicionales es una comprensión de los procesos de negocio y la capacidad de comunicar hallazgos de calidad tanto a la administración de negocios como a los líderes de TI de una manera que pueda influir en cómo una organización aborda un desafío de negocio y responde a los problemas a lo largo del camino.
Recursos de datos
Si está interesado en obtener más información sobre big data, recopilación de datos o desea comenzar a aprovechar todo lo que tiene para ofrecer, consulte estos blogs, eventos, empresas y más.
Blogs de datos
- Flujo de datos-dirigido por Dr. Nathan Yau, PhD, tiene tutoriales, visualizaciones, recursos, recomendaciones de libros y discusiones humorísticas sobre los desafíos que enfrenta la industria
- FiveThirtyEight, dirigido por el experto en datos Nate Silver, ofrece análisis de datos sobre temas de noticias populares en política, cultura, deportes y economía
- Edwin Chen, el blog autodenominado del científico de datos jefe de Dropbox, este blog ofrece consejos prácticos para usar algoritmos y análisis
- Datos Science Weekly: para conocer las últimas noticias en ciencia de datos, este es el último boletín de correo electrónico
- Sin corazonada gratuita (Kaggle) – organiza una serie de concursos de modelado predictivo. Su blog de competición y ciencia de datos, cubre todas las cosas relacionadas con el deporte de la ciencia de datos.
- SmartData Collective: una comunidad en línea moderada por Social Media Today que proporciona información sobre las últimas tendencias en inteligencia de negocios, gestión de datos y recopilación de datos.
- KDnuggets: es un recurso completo para cualquier persona con un interés personal en la comunidad de ciencia de datos.
- Elixir de datos: es un gran resumen de noticias de datos en la web, puede obtener un resumen semanal enviado directamente a su bandeja de entrada.
Influencers de datos
- Marcus Borba (CTO Spark) – su fuente está repleta de visualizaciones de conceptos complejos como el Internet de las Cosas (IoT) y varias encarnaciones de NoSQL
- Lillian Pierson (autora, Data Science for Dummies) – enlaza a una gran cantidad de artículos informativos, desde clips de noticias sobre las últimas empresas que aprovechan el Big Data, hasta un blog útil publicaciones de personas influyentes tanto en la ciencia de datos como en el espacio empresarial
- Kirk Borne (Científico de datos Principal de BoozAllen): publicaciones y retweets enlaces a artículos fascinantes sobre Big Data y ciencia de datos
- 40 data mavericks menores de 40 años: esta lista incluye el quién es quién de los brillantes e innovadores en datos y startups
Conferencias de datos
- Strata + Hadoop World – Nueva York, NY (Sept. 29 de octubre 1) – se centra específicamente en las implicaciones del Big Data en las grandes empresas.
- Extract – San Francisco, CA (30 de octubre) – reúne a más de 600 de las mejores mentes en ciencia de datos para combinar el growth hacking con el análisis de datos para equiparte a ser el mejor científico de datos en el campo.
- Big Data Tech Con 2015-Chicago, IL – 2 al 4 de noviembre) – un importante «cómo» para el uso de Big Data que resultará muy instructivo en la forma en que las nuevas empresas asumen el Big Data.
- Big Data Bootcamp-Tampa, FL (del 7 al 9 de diciembre)-una experiencia de capacitación práctica intensiva, amigable para principiantes que se sumerge en el mundo de los Big Data
- Cumbre de Innovación de Big Data-Las Vegas, NV (21 y 22 de enero) – Escuche a personas como Hershey, Netflix y el Departamento de Seguridad Nacional sobre exactamente cómo puede hacer que sus datos sean procesables y efectivos.
- Data Summit 2016-Nueva York, NY (9-11 de mayo)-reúne a agencias gubernamentales, instituciones públicas y empresas líderes para aprovechar las nuevas tecnologías y estrategias para incorporar aún más los datos en su experiencia diaria.
Cursos de datos
- Udemy – cursos en línea gratuitos y de pago para enseñarte todo lo que necesitas saber
- Escuela de código: aprende a programar en línea siguiendo estos sencillos tutoriales y cursos paso a paso
- Decodificado: introducción esencial al código que desbloquea el inmenso potencial del mundo digital
- Campamento de datos – construya una base sólida en ciencia de datos y fortalezca sus habilidades de programación en R.
- Coursera, que se asocia con las mejores universidades y organizaciones para ofrecer cursos en línea
- W3schools, tiene excelentes tutoriales en línea para aprender habilidades básicas de codificación y análisis de datos.
Herramientas de datos
- OpenRefine: un software de limpieza de datos que le permite procesar previamente sus datos para su análisis.
- WolframAlpha: proporciona respuestas detalladas a búsquedas técnicas y realiza cálculos muy complejos. Para los usuarios de negocios, presenta tablas y gráficos de información, y es excelente para el historial de precios de alto nivel, información de productos básicos y descripciones de temas.
- Import.io permite convertir los datos no estructurados que se muestran en las páginas web en tablas estructuradas de datos a las que se puede acceder a través de una API.
- Trifacta: limpie y organice datos de archivos & bases de datos que no pudo manejar en excel, con herramientas estadísticas fáciles de usar
- Tableau, una herramienta de visualización que facilita la visualización de sus datos de nuevas maneras.
- Tablas de Google Fusion: una herramienta versátil para el análisis de datos, la visualización de grandes conjuntos de datos y el mapeo.
- Blockspring: obtenga datos en vivo, cree mapas interactivos, obtenga imágenes de street view, ejecute el reconocimiento de imágenes y guarde en Dropbox con este complemento de hojas de cálculo de Google
- Plot.ly-visualice sus datos de una manera fácil para ver rápidamente tendencias e información
- Luminoso-identifique las relaciones entre palabras clave y conceptos dentro de su conjunto de datos y obtenga información sobre la percepción del producto
- BigML-Construya un modelo de su mercado, con todas las variables, como precios, características del producto y geografía