Six Provocations for Big Data

Anásis del artículo Six Provocations for Big Data

El Big Data y la definición del conocimiento

Existe una tendencia general a pensar que Big Data es solo sinónimo de grandes cantidades de datos y, por lo tanto, sería algo similar a los datos que se venían utilizando hasta ahora pero con un tamaño mucho mayor. Sin embargo, ya Russom (2011) identifica tres elementos que nos van ha permitir acotar este concepto de una forma diferente con las denominadas tres V’s: el gran Volumen de datos, la Velocidad con la que se generan datos y Variedad de tipos de datos que se manejan. En la actualidad ya se consideran hasta 7 V’s añadiendose conceptos como: la Veracidad de los datos, la Viabilidad, la Visualización de los datos y el Valor de los datos.

Pero el Big Data no solo es un conjunto de datos, ya que los datos por sí mismos no aportan nada, especialmente si se encuentran si se habla de grandes volúmenes. Será necesario un procesado de los mismos que permita “adquirir o descubrir conocimiento” (Troyano & Martínez Gasca, 2007). Esto supondrá una nueva forma de generar conocimiento.

Objetividad

Disponer de muchos datos para un estudio no significa que estos sean aleatorios o que realmente sean una representación fiable. De hecho, muchas veces suponen la inclusión de ruido en las muestras. Para poder realizar afirmaciones estadísticas sobre un conjunto de datos se hace necesario saber de dónde provienen los datos, así como conocer los problemas asociados ellos.

Así, por ejemplo, el análisis de los datos generados en los medios sociales se presenta como un nuevo campo de estudio en el que se hace necesaria la aplicación de nuevos métodos y tecnologías. El reto que se les plantea a los analistas o investigadores es de ser capaces de detectar y explicar los posibles sesgos, y su interpretación de los datos (Hunter & Schmidt, 2004). Para corregir este tipo de problemas se emplean técnicas de machine learning o deep learning (Bishop, 2006), que permiten mejorar el análisis de datos mediante modelos de entrenamiento.

Más datos no es siempre equivalente a mejores datos

Uno de los grandes problemas del Big Data y de la sociedad actual es como se a indica en el texto que la cantidad no es equivalente a calidad. Esto supone que no existe una linealidad entre el número de datos y la información “real” que de ellos se puede obtener. Aunque a este respecto se debe indicar que técnicas como el deep learning para el análisis de datos solo resultan de gran utilidad cuando el número de datos es elevado.

Un ejemplo es Twitter de donde se puede obtener gran cantidad de información para ser analizada, pero esta red al igual que otra presenta una serie de características que pueden hacer que la información que se recolecta esté sesgada. Las razones son varias, algunas de las más habituales son el uso de cuentas falsas, el uso de bots para crear información, o simplemente que alguna persona disponga de más de una cuenta («Twitter tiene millones de seguidores falsos», 2018).

No todos los datos son equivalentes

Big Data presenta una serie de oportunidades para los investigadores, entre los que se cuentan grandes cantidades de datos sociales, culturales, económicos, políticos e históricos. También plantea una serie de desafíos, que incluyen un déficit de habilidades para analizar y dar sentido a tales datos, y la creación de un enfoque epistemológico que permita formas post-positivistas de la ciencia social computacional (Kitchin, 2014). Un elemento fundamental del análisis es la contextualización de los datos, fuera de contexto, los datos pierden significado y valor (Díaz, 2009). Así, aunque dos o más conjuntos de datos se pueden modelar de manera similar, esto no significa que sean equivalentes o que se puedan analizar de la misma manera.

Ética Del Big Data

La información y los mensajes que se intercambian en los social media circulan en una dimensión semipública de la comunicación y, aunque algunos perfiles y plataformas permiten al usuario regular la privacidad de los contenidos que comparte, estos quedan expuestos, cuando menos, al resto de participantes o miembros de su red de contactos. Las propias redes sociales facilitan interfaces de programación de aplicaciones (APIs) que permiten acceso gratuito y de pago a los datos procedentes de los contenidos públicos (Guinard, Fischer, & Trifa, 2010). Además, existen también las compañías que se dedican a la compra y venta de datos de terceros.

Esto ha creado un debate sobre el respeto al derecho a la intimidad, aunque la problemática se complica si entra en juego el derecho al olvido, “el derecho de las personas físicas a hacer que se borre la información sobre ellas después de un período de tiempo determinado” (De Terwangne, 2012) y las propias limitaciones que incorpora la normativa, como por ejemplo la incluida en la Ley Orgánica 3/2018 de Protección de Datos Personales (Jefatura del Estado, 2018).

Acceso y nuevas desigualdades

El acceso a los datos de forma gratuita es muy reducido incluso para aquellos que utilizan las API de las redes social, he hecho, estas suelen aportar distintas tarificaciones. Por ejemplo, la API de Twitter ofrece diferentes tarifas en función de los datos que se quieran analizar (Twitter, s. f.). Esto supone que no todo el mundo que lo desee podrá tener acceso a los datos, pues los precios pueden llegar hasta los 2500$/mes como en el caso de Twitter. Lo que genera una brecha monetaria.

Por otro lado, está el uso de las aplicaciones para el análisis de datos, estas han sido diseñadas con una clara componente de carácter computacional y tecnológica, que hace a su vez, que no sean accesibles para todos los públicos siendo necesario conocer elementos como la teoría de grafos («Las mentes matemáticas mueven el mundo», s. f.).

Bibliografía

Bishop, C. M. (2006). Pattern recognition and machine learning. springer.
De Terwangne, C. (2012). Privacidad en Internet y el derecho a ser olvidado/derecho al olvido. IDP. Revista de Internet, Derecho y Política, (13).
Díaz, C. M. (2009). ¿Cómo desarrollar, de una manera comprensiva, el análisis cualitativo de los datos? Educere, 13(44), 55–66.
Guinard, D., Fischer, M., & Trifa, V. (2010). Sharing using social networks in a composable web of things. En 2010 8th IEEE International Conference on Pervasive Computing and Communications Workshops (PERCOM Workshops) (pp. 702–707). IEEE.
Hunter, J. E., & Schmidt, F. L. (2004). Methods of meta-analysis: Correcting error and bias in research findings. Sage.
Jefatura del Estado. Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales. (2018). Recuperado de https://boe.es/buscar/act.php?id=BOE-A-2018-16673
Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big data & society, 1(1), 2053951714528481.
Las mentes matemáticas mueven el mundo. (s. f.). Recuperado 17 de marzo de 2019, de https://elpais.com/elpais/2019/01/15/eps/1547557079_800501.html
Russom, P. (2011). Big Data Analytics, TDWI best practices report. Fourth quarter, 1–35.
Troyano, R., & Martínez Gasca, R. (2007). Sistemas de Inteligencia Web basados en redes sociales. Redes: revista hispana para el análisis de redes sociales, 12, 000–0.
Twitter. (s. f.). Twitter developer. Recuperado 17 de marzo de 2019, de https://developer.twitter.com/en/pricing.html
Twitter tiene millones de seguidores falsos. (2018, febrero 2). Recuperado 17 de marzo de 2019, de https://www.lavanguardia.com/tecnologia/20180203/44478743253/twitter-cuentas-falsas-usuarios-bots-redes-sociales.html

Buscar este blog

Jose Carlos Blanco