Veritas Online

Tecnología

Big data, información de hoy

Big data, información de hoy
diciembre 01
2019

Todo proyecto de este tipo debe comenzar por las grandes preguntas del negocio. Su objetivo principal es responder las que la empresa no puede. Suele ser sencillo, pero una organización podría tener muchas preguntas y el ejercicio consistirá en identificar cuáles son.

En 1950 se consolida el término Inteligencia Artificial (IA)como una ciencia que intenta emular actividades del ser humano. Abajo de esta ciencia está la robótica, el reconocimiento de patrones, sistemas expertos y recomendadores, reconocimiento de voz, análisis de texto, visión por computadora y el aprendizaje automático, conocido en inglés como machine learning. En este último es donde se realiza el análisis avanzado de datos y se integran las bases de información, la estadística, los algoritmos traídos de las diferentes áreas dela inteligencia artificial y las técnicas avanzadas de visualización de datos.En aquella época los análisis eran muy limitados por las pobres capacidades de cómputo, sin embargo, la idea fundamental ya estaba planteada: ir más allá del análisis estadístico donde había que buscar las pepitas de conocimiento ocultasen la información con el propósito de tomar mejores decisiones.

En 1962, John W. Tukey establece el término ciencia de datos en su artículo “El futuro sobre el análisis de da­tos”. En 1974, el doctor Peter Naur introdujo la palabra datología como la ciencia de la naturaleza y uso esta información, pero fue hasta 1996 que la cien­cia de datos se consolidó en Japón, durante el evento de la Federación Internacional de So­ciedades de Clasificación (IFCS, por sus siglas en inglés), y se incluyó por primera vezcomo título en la conferencia “Ciencia de datos, clasi­ficación y métodos relacionados”. Un año más tarde, en 1997, Chien-Fu Jeff Wu, presidente en Estadísticas de ingeniería de Coca-Cola, propuso que a los profesionales dedicados a esta área se les llame científicos de datos.

¿POR QUÉ SURGE?

Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung publicaron en 2003 su sistema de ficheros distribuidos Google File System, que les permitía trabajar con grandes volúmenes de in­formación y se considera el inicio de los macrodatos o big data. En 2006, Doug Cutting y MikeCafarella, ingenieros del Proyecto Apache, llevaron estos paradigmas a la culminación de la primera plataforma Open Source a la que llamaron Hadoop (Spark es su evolución), como la plataforma tecnológica que se sustentaba y se basaba en una convergencia entre almacenamiento distribuido y cómputo en paralelo, que permitía una rápida recuperación de información en grandes volúmenes de datos.

VENTAJAS

Los macrodatos aceleran la oportunidad de mercado. Para dimensionar­lo, se cita el caso de un abogado que hizo inversiones el 12 de diciembre y llevó al límite sus tarjetas de crédito. Era cliente del Banco Big Data y el Banco Data Warehouse, que cierra durante ese mes, consolida los datos y comienza a calcular los cubos de información, de manera que el 11 de enero(un mes después) detecta su necesidad y le ofrece un incremento en su línea decrédito. El abogado no lo acepta porque el 13 de diciembre, un día tras la transacción, Big Data le envió una notificación en la aplicación móvil con un incremento, mismo que aceptó con un clic. El Banco Big Data pudo responder con velocidad a las necesidades del cliente, mientras que el Banco Data Warehousese pregun­ta el motivo de que sus clientes no acepten incrementos a sus créditos.

¿CÓMO COMENZAR UN PROYECTO?

Todo plan de big data debe comenzar por hacer las grandes preguntas del negocio para responder interrogantes que la empresa no puede hacer con su tecnología actual. Suele ser sencillo, pero una organización podría tener muchas preguntas, por lo que el ejercicio consistirá en saber cuáles son, en una jerarquía, las que se pueden responder a partir de los datos y de su importancia, como:

° ¿Cuántos clientes tiene?
° ¿Qué tipo de clientes son?
° ¿Por qué si se vende más, se gana menos?
° ¿Cómo monetizar en dinero los clientes perdidos?
° ¿Cómo formar el “pedido perfecto”para cada cliente?
° ¿Cómo conocer las políticas de ven­ta de todos los proveedores?
° ¿En qué región del país puedo lanzar un producto con elementos de innovación?
° ¿Qué tanto afectan a mis ventas las opiniones en redes sociales?

Se destaca el hecho de que las iniciativas salen de las unidades de negocio y son las que deben acompañar todo el proceso. La pregunta de negocio busca que sea monetizable, rápida en responder (de dos a cuatro meses), que aporte nuevas ideas a la empresa y que su representación sea fácil de entender.

¿QUÉ CUIDAR?

Algunos elementos que se de­ben de cuidar para el éxito del proyecto son:

° Definir las preguntas de negocio a resolver por parte delas unidades correspondientes.
° No comprometer el proyecto con elementos inalcanzables.
° Alinear expectativas entre lo que se va entregar y lo que espera la unidad de negocio.
° Acompañar el proyecto en todo momento desde la unidad de negocio.
° Administrar el proyecto de forma clara y sólida por ambas partes.
° Contar con responsables del proyecto tanto de la unidad de negocio, como del área analista.
° Tener científicos de datos con experiencia.
° Documentar las reglas de negocio involucradas.
° Acompañar el proyecto con metodologías reconocidas(CRISP-DM, SCRUM, etc.).
° Contar con las herramientas correctas.
° Tener métodos eficientes de limpieza de datos.
° Considerar un gobierno de datos.
° Contar con poderosas herramientas de visualización de la información.

CONCLUSIONES

Los retos para las empresas versan sobre su capacidad de integrar información externa: fuentes de datos abiertos, socio demográficos de áreas geoestadísticas básicas o de las unidades económicas, y se deben tomaren cuenta documentos, noticias digitales y redes sociales. La analítica geoespacial se considera para fortalecer sus capacidades. Los gobiernos apuntan a conceptos como inteligencia ciudadana, que busca centrar y consolidar datos alrededor. A la par se construyen centros de fusión de información que permiten intercambiar datos entre organizaciones y ciudadanos.

El tiempo real, obtener el dato correcto en el tiempo ideales un tema importante, dado que se debe reaccionar ante el dinamismo de los hábitos de los clientes. El internet de las cosas consiste en colocar sensores para medir un ente, como el ambiente, la energía, la movilidad, la agricultura,la industria, el tráfico, la salud o el agua. La seguridad es un pendiente. Por último, se destaca la privacidad. A pesar de que las leyes existen, aún falta fortalecer su vigilancia, tanto por el gobierno como por las organizaciones y las empresas.

Luis Carlos Molina Félix
Director del Laboratorio de Big data de INT México
lmolina@intt2.com

Facebook Comments

Related Articles

Búsqueda

Sígueme en Twitter

A %d blogueros les gusta esto: