Análisis de Big Data y Conceptos Tecnológicos

Análisis de Big Data y Conceptos Tecnológicos

Administrator

Contenido

  1. El ciclo de vida del Análisis Big Data

  2. Conceptos del Análisis Big Data.

    1. Técnicas de Analisis Estáticos.

    2. Técnicas de Analisis Semantico.

    3. Técnicas de Maquinas de Aprendizaje.

    4. Tecnicas de Analisis Visual.

    5. Mapeo de Analisis Tópicos.

  3. Part III: Conceptos Tecnológicos de Big Data.

    1. Consideraciones Tecnológicos de Big Data.

    2. Mecanismos Tecnológicos de Big Data.

 


1. Visión General.

El Análisis en Big Data difiere del análisis de datos primario procesos porque las características  del volumen, velocidad y variedad de los datos de estos son procesados. La dirección distintas circunstancias y requerimientos  llevados a cabo por el Análisis y Analíticas en Big Data. Un paso a paso fundamental es necesitado para organizar las tareas involucradas con recuperación, procesamiento, produciendo, y readaptando los datos.

Las próximas paginas exploran el ciclo de vida del análisis del Big Data que son demuestran estas tareas.


Ciclo de Vida del Big Data

El ciclo de Vida del Big Data pueden ser divididas entre las siguientes nueves etapas:

  1. Evaluación Caso del Negocio:  

  2. Identificación de los Datos

  3. Adquisición y Filtrados de Datos

  4. Extracción de Datos

  5. Validación y Limpieza de los Datos

  6. Agregacion y Representacion de los Datos

  7. Análisis de los Datos

  8. Visualización de los Datos

  9. Utilización y Resultados de los Análisis.

Etapa 1: Evaluación Caso del Negocio.

Cada ciclo de análisis del Big Data  necesita ser iniciado con una buena definición del alcance del negocio y un claro entendimiento de la justificación, motivación y logros llevados a cabo por el análisis. La etapa de Evaluación del Caso del Negocio requiere que se cree, evalúe y apruebe antes de proceder con las tareas reales del análisis practico. Una evaluación de un caso de negocio de Big Data ayuda a las que toman decisiones a entender los recursos empresariales que necesitaran para ser utilizados y cuales son los retos del analisis que se abordarán.

La identificación adicional de los KPI durante esta etapa ayuda a determinar qué tan de cerca los resultados del análisis de datos deben cumplir las metas y los objetivos identificados. Basados en los requerimientos empresariales documentados en los casos de negocio, estos pueden ser determinados si  los problemas del negocio están siendo direccionados realmente con problemas de Big Data. Con el fin de la calidad de un problema Big Data , un problema de negocio necesita directamente ser relacionado con una o más características como volumen, velocidad o variedad. Note también otros resultados de esta etapa es el presupuesto subyacente requerido para llevar a cabo el análisis del proyecto.

Cualquier compra requerida  de herramientas, hardware, entrenamiento, etc. necesita ser entendida de antemano para que la inversion anticipada pueda ser comparada con los beneficios esperados y así logrando objetivos. Las iteraciones  iniciales del ciclo de vida de Big Data requerirán una inversión más anticipada en tecnologías de Big Data, productos y entrenamiento comparado con las posteriores iteraciones donde estas inversiones tempranas pueden ser apalancadas repetidamente. 


Etapa 2 : Identificación de Datos.

La etapa de identificación de datos es dedicada a la identificación de los conjuntos de datos (y sus fuentes) requeridas  para el proyecto del análisis. Identificando una gran variedad de fuentes de datos puede incrementar la probabilidad de encontrar patrones ocultos y correlaciones. Por ejemplo: esto puede ser beneficioso para identificar muchos tipos de fuentes de datos relacionados y visiones como sea posible. Especialmente cuando no se conoce lo que buscamos.

Dependiendo del alcance del negocio de los análisis del proyecto y la naturaleza del problema del negocio que se están direccionando. En el caso de conjunto de datos interno, una lista de conjunto de datos habilitados de fuentes internas, como lo son los dataMarts y sistemas operacionales, son típicamente compilados y emparejado comparados con una especificación de conjunto de datos predefinidos.

En el caso de conjunto de datos externos, una lista posible de posibles proveedores de datos( datos de mercados, conjunto de datos publicitarios) son generalmente compilados. Algunos formularios de datos externos pueden ser embebidos con Blogs u otro tipo de contenido Web. en cada caso ellos pueden necesitar ser cosechados mediante herramientas automatizadas.

Etapa 3 : Adquisición y Filtrado de Datos.

Durante la etapa de adquisión y filtrado de datos, los datos son reunidos desde todas las fuentes de datos que son identificadas durante la etapa previa. y es donde son sometidos  al filtrado automático de datos corruptos o datos que han sido no valorados para los objetivos del análisis. Dependiendo de la fuentes de datos, los datos pueden llegar como basura de archivos ( como los datos comprados de un proveedor tercerizado). o podría requerir API de integración(como lo son Twiter).

En muchos casos, especialmente donde los datos no estructurados externos son preocupantes, algunos o la mayoría de los datos adquiridos podrían ser irrelevantes(ruido) y pueden ser descartados como parte de los procesos de filtrado. La clasificación de los datos como corruptos pueden incluir  registros con valores erróneos o absurdos tipos de datos inválidos. Los datos que están fuera del filtrado por un análisis, posiblemente podrían ser valorados para un diferente tipo de analisis. Por lo tanto, es aconsejable almacenar un copia exacta de los conjunto de datos antes de proceder con el filtrado. Para ahorrar espacio de almacenamiento requerido, la copia debe ser comprimida antes de guardarse. Ambos datos internos y externos necesitan ser persistentes una vez generados o ingresados a la empresa.

Para los analíticas en Lote(Batch), estos datos son persistidos con prioridad en disco para el análisis. En los casos de analítica de tiempo real, los datos son analizados primero y después son persistidos al disco. Los metadatos pueden ser agregados de manera automatizada a los datos desde  ambas fuentes internas y externas para mejorar la clasificación y consultas. Ejemplos de datos anexados pueden incluir tamaño de los conjunto de datos y estructura, fuentes de información, fecha, tiempo de creación o colección, lenguaje especifico. Esto es vital que los metadatos sean legibles por maquinas y habilitados para las siguientes etapas del análisis. Esto ayuda a mantener la procedencia de los datos  en todo el ciclo de vida del Analisis Big Data. El cual ayuda a establecer y preservar la salud y calidad de los datos. Los metadatos es agregado en todo los mecanismo automatizados para recibir los datos desde ambas fuentes internas y externas. 


Etapa 4: Extracción de Datos.

Algunos de los datos identificados como entradas  para el análisis pueden llegar  en un formato incompatible con las soluciones Big Data. La necesidad para direccionar tipos datos dispares son más probable desde fuentes de datos externos. La etapa del ciclo de vida en la extracción de datos es dedicada  a extraer datos dispares y transformarlos en un formato que la solución subyacente de Big Data  puede usar para el propósito del análisis de datos.

El grado de extracción y transformación  requerido depende en los tipos  de analíticas y capacidades de la solución de Big Data. Por Ejemplo, extrayendo  los campos requeridos desde datos textuales delimitados ( como los son Web-Logs del servidor). Podrían no ser necesarios si las soluciones Big Data pueden directamente procesar estos archivos.

Ejemplo 1:  En los siguientes paginas demuestra la extracción de comentarios y los ID de usuarios embebidos en un archivo XML sin necesidad de otra transformación.

Ejemplo 2: En las siguiente pagina demuestra las extracción de las coordenadas con latitudes y longitudes de un usuario desde un simple campo JSON.

Otra transformación es necesaria para separar los datos dentro de dos campos separados para ser requeridos por la solución Big Data.

Etapa 5: Limpieza y Validación de Datos.

Los datos inválidos pueden sesgar y dar resultados falsos del análisis. Diferente a los datos empresariales donde son estructurados es predefinido y prevalidados, el ingreso de datos al análisis de datos pueden ser no estructurados sin indicar ninguna validación. Esta complejidad puede ocasionar una mayor dificultad para llegar a un conjunto de restricciones de validación adecuadas.

La etapa de limpieza y validación de datos es dedicado a establecer( a menudo complejo). Las soluciones de Big Data a menudo recibe datos redundante a través de diferentes conjunto de datos. Esta redundacia puede ser explotado para explorar conjunto de datos interconectados para ensamblar parámetros de validación y completar datos validos faltantes.

Por ejemplo:

1. el primer Valor del conjunto de Datos B es validado con los correspondientes valores en el conjunto de datos A.

2. El segundo valor en el conjunto de Datos no es validado con este correspondiente valor en el conjunto de datos A.

3. Si un valor faltante, este es insertado desde el conjunto de Datos A.

Para el análisis por lotes, la validación y limpieza de Datos pueden ser alcanzada de una manera con una operación ETL fuera de linea(offline). Para las analíticas fuera de linea, un sistema complejo en memoria es requerido para validar y limpiar los datos en la fuente. La procedencia puede jugar un rol importante en la determinación de la precisión y calidad de datos cuestionables. Los Datos aparecen para ser invaliddos pero todavia pueden ser valiosos ya que estos pueden poseer patrones ocultos y tendencias. La presencia de datos inválidos está dando resultado a picos. A pesar de que los datos parecen anormales, esto puede ser indicativo de un nuevo patrón.    

 

Etapa 6: Agregación y Representación de Datos.

Datos pueden extenderse a través de múltiples conjuntos de datos, requiriendo conjunto de datos unidos con campos comunes (Ej: Fecha o ID). En otro casos, los mismos campos de datos podrían aparecer en múltiples conjunto de datos(Ej: fecha de nacimiento).

Ya sea de manera de un método de reconciliación de datos es requerido o la representación del conjunto de datos para los valores correctos necesitan ser determinados.

La Etapa representación y Agregación de datos es dedicado a la integración de múltiples conjuntos de datos juntos para llegar a una vista unificada.

realizando esta etapa pueden volverse complicada debido a las diferencias de:

Estructura de datos: A pesar deque los formatos de datos pueden ser los mismos, los modelos de datos pueden ser diferentes.

Semántica: Un valor que son etiquetados de manera diferente en dos conjuntos de datos diferentes pueden definir la misma cosa.(por Ej. "Apellido" y "Nombre Paterno").

Reconciliando estas diferencias pueden requerir lógica compleja que se ejecuto automáticamente sin necesidad de intervención humana. Los grandes volúmenes procesados por las soluciones Big Data pueden hacer agregación de datos operación de tiempo y esfuerzo intensivo.

El futuro de análisis de requerimiento de datos necesita ser considerada durante esta etapa para ayudar el fomento de la reusabilidad de los datos.

Si la agregación de datos es requerido o no, esto es importante entenderlo ya que los mismos datos pueden ser almacenadas de diferentes formas. Una forma puede ser la mas adecuada para un tipo particular de análisis que otro.

Por ejemplo, los datos almacenados con un BLOB podrían ser poco usado si el análisis requiere acceso a los campos individualmente.

Un estandarizado de datos estructurados por las soluciones Big Data puede actuar como un común denominador que puede ser usado para un amplio rango de técnicas de análisis y proyectos. Esto puede requerir establecer un repositorio de análisis central, standarizados como los son las bases de datos NoSQL.

Un ejemplo simple de agregación de datos donde dos conjunto de datos son agregados juntos usando el campo ID.

Las mismas piezas de datos almacenados en dos diferentes formatos. El conjunto A contiene piezas de datos deseados, pero estas partes están en BLOB  que no son accesibles por una consulta en la DB.

El conjunto B contiene la misma pieza de datos organizados en columnas-basados en almacenamiento, habilitando cada campo para ser consultado individualmente.

Etapa 7: Análisis de Datos.