Fundamentos de Big Data

Introducción, Fundamentos y Análisis de Big Data.

Administrator

Temario del primer módulo de Big Data


  1. Entendiendo el Big Data.

  2. Terminología y Conceptos Fundamentales.

  3. Big Data Empresarial y Controladores Tecnológicos.

  4. Tecnologías Empresariales Tradicionales relacionadas con Big Data.

  5. Características de Datos en Entornos Big Data.

  6. Tipos de Datos en Entornos Big Data.

  7. Fundamentos de Análisis, Analítica y Tipos de Maquinas de Aprendizaje(Machine Learning).

  8. Inteligencia de Negocios y Big Data.

  9. Visualización de Datos en Big Data.

  10. Consideraciones y Planificación para la Adopción del Big Data.


 
 

1. Entendiendo el Big Data.

Big Data es un campo dedicado al análisis, procesamiento y almacenamiento de grandes colecciones de datos que frecuentemente tienen fuentes distintas. Las soluciones y prácticas de Big Data son normalmente requeridas cuando el análisis tradicional de datos, procesamiento, tecnologías de almacenamiento y técnicas son insuficientes. Específicamente, Big Data direcciona distintas necesidades, como la combinación de múltiples conjuntos de datos no relacionados, procesamiento de grandes cantidades de datos no estructurados y recolección de información oculta, de manera sensible al tiempo. Las cualidades que distinguen las soluciones de Big Data en procesamiento de datos son comúnmente conocidas como las 5 V´s y son documentadas en la sección "Características de Datos en Entornos Big Data".

Usando soluciones de Big Data, el análisis complejo de tareas pueden ser llevado a cabo para llegar a los resultados de un análisis profundo e interesante para los beneficios del negocio. Las soluciones de Big Data  pueden procesar cantidades masivas de datos que llegan a diferentes velocidades, pueden ser de diferentes variedades y tener numerosas incompatibilidades. Los datos acumulados en entornos empresariales  ( vía aplicación ) o fuentes externas de información son almacenados por la solución de Big Data.

Bloque de imagen y texto
Bloque de imagen y texto

Un dato procesado por una solución Big Data  pueden ser usado por aplicaciones empresariales directamente, o alimentar un dato de un Data Warehouse para enriquecer los datos existentes. Este dato es típicamente analizado y sometido por Analíticas. Los resultados de los datos procesados son comúnmente usados para reportes significativos y complejos, tareas de evaluación y pueden también ser alimentadas para mejorar su comportamiento (por ejemplo cuando las recomendaciones de un producto son desplegadas en linea).

Los datos procesados por soluciones Big Data son generados por humanos o maquinas aunque incluya este ultimo la responsabilidad de maquinas para generar el resultado. Los datos generados por humanos es el resultado de una interacción humana con el sistema, como servicios en línea y dispositivos digitales, ejemplos de ellos son los Blogs, emails, fotos y mensajes compartidos en redes sociales. Los datos generados por maquinas es el resultado de la automatización, controladores de eventos por un software o dispositivo, ejemplos de ello son los web-logs, sensores, datos de telemetría, medidores inteligentes y los datos de uso del aparato.

Las soluciones procesadas por Big Data puede dirigir a un amplio rango de revelaciones y beneficios como los son:

  • Optimización operacional

  • Inteligencia accionable.

  • Identificación de nuevos mercados

  • Predicciones exactas.

  • Detección de faltas y fraude.

  • Mejorar detalles de registros.

  • Mejorar la toma de decisiones.

  • Descubrimiento científico.

Hay numerosas preocupaciones, limitaciones y consideraciones que ven en la adopción del Big Data, de los cuales necesitan ser entendidas y medidas con estos anteriores beneficios. Muchos de estos son discutidos separadamente en la sección "Consideraciones y planificación para la adopción del Big Data".

 

2. Terminología y Conceptos Fundamentales.

En preparación para las subsiguientes secciones que cubrimos en los siguientes temas introductorios, la siguiente página provee definiciones concisas para los siguientes términos básicos:

  • Conjunto de Datos

  • Análisis de Datos.

  • Analítica.

  • Inteligencia de Negocios(BI).

  • Indicadores de rendimientos claves.

La sección concluye con los terminos y abreviaciones usadas como parte de la terminología de los datos.

Bloque de imagen y texto

Conjunto de Datos

Son un conjunto de colecciones o grupos de datos relacionados y en este curso son referenciados como Conjunto de Datos. Cada grupo o conjunto miembro comparten el mismo conjunto  de atributos como otros del mismo conjunto de datos. El diagrama "Conjunto de Datos" muestra un árbol basado en diferentes formatos. Un ejemplo puede incluir:

  • Los Tweets archivados en texto plano.

  • Una colección de imágenes.

  • Un extracto de columna almacenados en una tabla.

  • Observación del tiempo histórico que son almacenados en archivos XML.


Análisis de Datos

El análisis de datos es el proceso de examinar los datos para encontrar hechos, relaciones, patrones, percepciones y tendencias. El objetivo final del análisis de datos es soportar la toma de decisiones. Un ejemplo simple es el análisis de los datos de las ordenes de ventas de helados para determinar el número de conos de crema de helado vendidos relacionados con la temperatura diaria. Estos apoya decisiones de cuánta crema de helado y cuántos conos  podría una tienda ordenar y solicitar en relación al información del pronóstico del tiempo. La realización del análisis de datos ayuda a establecer patrones y relaciones entre los datos analizados.

La Analítica

La analítica es la disciplina de obtener un entendimiento de los datos, analizándolos con múltiples técnicas científicas y herramientas automatizadas con un enfoque en la localización  de patrones ocultos y correlacionados. En entornos Big Data, la analítica se aplica por lo general usando tecnologías distribuidas altamente escalables y frameworks para analizar grandes volúmenes de datos con diferentes fuentes.

El proceso de analítica generalmente busca entre grandes cantidades datos crudos y no estructurados para extraer información significativa que pueda servir como una entrada para identificar patrones, enriquecer datos empresariales, o mejorar la realización de búsquedas a gran escala. Diferentes tipos de organizaciones usa herramientas y técnicas de analítica de  manera diferente, como estos tres sectores:

  • En entornos orientados a los negocios, los resultados de la analítica pueden bajar costos operacionales y facilitar las estrategias en la toma de decisiones.

  • En el dominio científico, la analítica ayuda a identificar la causa de un fenómeno para mejorar predicciones con exactitud.

  • En el entornos basado en servicios( Como en las organizaciones del sector público), la analítica ayuda a fortalecer el enfoque en ofrecer servicios de alta calidad al reducir costos.

En general, la analítica permite los datos convertirlos en información y tomar una decisión con respaldo científico, así que esas decisiones puede ser basadas en datos reales y no en pasadas experiencias o solo en intuiciones.

Inteligencia de Negocios (BI)

La inteligencia de negocios (BI) es el proceso de obtener información de funcionamiento de una empresa para mejorar la toma de decisiones analizando datos externos y datos generados por los procesos empresariales. BI aplica analítica para grandes cantidades de datos en toda la empresa. Bi puede promover la utilización de datos consolidados en Data Warehouses para ejecutar consultas de analítica.

Indicadores Claves de Rendimiento

Un indicador clave de rendimiento (KPI) es una medida para medir el éxito dentro un contexto particular. los KPI's estan vinculados estrechamente con el objetivo de una estrategia empresarial y generalmente son usados para:

  • Identificar áreas problemáticas con el fin de tomar acciones correctivas.

  • Lograr el cumplimiento normativo.

KPI's actúa como punto de referencia rápida para la medición del rendimiento general del negocio. Cada KPI se basa en un indicador cuantificable que es identificado y aceptado de antemano. Un ejemplo incluye llamadas realizadas por día y el número de unidades fabricadas por mes.

Unidades de medida en los Datos

Cuando se habla de rangos de medida de datos, es necesario entender el rango correspondiente la medición de datos. Las unidades siguientes son listadas usando el byte como unidad fundamental de medición con prefijos decimales (No binarios).

Unidad de Medida
Número de Bytes
Kilobyte (KB)1.000
Megabyte (MB)1.000.000
Gigabyte (GB)1.000.000.000
Terabyte (TB)1.000.000.000.000
Petabyte (PB)1.000.000.000.000.000
Exabyte (EB)1.000.000.000.000.000.000
Zettabyte (ZB)1.000.000.000.000.000.000.000
Yottabyte (YB)1.000.000.000.000.000.000.000.000

3. Big Data Empresarial y Controladores Tecnológicos.

Big Data emerge de una combinación de necesidades de negocio e innovación tecnológica. Los siguientes son los negocios primarios y controladores tecnológicos que conduce al Big Data convirtiéndose en su propio campo:

  • Analítica y Ciencia de Datos

  • Digitalización

  • Tecnología asequible y hardware básico

  • Medios Sociales

  • Dispositivos y Comunidades Hiperconectadas.

  • Computación en la nube.

Analítica y Ciencia de Datos

Como las empresas en crecimiento están recolectando y almacenando más datos para encontrar potencialmente nuevas percepciones y obtener una ventaja competitiva, la necesidad por técnicas y tecnologías que puedan extraer información significativa y percepciones ha aumentado. Los algoritmos de maquinas de aprendizaje, técnicas estadísticas y data warehousing han avanzado la ciencia de datos y analítica para tal como un punto donde ellos han emergido como disciplinas individuales, con técnicas especificas y herramientas para realizar un único y complejo análisis. La madurez de estos campos de practicas maduradas y permitió la mayor parte de la funcionalidad básica que se espera de soluciones y herramientas contemporáneas al Big Data.

Digitalización

Para muchos negocios, los medios digitales han reemplazado a los medios físicos como de facto las comunicaciones y los mecanismo de envío. La información digitalizada potencial para una oportunidad de recopilar más información secundaria, tal como cuando se llevan búsquedas individuales o encuestas completas. Los datos secundarios coleccionados pueden ser importantes para los negocios, la minería de estos datos pueden permitir personalizar el mercadeo, automatizar recomendaciones y desarrollar la optimización de características de productos. Los ejemplos incluyen la televisión bajo demanda y el streaming de vídeo.

Tecnología asequibles y Hardware básico.

La tecnología relacionada a la colección y procesamiento de grandes cantidades de datos diversos se han convertido cada vez más asequibles. Las soluciones típicas de Big Data son basadas en software libre que requiere un poco más que un hardware básico. El uso de hardware básico hace que la adopción de las soluciones de Big Data  sean asequibles a los negocios sin grandes inversiones en capital. Los precios del almacenamiento de datos han bajado dramáticamente desde U$10.000 a tan solo U$0.10 por GB en menos de estas décadas.

Medios Sociales

La aparición de los medios sociales han empoderado a los clientes a proveer retroalimentación cerca al tiempo real a través de medios abiertos y públicos. Estos cambios han forzado a los negocios a considerar la retroalimentación del cliente de su oferta en la planificación estratégica. Como resultado, los negocios están almacenando e incrementando grandes cantidades de datos con interacciones de clientes desde medios sociales en un intento de cosechar esta informacion para incrementar las ventas, permitir el marketing dirigido y crear nuevos productos y servicios. Los negocios también se han interesado en incorporar conjunto de datos públicos desde medios sociales y otras fuentes externas.

Dispositivos y Comunidades Hiperconectadas

La ampliación de la cobertura de Internet y la proliferación del celular y las redes inalámbricas han permitido más personas estar continuamente activas en comunidades virtuales. Eso ya sea directamente mediante interacciones en linea o mediante el uso indirecto de dispositivos conectados. Esto ha resultado en corrientes de datos masivos. Algunas corrientes son publicas. Otras corrientes van a los vendedores y las empresas directamente.

Computación en la nube.

Los avances de las tecnologías de la computación en la nube han conducido a la creación de entornos remotos llamados como "Nube". Estos entornos son capaces de proveer escalabilidad alta, recursos de IT en demanda que pueden ser arrendados con modelos pago por uso. Los negocios tienen la oportunidad para apalancarse a las capacidades de infraestructura, almacenamiento y procesamiento por estos entornos con el fin de construir soluciones grandes escalables de Big Data que puedan hacer grandes tareas de procesamiento. La nube puede apalancarse por estas capacidades de escalamiento para optimizar el procesamiento de tareas de Big Data. El factor que los recursos IT basados en la nube pueden ser arrendados, dramáticamente reduce la inversión requerida en proyectos de Big Data.


4. Tecnologías empresariales relacionadas al Big Data.

Esta sección brevemente describe las siguientes tecnologías:

  • Procesamiento Transaccional en Linea.

  • Procesamiento Analítico en Linea.

  • Extracción transformar la carga.

  • Data Warehouse.

  • Marcado de datos.

  • Hadoop.

La mayoría de estas tecnologías son bien establecidas en la industria TI y datos previos a la llegada de Big Data. Son cubiertos aquí porque cada tecnología es únicamente para relevante para hoy en día en los ecosistemas y soluciones Big Data.

OLPT( Procesamiento de Transacciones en Linea).

El procesamiento de transacciones en linea (OLPT) es un sistema de software que procesa datos transaccionales. El termino "Transacción en linea" se refiere a la realización de una actividad en tiempo real y no un proceso por lotes(batch). Los sistemas OLTP almacenan datos operacionales que son completamente normalizados.

Los OLTP's son importantes para Big Data, estos representan una fuente común de entradas de datos estructurados para su analítica. Los resultado del análisis de Big Data pueden servir para la retroalimentación a los sistemas OLTP's. Las consultas soportadas por los sistemas OLTP's son compuestas de una operación simple de insertar, borrar, y actualizar en tiempos de respuesta en mili-segundos. Los ejemplos incluyen un sistema para ticket de reserva, sistema bancario y transacciones de los sistemas POS.

OLAP( Procesamiento Analítico en Linea).

El procesamiento analítico en linea (OLAP) es un sistema usado para procesar consultas de análisis de datos. Los OLAP's forma parte integral de la inteligencia de negocios, la minería de datos y las maquinas de aprendizaje. Los OLAP's son importantes para el Big Data ya que estos pueden servir tanto como una fuente de datos, así como limpieza de datos que es capaz de recibir.

Los OLAP's son usados en analítica de diagnósticos, predicciones y prescripciones.(Estos temas son cubiertos más adelante en este curso). Los sistemas OLAP's almacena los datos históricos que son agregados y des-normalizados para soportar capacidad de reporte de manera rápida. Estos promueven el uso de base de datos de datos históricos almacenados en arreglos multidimensionales y pueden responder consultas complejas basadas en múltiples dimensiones de los datos.

Diferencia entre OLPT's y OLAP's.

Un sistema OLAP siempre se alimenta con datos de múltiples sistemas OLTP usando trabajos de procesamiento por lotes regularmente. Diferente a los sistemas OLTP,  el tiempo de las consultas OLAP pueden tomar varios minutos o incluso más tiempo, dependiendo la complejidad de las consultas y la cantidad de registros consultados.

En el siguiente diagrama muestra los datos relacionales desde dos sistemas OLTP que son periódicamente importados por tareas de entradas de datos por lotes al sistema OLAP. Los datos relacionales son almacenados en el sistema OLAP de manera  no normalizada en forma de cubos. Esto permite al dato ser consultado después por alguna tarea de análisis de manera optima.

Extraer Transformar Cargar (ETL).

Extraer-Transformar-Cargar (ELT en ingles "Extract-Transform-Load"). es un proceso de carga de datos desde el sistema origen al sistema objetvo. El sistema origen puede ser una base de datos, un texto plano o una aplicación. Igualmente, el sistema objetivo puede ser una base de datos o algún otro sistema de información.

ETL representa la operación principal mediante la alimentación de datos de cada datawarehouse. Un solución Big Data engloba un conjunto de características ETL para convertirlas en diferentes tipos de datos. Los datos requeridos son primero obtenidos( Extraidos) desde fuentes, después cada dato extraído es modificado(transformado) aplicando reglas. El dato es finalmente insertado (Cargado) el sistema objetivo.

Almacén de Datos (Data Warehouses).

Un Data Warehouse es un gran repositorio central consistente de datos históricos y actuales. Los Data Warehouse son fuertemente usados por BI para correr consultas analíticas. Los datawarehouse usualmente sirve de interfaz con un sistema OLAP para soportar consultas analíticas. También periódicamente trae información de otras fuentes para la consolidación en un conjunto de datos( desde sistemas OLTP, ERP, CRM y SCM). Los datos pertenecen a multiples entidades del negocio que desde los diferente sistemas operacionales son extraidos, validados, transformados y consolidados en una base de datos simple. Periódicamente los datos son importados del negocio, esa cantidad de datos contenidos en un data warehouse continuará incrementándose. Como parte de BI los tiempos de respuesta de la consulta para las tareas de análisis de los datos optimizados pueden sufrir como consecuencia. Para resolver este defecto, los Data Warehouses usualmente contiene base de datos optimizadas, llamadas base de datos analíticas, para manejar reportes y tareas de analítica de datos.

Una base de datos analítica puede existir separada al DBMS, como es el caso de un base de datos OLAP.

Almacén de Datos (Data Warehouses) y Data Marts.

Un Data Mart es un subconjunto de los datos almacenados en un data Warehouse que normalmente pertenece a un departamento, división o linea especifica del negocio. El Data Warehouse puede tener múltiples Data Marts como se muestra en el diagrama en la siguiente pagina, los datos de toda la empresa son coleccionados y las entidades empresariales son extraídas. Las entidades de dominio especifico son persistidas en el datawarehouse a través de un proceso ETL. Una versión verdadera simple de un Datawarehouse es basada en datos limpios. De los cuales es un pre-requisito para reportes precisos y libre de errores.( Así como se muestra la salida al lado derecho del diagrama).

Hadoop

Es un framework de código libre para el almacenamiento y procesamiento de datos a gran escala que más o menos corre en un hardware básico. El framework Hadoop se ha establecido como plataforma de la industria de facto para las soluciones Big Data contemporáneas. Hadoop puede ser usado como motor ELT, o como motor de analítica para procesar grandes cantidades de datos estructurados, semi-estructurados y no estructurados. En el modulo 2 se mostrará más información acerca de la características de Big Data y mecanismos relacionados.


5. Características de los datos en Entornos Big Data.

A continuación son las 5 características principales que diferencian la categorización de los datos como "Big Data"  de  otras formas de información. Estos características son comúnmente referenciadas como las 5 V's.

  • Volumen.

  • Velocidad.

  • Variedad.

  • Veracidad.

  • Valor. 

Volumen

El volumen previsto de los datos que son procesados por soluciones Big Data  es sustancial y usualmente cada vez mayor. El alto volumen de los datos  impone el almacenamiento de datos distintos y demandas de procesamiento, así como la gestión y procesos de acceso. Las organizaciones y usuarios de internet crea 2.5 EB's de datos a diario, mientras la librería del congreso actualmente mantiene 300TB's.  Las fuentes de datos comunes que son responsables de generar alto volumen de datos pueden incluir:

  • Transacciones en linea(Puntos de venta, banca).

  • Datos científicos y de investigación( El gran colisionador de Hadrones, El conjunto milimétricos y sub-milimétricos de telescopios de Atacama).

  • Datos de sensores (RFID, Medidores inteligentes, sensores GPS).

  • Redes Sociales ( Facebook, Twiter).

Velocidad

Big Data llega a velocidades tan rápidas que los enormes conjunto de datos se acumula dentro cortos periodos de tiempo. Desde un punto de vista empresarial, la velocidad de datos se traduce en la cantidad de tiempo que toma los datos para ser procesados una vez entre al perímetro empresarial. Copiando con con las rápidas entradas de datos requiere la empresa diseñar soluciones de alta elasticidad y procesamiento disponible y capacidades de almacenamiento correspondientes. Dependiendo de las fuentes de datos, la velocidad no siempre puede ser alta. Por ejemplo, el escaner de imágenes de resonancia magnética MRI usualmente no genera datos con tanta  frecuencia como los logs de los servidores de sitios web de alto tráfico. 

Para colocar el potencial de la velocidad de datos en perspectiva, Los siguientes datos son actualmente generados en un minuto:

  • 100.000 Tweets

  • 48 horas de vídeo.

  • 171 millones de correos electrónicos.

  • 330 GB's de datos promedio generados por un motor a reacción.

Variedad

La variedad de datos se refiere a los múltiples formatos y tipos de datos que necesita soportar las soluciones de Big Data, tal como datos estructurados, semi-estructurados y no estructurados ( se describe adicionalmente en la próxima sección "Tipos de Datos en Entornos Big Data"). La variedad de datos trae cambios para las empresas en términos de integración, transformación, procesamiento y almacenamiento de la informacion. Los ejemplos incluyen transacciones financieras(estructurada), emails (semi-estructurada) e imágenes (no estructurada).

Veracidad

La veracidad se refiere a la calidad o fidelidad de los datos. Los datos existentes en entornos Big Data pueden ser significativos o agregados en desorden. Los datos evaluados en relación a la veracidad son:

  • Ruido: Transporte de datos sin valor.

  • Señal: Portadora de datos de valor que lleva informacion significativa.

Los datos adquiridos de manera controlada, tal como registros de clientes en linea, usualmente contiene menos ruido que los datos adquiridos vía fuentes no controladas como publicaciones de blogs. El grado de ruido( Datos erróneos) o  en relación a la señal ruido varia dependiendo en el tipo de dato presente.

Valor

El valor es definido como la utilidad de de los datos para una empresa. La característica del valor es directamente relacionada a la característica de veracidad en que los datos son altamente fiables, estos tienen más valor para la empresa. El valor también depende  en cuanto tiempo toma el procesamiento de los datos, como valor y tiempo son inversamente proporcionales del uno al otro. Cuanto mas se tarde los datos en volverse en informacion significativa, menor es el valor puede tener para el negocio. ( Porque inhiben la velocidad para tomar una decisión). La mejor confianza en los datos, es un potencial de más valor que tiene el negocio. Cuanto más se tarde analizar los datos, es menor el valor potencial que tiene para el negocio. Aparte de la veracidad y el tiempo, el valor también es determinado las siguientes consideraciones:

  • ¿Qué tan bien ha sido almacenados los datos?

  • ¿Los datos han sido desprovistos de los atributos valiosos?

  • ¿Son los tipos de preguntas adecuadas que se tratan durante el análisis de la información?

  • ¿Son los resultados del análisis de datos comunicados de forma precisa a quienes toman las decisiones adecuadas?


6. Tipos de Datos en Entornos Big Data.

Tipos de Datos

Los tipos de datos procesados por soluciones Big Data pueden ser divididos entre las siguientes categorías primarias:

  • Datos Estructurados

  • Datos no Estructurados

  • Datos Semiestructurados

Estos tipos de datos se refiere a la organización interna de datos y puede también referirse como formatos de datos.  Aunque técnicamente no es un tipo de dato, pero más bien es otra forma de datos que a si mismo puede variar en estructura, Los metadatos son descritos brevemente al final de esta sección.

Datos Estructurados

Los datos estructurados:

  • Conforman el esquema de datos o modelo.

  • Son almacenados en forma tabular o tablas.

  • Pueden ser relacionales.

Los datos estructurados son normalmente almacenados en base de datos relacionales y frecuentemente generados por aplicaciones empresariales personalizadas, sistemas como ERP ( Planeación de Recursos Empresariales) Administrador de sistemas y relaciones de clientes ( CRM ).  Los datos estructurados no tienen generalmente ningún requerimiento especial de pre-procesamiento o almacenamiento. Los ejemplos incluyen, transacciones bancarias, registros de sistemas OLTP y registros de clientes.

Datos No Estructurados

Los datos no estructurados:

  • No conforman un modelo o esquema de datos.

  • Son generalmente inconsistentes y no relacionales.

Los datos no estructurados ya sean existentes en forma de texto o binaria. Los ejemplos incluyen imágenes, archivos de audio y video. Técnicamente, ambos como archivos de texto o binarios tienen una estructura definida por el mismo formato, Estos han sido tenido en cuenta para enfocarnos en los formatos de los datos contenidos en el archivo únicamente. Los datos no estructurados generalmente son el 80% de los datos dentro de la empresa y tienen una tasa de crecimiento mayor que los datos estructurados. Diferente a los datos estructurados, los no estructurados generalmente requieren una lógica especial personalizada cuando estos llegan al pre-procesamiento y almacenamiento. 

Los Datos no estructurados no pueden ser inherementemente procesados o consultados usando consultas SQL o programación tradicional y usualmente son una forma incomoda en las base de datos relacionales. Una base de datos NoSQL es una base de datos no relacional que puede ser usada para almacenar datos no estructurados junto con datos estructurados.

Datos Semi - Estructurados

Los datos semiestructurados tienen un nivel definido de estructura y consistencia, pero no son de forma natural relacionales. La mayoría de los datos semiestructurados existen formatos de texto, como archivos XML o JSON y pueden generalmente se procesados más fácilmente que los datos no estructurados. Ejemplos de fuentes comunes de datos semiestructurados incluyen datos de intercambio electrónicos (EDI), emails, Hojas de Calculo, RSS Feeds y datos de sensores. Los datos semiestructurados a menudo tienen un requerimiento especial de pre-procesamiento y almacenamiento. Especialmente si el texto subyacente no es basado en formato de texto.

Metadatos

Los metadatos provee informacion acerca de un conjunto de datos, características y estructura. La mayoría de estos tipos de datos son generados por maquinas y anexados automáticamente a la informacion. Son cruciales para procesamiento, almacenamiento y análisis en Big Data.

Ejemplos de metadatos incluyen:

  • Las Etiquetas XML proveen el autor y creación de un documento.

  • Los atributos proveen el tamaño del archivo y la resolución de una fotografía digital.

Las soluciones Big data particularmente confían en los meta-datos cuando se procesan datos semi estructurados y no estructurados.

Tipos de datos y Veracidad

Los datos semiestructurados y no estructurados tienen grandes señales de ruido que los datos estructurados. Las gran cantidad de ruido en datos semiestructurados y no estructurados requiere automatizar limpieza de datos y transportarlo fuera de los procesos ETL (Extracción Transformación Carga).


7. Fundamentos de Análisis, Analítica  y Tipos de Máquina de Aprendizaje.

Tipos de Análisis de Datos

En la sección "Terminología y Conceptos" nos introducimos en el " Análisis de Datos" y dimos un ejemplo simple. Las próximas paginas describiremos más los siguientes tipos básicos de análisis de datos:

  • Análisis Cuantitativo

  • Análisis Cualitativo

  • Minería de Datos

Cada descripción incluye ademas un ejemplo basado en el escenario de las ventas de conos de helado usado en la descripción inicial en el análisis de datos.

Análisis Cuantitativo

El análisis Cuantitativo es una técnica de análisis de datos que se enfoca en cuantificar patrones y correlaciones encontradas en los datos. Basado en practicas estadísticas, esta técnica analiza un gran numero de observaciones desde el conjunto de datos. El Tamaño de la muestra es grande, los resultados pueden ser aplicados de manera generalizada en el conjunto de datos completo.

Los resultados del análisis cuantitativo son absolutos de manera natural por lo tanto son usados para comparaciones numéricas. Por ejemplo un análisis cuantitativo de ventas crema de helado pueden descubrir que 5 grados de incremento de temperatura incrementa las ventas de los helados en un 15%.

Análisis Cualitativo

El análisis cualitativo es una técnica de análisis de datos que se enfoca en describir la cualidad de varios datos usando palabras. Análisis cualitativo se basa en una muestra de mayor profundidad comparado con análisis cuantitativo de datos. Estos resultados no pueden ser generalizados como un conjunto de datos generalizado debido al tamaño pequeño de la muestra. No se pueden ser medidos numéricamente o usados para comparaciones numéricas.

Por ejemplo, un análisis cuantitativo de las ventas de conos de helado pueden revelar que cifras de las ventas en Mayo no son tan altas como las ventas en Junio. El estado de los resultados del análisis solo dicen que las cifras "no son tan altas como" y no proveen una diferencia númerica.

Minería de Datos

La minería de datos también es conocida como datos de descubrimiento, es una forma especializada del análisis de datos, que tiene como objetivo grandes conjuntos de datos. Las minería de datos en relación al análisis Big Data generalmente se refiere a la automatización, técnicas basadas en software que examina cuidadosamente conjuntos de datos masivos para identificar patrones y tendencias.

Específicamente, la minería de datos se basa extrayendo patrones ocultos o desconocidos en los datos con la intención de identificarlos previamente. La minería de datos constituye la base para la analítica predictiva e inteligencia de negocios(BI).

Tipos de Analítica

El termino "Analítica" fue inicialmente descrito en la sección "Terminología y Conceptos Fundamentales". Esta sección explora más la analítica para describir los siguientes tipos de analítica comunes.

  • Analítica Descriptiva.

  • Analítica Diagnóstica.

  • Análitica Predictiva.

  • Analítica Prescriptiva.

Valor y Complejidad incrementa como nos movemos desde la analítica descriptiva a la prescriptiva.

Analítica Descriptiva

La analítica descriptiva es llevada a cabo para responder preguntas acerca de eventos que ya han ocurrido. Preguntas de ejemplo pueden incluir:

  • ¿Cuales son los datos de ventas en los 12 meses pasados?

  • ¿Cual es el numero de llamadas de soporte recibidas categorizadas con severidad y localización geográfica?

  • ¿Cual es la comisión mensual obtenida por cada agente de venta?

Cerca del 80% de analíticas son descriptivas. El análisis descriptivo proporciona el menor valor y requiere una habilidad relativamente básica. La analítica descriptiva se llevan cabo a menudo en reportes y tableros ad-hoc. Los reportes son generalmente estáticos y muestra datos históricos que son presentados en forma de grillas o caracteres.

Las consultas son ejecutadas en los sistemas OLTP o datos obtenidos desde otros sistemas de informacion variados como CRMs y ERPs.

Analítica Diagnóstica

El objetivo de la analítica Diagnostica es determinar la causa de un fenómeno que ocurrió en el pasado, usando preguntas que buscan en la razón detrás del evento. Preguntas de ejemplo que se incluyen son:

  • ¿Porqué las ventas del segundo trimestre fueron inferiores que las del primer trimestre?

  • ¿Porque han habido más llamadas de soporte originadas desde la región oriental que desde la región occidental?

  • ¿Porque hay un incremento en tasas de pacientes con re-admisión comparado los tres meses anteriores?

La analítica diagnostica es considerada por proporcionar más valor que la analítica descriptiva, requiriendo un nivel de habilidades más avanzado. La analítica diagnostica usualmente requiere colecciones de datos de múltiples fuentes y almacenadas dentro de una estructura que presta para realizar desgloses(drilldown) y envolvimientos (rollups).

Los resultados son mostrados con herramientas de visualización interactiva que permiten al usuario identificar patrones y tendencias. Las consultas ejecutadas son mas complejas comparadas con la analítica descriptiva, y son optimizadas en datos multidimensionales obtenido del sistema OLAP.

Analítica Predictiva

La analítica predictiva lleva a cabo un intento por determinar el resultado de un evento que puede ocurrir en el futuro.

Las preguntas son usualmente formuladas usando la forma racional ¿Qué - si? como los siguientes ejemplos:

  • ¿Cuales son las posibilidades de que un cliente deje de pagar si ha perdido un pago mensual?

  • ¿Cuales son las tasas de pacientes sobrevivientes si la droga B es suministrada en lugar de la droga B?

  • ¿Si un cliente ha comprado Productos A y B, ¿Cuales son las oportunidades que ella tiene para comprar el producto C?

La analítica predictiva trata de predecir el resultado de un evento y las predicciones son basadas en patrones, tendencias y excepciones encontradas en datos históricos y actuales. Esto puede puede dirigir a la identificación de riesgos y oportunidades.

La analítica predictiva envuelve el uso de grandes conjuntos de datos(comprimidos de ambos datos internos y externos), técnicas estadísticas, análisis cuantitativo, maquinas de aprendizaje y técnicas de minería de datos. Este tipo de analítica es considerada por proporcionar mas valor y requiere habilidades más avanzadas que las analíticas descriptivas y diagnostica juntas.

Las herramientas de analítica predictiva  generalmente abstrae fundamentalmente complejidades estáticas para proveer interfaces amigables para los usuarios.

Analítica Prescriptiva

La analítica prescriptiva se construye bajo resultados de analítica predictiva para prescribir acciones que podrían ser tomadas. El enfoque esta en siguientes opciones prescribidas y el porque y cuando debe ser seguidas, obteniendo una ventaja o mitigar el riesgo.

Las preguntas de ejemplos pueden incluir:

  • Escoger uno de los tres fármacos. ¿Cual puede proporcionar el mejor resultado?

  • ¿Cuándo es el mejor momento para negociar una acción en particular?

La analítica prescriptiva proporciona mas valor que cualquier otro tipo de analítica y correspondientemente requiere las habilidades más avanzadas, como también software y herramientas especializadas. Varios resultados son calculados, y sugerido el mejor curso de la acción para cada resultado. Los cambios de enfoque desde explicatorio a aconsejable, pueden incluir la simulación de varios escenarios.

La analítica prescriptiva incorpora datos internos(Ventas actuales y datos de venta históricos, informacion de clientes, datos de productos, reglas de negocio) y datos externos ( Datos de redes sociales, datos climáticos, datos demográficos). La analítica prescriptiva cubre el uso de reglas de negocios y grandes volúmenes de datos internos y externos para simular resultados y prescribir el mejor curso de la acción.

Maquinas de Aprendizaje(Machine Learning).

Las maquinas de aprendizaje es el proceso de aprendizaje de las maquinas para aprender a partir de los datos existentes y aplicar  el conocimiento adquirido para formular predicciones acerca de datos desconocidos.

Este cubre la identificación de patrones en el entrenamiento de datos y clasificación de nuevos datos o datos no vistos basados en patrones conocidos.

Los algoritmos de maquina de aprendizaje también tiene la habilidad de ajustar el comportamiento usando una retroalimentación repetitiva como trabajo con los nuevos conjuntos de datos. Estos algoritmos pueden generalmente ser agrupados en los dos siguientes tipos:

  • Aprendizaje supervisado.

  • Aprendizaje no supervisado. 

Tipos de Máquinas de Aprendizaje(Machine Learning).

Un algoritmo de aprendizaje supervisado es el primer ejemplo de dato alimentado cuando las categorías de datos ya son conocidas. Basado en la entrada de datos, el algoritmo desarrollado un entendimiento in entendimiento de cada dato perteneciente a cada categoría. Teniendo desarrollado un entendimiento, el algoritmo puede aplicar el comportamiento a la categoría del dato desconocido.

Con un algoritmo de aprendizaje no supervisado, las categorías de los datos son conocidas y es alimentado sin datos de muestra. En lugar, el algoritmo  intenta ser dato categorizado por datos agrupados con atributos similares juntos.

Máquinas de Aprendizaje(Machine Learning) vs Minería de Datos(Data Mining).

A pesar de que la minería de datos y las maquinas de aprendizaje son cercanamente relacionadas, tiene diferencias notables. Mientas la minera de datos desentierra patrones escondidos y relaciones basadas en atributos de datos desconocidos previamente, la maquina de aprendizaje hace predicción de datos categorizados basado en patrones conocidos.

La minera de datos puede emplear algoritmos de maquina de aprendizaje , como aprendizaje supervisado, para extraer atributos desconocidos previamente. Esto es logrado  por los datos categorizados, quienes dirigen a la identificación de patrones. Las maquina de aprendizaje  son usados para la salida de la minería de datos(identificando patrones). para mejorar la clasificacion mediante aprendizaje supervisado.

8. Inteligencia de Negocios (BI) y Big Data.


Las soluciones de Big Data contemporáneas confían en BI y Almacenes de Datos(DataWareHouse) como componentes principales de los entornos y ecosistemas Big Data. A la inversa, la ventaja del Big Data ha avanzado la tecnología del BI y los Almacenes de Datos y practicar un punto donde una nueva generación de estas plataformas ha emergido. Esta sección compara los entornos BI y los entornos de almacenes de datos con la siguiente generación. y promueve definiciones asociadas a las soluciones Big Data. 

El BI Tradicional    

El BI Tradicional utiliza la analítica descriptiva y diagnostica para proveer información en eventos históricos y actuales. La BI tradicional no es "inteligente" como tal porque esta únicamente provee respuestas a preguntas correctamente formuladas. Las preguntas correctamente formuladas requieren un entendimiento de los asuntos y problemas del negocio, y de los datos propios.

BI reporta en diferentes KPI´s a traves de:

- Informes AdHoc

-Tableros

Bi Tradicional: Informes Ad-Hoc

La realizacion de informes AdHoc es un proceso que involucra manualmente el procesamiento de datos para realizar informes personalizados. El informe ad-hoc es enfocado normalmente en una área especifica del negocio, como la administración del Marketing o la cadena de suministros. Los informes personalizados son detallados y a menudo son de naturaleza tabular. Los datos originados en sistemas OLAP y OLTP pueden ser usados soluciones de BI en informes adhoc y tableros.

BI Tradicional: Tableros

Los tableros(Dashboard) proveen un vista holística de las áreas claves del negocio. La información es mostrada en tableros generados en periodos de intervalos en tiempo real o cerca al tiempo real. La representación de los datos en los tableros es gráfica por naturaleza, como gráficos de columnas, gráficos circulares y medidores. Las herramientas de BI utilizan OLAP y OLTP para mostrar información en los tableros(Dashboard).

Como hemos explicado anteriormente, los almacenes de datos (DataWareHouse) y los Marts Data contienen informacion consolidada y validada de las entidades de la red del negocio.

La BI tradicional no tiene funciones efectivas sin los DATA MARTs porque contiene datos BI segregados y optimizados requeridos para el propósito de informar.

Sin los DATA MARTs, los datos necesitan ser extraidos desde el almacen de datos via procesos ETL en una base Adhoc siempre qque una consulta necesite ser ejecutada. Esto incrementa el tiempo y rendimiento para ejecutar consultas y generar informes.

El Bi tradicional usa los almacenes de datos y los DATA MARTs para informar y analizar datos, porque permiten consultas complejas de análisis de datos con uniones múltiples

 y agregados para ser publicados.

BI Big Data

El Big Data BI se basa en el Tradicional BI actuando en los datos limpios y consolidados de toda la empresa en los almacenes de datos y combinándolos con fuentes de datos semi-estructurados y no estructurados.

El BI Big Data comprende ambas analíticas predictiva y prescriptiva para facilitar el desarrollo de una comprensión global del funcionamiento de la empresa.

Mientras el análisis del BI Tradicional atiende los procesos empresariales individualmente. El análisis de BI Big Data atiende múltiples procesos empresariales simultáneamente.

Esto ayuda a revelar patrones y anomalías dentro de una ámbito más amplio dentro de la empresa. Eso lleva a descubrir datos identificando la visión y la información desconocida o que puede faltar.

Bi Big Data requiere el análisis de datos no estructurados, semi-estructurados y estructurados residentes en el almacén de datos empresarial (Data Warehouse).

Esto requiere una generación siguiente o avanzada de almacenes de datos que usa nuevas características y tecnologías para almacenar en forma limpia los datos originados desde una variedad de fuentes en un formato simple de datos.

El acoplamiento en un almacén de datos tradicional con estas nuevas tecnologías resulta en un almacén de datos híbrido.

Este tipo de almacenes de datos actúa como un repositorio uniforme y central de datos estructurados, semi estructurados y no estructurados que pueden proveer las herramientas con todos los datos que estos requieren.

Esto elimina la necesidad que las herramientas del Big Data tengan múltiples conexiones a múltiples orígenes de datos para recuperar o acceder a los datos.

La siguiente generación de los almacenes de Datos establece una capa de acceso a datos estandarizada con un distinto rango de fuentes de datos.


9. Visualización de Datos en Big Data.

La visualización es una técnica por lo cual los resultados analíticos son comunicados gráficamente usando elementos como mapas, gráficos, rejillas de datos, infografías y alertas.

Representando gráficamente los datos pueden fácilmente entender informes, ver tendencias, e identificar patrones

Tradicionalmente la visualización de los datos provee mayormente gráficos estáticos, grafos en reportes y tableros, mientras las herramientas contemporáneas de visualización  de datos son interactivas y pueden proveer ambos resúmenes y detalles vistos de los datos.

Estos son diseñados para ayudar a la gente quien no tiene perfil de estadísta y/o matemático para entender mejor los resultados analíticos, sin tener que recurrir a hojas de calculo.

Herramientas de Visualización de Datos

Las herramientas tradicionales de visualización de consulta de datos desde las bases de datos relacionales, sistemas OLAP, almacenes de datos(DataWareouse) y hojas de calculo presentan resultados analíticos descriptivos y diagnostico.

Las soluciones de Big Data  requieren herramientas de visualización de datos que pueden conectarse sin problemas fuentes de datos estructurados, semi-estructurados y no estructurado, y son y promueven capacidad de manejo de millones de registros de datos.

Las herramientas de visualización de datos para las soluciones de Big Data generalmente usa tecnologías de analítica en memoria(in-memory analytical technology) que reduce la latencia normalmente atribuida a la herramientas tradicionales de visualización de datos basadas en disco.

Características de Visualización de Datos

Las características de las herramientas de visualización usadas en Big Data son:

Agregación: Provee una vista holistica y resumida de los datos a través de múltiples contexto.

Drill Down: (Profundizado) Permite una visión detallada de los datos de interés mediante el enfoque centrándose en el subconjunto de datos de la vista resumida.

Filtering: Ayuda a enfocarse en un conjunto en particular de datos mediante el filtrado de datos que no son de interés inmediato.

Roll-up: Grupos de datos a través de múltiples categorías para mostrar subtotales y totales.

Y si Analisis: Permite multiples resultados para ser visualizados permitiendo factores relacionados para ser cambiados dinamicamente.

Herramientas de Visualización Avanzada 

Las herramientas de visualización avanzada para la soluciones de Big Data incorporan analítica de datos predictivo y prescriptivo y características de transformación de datos.

Estas herramientas eliminan la necesidad del pre-procesamiento(como ETL) y provee la habilidad de conectar directamente fuentes de datos estructurados, semi estructurados y no estructurados.

Como parte de las soluciones de Big Data, las herramientas de visualización avanzada de datos pueden integrar datos estructurados, no estructurados y semi estructurados que son mantenidos en memoria para un rápido acceso.

Las consultas y formulas pueden entonce se aplicadas como parte de varios tareas de análisis de datos para visualiza datos en un formato amigable al usuario, como los son los tableros.

10. Consideración y Planificación para la Adopción de Big Data.


Las iniciativas son inherentemente impulsados por la empresa, hay necesidad de tener un claro caso de negocios para adoptar una solución en Big data para asegurar  que este sea justificado y expectativas encontradas.

Los claros logros respecto a los valores medibles del negocio de las soluciones empresariales de Big Data necesitan ser ajustadas.

Los beneficios anticipados necesitan ser comparados con los riesgos e investigaciones.

Por ejemplo, un logro puede ser construir un vista de 360 grados de una base de clientes una compañia. Estos logros pueden requerir todos los datos dentro del negocio para ser consolidados en numerosos sistemas.

Los riesgos asociados con la recoleccion de datos precisos y relevantes y con la integración de entornos Big Data. necesitan ser identificados y cuantificados.

Esto es importante para aceptar que las soluciones en Big Data no son necesarias para todo el negocio. Por ejemplo, algunas compañias  pueden simplemente no generar suficientes datos para garantizar los entornos Big Data.

Por ejemplo un logro puede ser construir una vista de 360 grados de los clientes de una compañia. Este logro puede requerir todos los datos del cliente consilidados en numerosos sistemas.

Los riesgos asociados con la recolección precisa y relevante de datos integrándolos con entornos de Big Data, necesitan ser identificados y cuantificados.

Es importante aceptar que las soluciones Big Data no son necesarias para todos los negocios. Por ejemplo, algunas compañías no pueden generar suficiente daos para garantizar un entorno Big Data.

Pre-requisitos Organizacional

Lo marcos de trabajo de Big Data no son la claves para las soluciones, En orden, para el análisis y analítica de datos para ser exitoso y ofrecer valor, la empresa necesita tener un administrador de Datos con marcos de trabajo y gobernanza en Big Data.

Será necesario procesos de escucha y habilidades suficientes para quienes serán los responsables de la implementación, personalización, poblado y uso de las soluciones de Big Data.

También, la calidad de los datos objetivos para ser procesados por las soluciones necesarias de Big Data para ser evaluadas.

Los datos identificados como anticuados, inválidos o pobres resultarán en una calidad baja de entradas independientemente de cuan buena sea la solución en Big Data, esto esto producirá calidad de calidad baja.

La longevidad de los entornos Big Data también necesitan ser planeadas.

Una hoja de ruta necesita ser identificada para asegurar que ninguno expansión necesaria o argumentación de un entorno sin planeación para estar sincronizado con los requerimientos de la empresa.

Adquisión de Datos

La Adquisión de datos de las soluciones de Big Data en si mismas puede ser económicas, debido plataformas de código libre habilitadas y oportunidades de apalanca-miento en hardware básico. Sin embargo, un presupuesto sustancial deberá ser requerido para obtener datos externos.

La naturaleza  de los negocios pueden fabricar datos externos muy valiosos, El gran volumen y variedad de datos, los altos cambios de encontrar patrones de ideas ocultas.

Las fuentes de mercados de datos externos incluyen y el gobierno. Los datos del gobierno, también los datos  geo espaciales, pueden ser libres. Sin embargo la mayoría de datos relevantes son comerciales y podría tener costo. Tal inversión puede estar en marcha para obtener actualizaciones de los conjuntos de datos.

Privacidad

El rendimiento de la analítica en los conjuntos de datos pueden revelar información confidencial acerca de las organización e individuos.

Incluso  analizando por separado los conjuntos de datos que contienen aparentemente datos benignos pueden revelar información privada cuando los conjunto de datos son analizado en conjunto. Esto puede dirigir a violaciones intencionales o inadvertidas de la privacidad.

Abordar estos problemas de privacidad requiere un conocimiento de la naturaleza de los datos que están siendo acumulados y una regulación relevante de datos privados, como técnicas avanzadas para el etiquetado y anonimato de los datos.

Pro ejemplo, los datos telemétricos (como los GPS de los carros o lectores inteligentes de datos) recolecta sobre un periodo extendido de tiempo pueden revelar una locación individual y comportamiento.

La información reunida desde analíticas corriendo o archivos de imágenes, datos relacionales y textuales es usados para crear el perfil de John.

Seguridad

Algunos componentes de las soluciones de Big Data carecen de la robustez de los entornos de las soluciones empresariales tradicionales cuando se trata de control y acceso de las seguridad de los datos.

El aseguramiento de Big Data involucra que la seguridad de las redes provean acceso a los repositorios que están protegidos, a través de la autenticación y mecanismos de autorización personalizada.

La seguridad de Big Data establece niveles de acceso a los datos para diferentes categorías de los usuarios.

Por ejemplo, a diferencia del tradicional RDBMMS´s, Las Base de Datos NoSQL generalmente no proveen mecanismos robustos de seguridad incorporado. Se basan en simple API´s HTTP donde los datos son intercambiados en archivos de texto plano, dejando vulnerables a los datos de los ataques de red.

Procedencia

La procedencia se refiere a la información acerca de las fuentes de los datos que ayudan a determinar su autenticidad y calidad. También es usado para propósitos de auditoria.

Mantener la procedencia a medida que se adquiere grandes volúmenes de datos, combinado y llevar a cabo múltiples etapas de procesamiento puede ser una tarea compleja.

Abordar las preocupaciones de la procedencia puede requerir la anotación de datos con fuentes de información y otro metadatos, cuando estos son generados o a medida que llegan.

Los datos también pueden necesitar ser anotados con el conjunto de datos fuente, atributos y detalles de los pasos de procesamiento mediante los pasos de transformación de datos.

Soporte Limitado del Tiempo Real

Los tableros y otras aplicaciones que requieren transmisión de datos y alertas a menudo demandan transmisión de datos en tiempo real o cerca al tiempo real.

Muchas soluciones de Big Data contemporáneas de código abierto y herramientas son orientadas a lotes, principalmente soportadas para análisis de transmisión de datos pueden ser ya sea limitados o no existentes.

Algunas soluciones de Análisis de datos en tiempo real que existen son propietarios o privadas.

El procesamiento de datos en cerca de tiempo real pueden lograrse por procesamiento de datos transaccionales como llegan y combinándolos con lote de datos procesados ya resumidos.

Desafíos Distintos de Desempeño.

Debido a los volúmenes de datos que algunas soluciones de Big Data son requeridas para procesar, el rendimiento pueden algunas veces llegar a preocupar.

Por ejemplo, las parejas de conjuntos de datos con algoritmos de búsquedas complejas pueden generar tiempos grandes en las consultas.

Otro ejemplo pertenece a los anchos de banda. Con los crecientes volúmenes de datos. el tiempo de transferencia por unidad de datos puede este exceder el tiempo actual de procesamiento.

La transferencia de 1 PB de datos sobre una conexión 1 Gigabit LAN con el 80% de rendimiento pueden tomar aproximadamente 2.750 horas.


Requerimientos de Gobernabilidad Distintos.

El acceso a los datos de las soluciones de Big Data  y generación de datos, todos los cuales se convierten en beneficios del negocio. Un marco de trabajo (Framework) de Gobernabilidad es requerido para asegurar que los datos y entornos de la soluciones mismas sean reguladas, estandarizadas y evolucionadas de manera controlada.

Los ejemplos de que los marcos de trabajo de Gobernabilidad de Big Data  podrían abarcar:

Estandarizar como los datos son etiquetados y los metadatos son usados para etiquetar.

Políticas que regulan  el tipo de datos externos que pueden ser adquiridos.

Políticas para las privacidad y anonimidad de datos.

Políticas para archivar fuentes de datos y resultado de análisis.

Políticas de limpieza de datos y filtrado.

Metodologías Distintas.

Una metodología puede ser requerida para el control de como los datos fluyen dentro y fuera de las soluciones de Big Data y como los ciclos de retroalimentación pueden ser establecidos para habilitar el procesamiento de datos sometiéndolos en refinamiento repetitivos.

Pro ejemplo, un enfoque iterativo puede ser usado para habilitar al personal del negocio para proveer al personal en IT retroalimentación para el refinamiento del sistema de forma iterativa.

Cada ciclo de retroalimentación puede revelar la necesidad para modificar pasos existentes, o nuevos pasos como el preprocesamiento de la limpieza de datos para ser agregados.

Cada iteración puede entonces afinar las etapas del procesamiento, algoritmos y modelos de los datos para mejorar la exactitud de los resultados y entregar gran valor al negocio.

Computación en la Nube (Cloud Computing)

Com hemos mencionado primero en la precedencia en la sección de "Big Data Empresarial y Controladores Tecnológicos." La computación en la nube introduce entornos remotos que puede alojar infraestructura entre otras cosas, grandes escalas de almacenamiento y procesamiento.

Independientemente si una organización ya tiene habilitada la nube. La adopción de entornos de Big Data pueden necesitar que algunos o todos de estos ambientes sean alojados dentro una nube.

por Ejemplo, una empresa que ejecuta su sistema CRM en una nube decide agregar una solución Big Data en el mismo entorno de la nube con el fin de poder ejecutar analíticas en sus datos del CRM.

Estos datos pueden entonces ser compartidos con sus entornos primarios de Big Data que residen dentro de los limites empresariales.

Los temas de la computación en la nube en relación a Big Data es explorado los siguientes módulos 2: Análisis del Big Data y Conceptos Tecnológicos.

Las justificaciones comunes para incorporar un entorno de nube en apoyo de una solución Big Data incluyen:

Los recursos de hardware son inadecuados.

La inversión inicial de capital no esta disponible.

El proyecto debe ser aislado del resto del negocio para que los procesos empresariales no sean impactados.

las iniciativas de Big Data es un concepto de prueba.

los conjuntos de Datos que estos necesitan pueden ser procesados en una nube.

Los limites de disponibilidad de los recursos de almacenamiento y computacion usados por una solucion Big Data pueden ser ampliados.