35 conceptos básicos para entender el Big Data

code.bo
2019-04-15
0 comentarios

1.OLTP

El procesamiento transaccional en línea (OLTP) se refiere a la actividad general de actualización, consulta y presentación de texto y número de datos de bases de datos con fines operativos. En otras palabras, OLTP abarca las transacciones diarias realizadas en los sistemas de base de datos operativos, por ejemplo, una transacción que refleja un retiro de una cuenta corriente o una transacción que crea una reserva de línea aérea. (Burstein & Holsapple, 2008)

2. OLAP

El Procesamiento Analítico en Línea (OLAP) se refiere a la actividad general de consulta y presentación de datos numéricos y de texto de almacenes de datos y/o data marts con fines analíticos. [..] Las herramientas OLAP son de “solo lectura”, se usan exclusivamente para la recuperación de datos (De los repositorios analíticos) para el proceso de toma de decisiones. (Burstein & Holsapple, 2008)

3. Data Science

Data Science o ciencia de datos, es la aplicación empresarial del Machine Learning o aprendizaje automático, la inteligencia artificial y otros campos cuantitativos que extraen valor de los datos. En el contexto de cómo se usa la ciencia de datos en la actualidad, se basa en gran medida en machine learning y, a veces, se denomina minería de datos. Algunos ejemplos son los motores de recomendación que pueden recomendar películas para un usuario en particular, un modelo de alerta de fraude que detecta transacciones fraudulentas con tarjetas de crédito o predecir los ingresos para el próximo trimestre. (Kotu & Deshpande, 2019)

4. Data Lake

Data Lake es un gran repositorio que contiene todo tipo de datos en su formato original hasta que cualquiera en la organización lo necesite para analizarlos.(Pasupuleti & Purra, 2015)

5. Data Pipeline

Data Pipeline o flujo de Datos es una forma abstracta de hablar sobre los componentes de manejo de datos escritos en software que se aplican a objetos de datos en secuencia. Data Pipeline es una abstracción útil porque nos ayuda a pensar en cómo los datos y los instrumentos se transfieren en tiempo real a través de pasos de procesamiento hacia los resultados y cómo optimizar el manejo de los datos mientras se minimiza su costo. Data Pipeline es una abstracción para administrar y optimizar los procesos de datos a lo largo del ciclo de vida de los datos. (Chowdhury, Apon, & Dey, 2017)

6. Data warehouse

Data Warehouse o Almacén de Datos, es una gran base de datos que contiene copias de datos de otros sistemas, que luego están disponibles para otras aplicaciones. (Mattison, 2006)

7. Data mining

Data Mining o Minería de Datos es encontrar patrones útiles en los datos, también se conoce como descubrimiento de conocimiento, machine learning y análisis predictivo. El acto de minería de datos utiliza algunos métodos computacionales especializados para descubrir estructuras significativas y útiles en los datos. Estos métodos computacionales se han derivado de los campos de la estadística, machine learning e inteligencia artificial. (Kotu & Deshpande, 2015)

8. Data Analytics

Data Analytics o Análisis de Datos se define como la aplicación de sistemas informáticos al análisis de grandes conjuntos de datos para el soporte de decisiones. El análisis de datos es un campo muy interdisciplinario que ha adoptado aspectos de muchas otras disciplinas científicas, como la estadística, machine learning, el reconocimiento de patrones, la teoría de sistemas, la investigación de operaciones o la inteligencia artificial. (Runkler, 2016)

9. Data visualization

Data visualization o visualización de datos es una de las técnicas más importantes de descubrimiento y exploración de datos. Aunque la visualización no se considera una técnica de ciencia de datos, términos como minería visual o descubrimiento de patrones basados en imágenes se utilizan cada vez más en el contexto de la ciencia de datos, particularmente en el mundo de los negocios. La disciplina de visualización de datos abarca los métodos de expresión de datos que proporcionan una fácil comprensión de datos complejos con múltiples atributos y sus relaciones subyacentes.(Kotu & Deshpande, 2019)

10. Business intelligence

Business Intelligence o Inteligencia Empresarial es una amplia categoría de aplicaciones y tecnologías para recopilar, almacenar, analizar y proporcionar acceso a datos para ayudar a los empresarios a tomar mejores decisiones. Las aplicaciones de Business Intelligence incluyen las actividades de sistemas de soporte de decisiones, consultas e informes, procesamiento analítico en línea (OLAP), análisis estadístico, previsión y extracción de datos. (Brijs, 2013)

11. Kafka

Kafka se utiliza para crear tuberías de datos en tiempo real y aplicaciones de streaming o transmisión. Es horizontalmente escalable, tolerante a fallos, extremadamente rápido y se ejecuta en producción en miles de empresas. ( Apache Software Foundation, n.d.)

12. Spark

Apache Stark es una plataforma de computadora en clúster diseñada para ser rápida y de propósito general. Stark está diseñado para ser altamente accesible, ofreciendo API simples en Python, Java, Scala y SQL, y bibliotecas integradas ricas. También se integra estrechamente con otras herramientas de Big Data. En particular, Spark puede ejecutarse en clústeres de Hadoop y acceder a cualquier fuente de datos de Hadoop, incluida Cassandra. (Karau, Konwinski, Wendell y Zaharia, 2015)

13. Hadoop

Apache Hadoop es un framework de código abierto escrito en Java para el almacenamiento distribuido y el procesamiento distribuido de conjuntos de datos muy grandes en clústeres de computadoras.

Hadoop permite almacenar y procesar big data en un entorno distribuido en grupos de computadoras utilizando modelos de programación simples. Está diseñado para escalar desde servidores individuales a miles de máquinas, cada una ofrece computación y almacenamiento locales. Todos los módulos en Hadoop están diseñados con la suposición fundamental de que las fallas de hardware son comunes y deben ser manejadas automáticamente por el framework. (Jain, n.d.)

14. Python

Python es un potente lenguaje de programación de computadora multiparadigmo, optimizado para la productividad de los programadores, la legibilidad de códigos y la calidad del software. (Lutz, 2013)

15. Pandas

Pandas es una biblioteca de Python que contiene estructuras de datos de alto nivel y herramientas que se han creado para ayudar a los programadores de Python a realizar un análisis de datos poderoso. El objetivo principal de Pandas es ayudar a descubrir rápidamente la información en los datos, con la información definida como un significado subyacente. (Heydt, 2017)

16. Matplotlib

Matplotlib es un paquete de Python para gráficos 2D que genera gráficos de calidad de producción. Admite trazados interactivos y no interactivos, y puede guardar imágenes en varios formatos de salida (PNG, PS y otros). Puede usar varios kits de herramientas de ventana (GTK +, wxWidgets, Qt, etc.) y proporciona una amplia variedad de tipos de gráficos (líneas, barras, gráficos circulares, histogramas y muchos más). Además de esto, es altamente personalizable, flexible y fácil de usar. (Tosi, 2009)

17. Seaborn

Seaborn es una biblioteca de visualización de datos de Python basada en matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos. (Waskom, 2018)

18. Machine learning

Machine Learning puede considerarse un subcampo o una de las herramientas de la inteligencia artificial, es proporcionar a las máquinas la capacidad de aprender de la experiencia. La experiencia para las máquinas proviene de los datos. Los datos que se usan para enseñar máquinas se llaman datos de entrenamiento o training data. Por ejemplo, muchas organizaciones como las plataformas de redes sociales, sitios de revisión o foros deben moderar las publicaciones y eliminar el contenido abusivo. ¿Cómo se puede enseñar a las máquinas a automatizar la eliminación de contenido abusivo? Se les debe mostrar ejemplos de publicaciones abusivas y no abusivas, con una clara indicación de cuales son abusivas. Así se generará un patrón basado en ciertas palabras o secuencias de palabras para concluir si la publicación general es abusiva o no. El modelo puede tomar la forma de un conjunto de reglas "si - entonces". Una vez que se desarrollan las reglas o el modelo de ciencia de datos, las máquinas pueden comenzar a categorizar la disposición de cualquier publicación nueva. (Kotu y Deshpande, 2019)

19. ETL

ETL es la abreviatura de Extraer, Transformar y Cargar (Extract, Transform and Load en Inglés). Es el conjunto de procesos para obtener datos de los sistemas OLTP, sitios web, archivos sin formato, bases de datos de correo electrónico, hojas de cálculo y bases de datos personales, como Access. ETL no solo se utiliza para cargar un único almacén de datos, sino que también puede tener muchos otros casos de uso, como cargar almacenes de datos, generar hojas de cálculo, calificar a los clientes utilizando modelos de minería de datos o incluso volver a cargar pronósticos en sistemas OLTP. (Ruedas, Bouman, y Dongen, 2010)

20. Dataset

Grupo de datos estructurados recuperables en un enlace o en conjunto en una sola instrucción para una sola entidad, con una frecuencia de actualización superior a una vez por minuto. ("MELODA", 2019)

21. Scala

Scala es una combinación de conceptos de programación funcionales y orientados a objetos escrito en un lenguaje estático. La fusión de la programación funcional y orientada a objetos se muestra en muchos aspectos diferentes de scala; Es probable que sea más generalizado que cualquier otro lenguaje ampliamente utilizado. Las construcciones de programación funcional de Scala facilitan la construcción rápida de cosas interesantes a partir de piezas simples. Sus construcciones orientadas a objetos hacen que sea fácil estructurar sistemas más grandes y adaptarlos a las nuevas demandas. La combinación de ambos estilos en Scala hace posible expresar nuevos tipos de patrones de programación y abstracciones de componentes. También conduce a un estilo de programación legible y conciso. (Odersky, Spoon, & Venners, 2008)

22. R

R es un potente lenguaje de programación y medio ambiente para computación estadística, exploración de datos, análisis y visualización. Es gratuito, de código abierto, y tiene una comunidad fuerte y de rápido crecimiento donde los usuarios y desarrolladores comparten su experiencia y contribuyen activamente al desarrollo de más de 7,500 paquetes, de modo que R puede resolver problemas en una amplia gama de campos. (Ren, 2016)

23. SQL

El lenguaje de consulta estructurado, o Structured Query Language en Inglés (SQL) es un sistema de administración de bases de datos relacionales RDBMS (Relational Database Management System en inglés) desarrollado por Microsoft. (McQuillan, 2015)

24. NoSQL

NoSQL es un mecanismo para almacenar datos que no tienen ningún esquema fijo. La mayoría de las personas asumen que significa “No SQL”, mientras que la abreviatura real viene de “No solo SQL”. Esto significa que no se basa solo en el lenguaje de programación SQL para manipular y almacenar datos, sino que se puede usar junto con otros lenguajes de programación (Akhtar, 2018)

25. Numpy

NumPy es el paquete fundamental para la computación científica con Python. Contiene entre otras cosas:

  • Un poderoso objeto de matriz N-dimensional
  • Funciones sofisticadas (difusión)
  • Herramientas para la integración de código C / C ++ y Fortran.
  • Álgebra lineal útil, transformada de Fourier y capacidades de números aleatorios.

Además de sus obvios usos científicos, NumPy también se puede usar como un eficiente contenedor multidimensional de datos genéricos. Se pueden definir tipos de datos arbitrarios. Esto permite que NumPy se integre a la perfección con una amplia variedad de bases de datos. ("NumPy", 2018)

26. Scikit-learn

Scikit-learn es un software gratuito y de código abierto que lo ayuda a abordar proyectos de aprendizaje automático supervisados y no supervisados. El software está construido completamente en Python y utiliza algunas de las bibliotecas más populares que Python tiene para ofrecer, como Numpy y SciPy. (Jolly, 2018)

27. MapReduce

Map Reduce, es un paradigma de computación distribuida, donde se aplica una función dada a partes más pequeñas de un conjunto de datos para ser procesados simultáneamente o en paralelo por diferentes máquinas o procesos, donde el resultado de cada parte es combinado para dar el resultado final de todo el conjunto. (Leskovec, Rajaraman & Ullman, 2014)

28. Stream processing

Stream Processing es una tecnología de Big Data. Se utiliza para consultar el flujo continuo de datos y detectar condiciones rápidamente dentro de un período de tiempo pequeño desde el momento en que se reciben los datos. El período de tiempo de detección varía de unos pocos milisegundos a minutos. Por ejemplo, con el procesamiento de la transmisión, puede recibir una alerta cuando la temperatura ha alcanzado el punto de congelación, consultando las transmisiones de datos provenientes de un sensor de temperatura.

También recibe muchos nombres: análisis en tiempo real, análisis de transmisión, procesamiento de eventos complejos, análisis de transmisión en tiempo real y procesamiento de eventos. Aunque algunos términos históricamente tenían diferencias, ahora las herramientas (frameworks) se llaman “Stream Processing” que sería Procesamiento de Flujos en español. (Perera, 2018)

29. Batch processing

Batch Processing o procesamiento por lotes en español, es el proceso mediante el cual una computadora completa lotes de trabajos, a menudo simultáneamente, en orden secuencial y sin interrupciones. También es un comando que garantiza que los trabajos grandes se calculen en partes pequeñas para mejorar la eficiencia durante el proceso de depuración. (Watts, 2017)

30. Structured Data

Se refiere a todos los datos que pueden almacenarse en una base de datos SQL en una tabla con filas y columnas. Tienen una clave relacional y se pueden mapear fácilmente en campos prediseñados. Hoy en día, esos datos son los más procesados en desarrollo y son la forma más sencilla de administrar la información. (Jain, n.d.)

31. Unstructured Data

Unstructured Data o datos no estructurados en español, se refieren a información que no tiene un modelo de datos predefinido o que no está organizada de una manera predefinida. Unstructured Data suele contener muchos textos, pero también puede contener datos como fechas, números y datos. Esto da lugar a irregularidades y ambigüedades que hacen que sea difícil de entender el uso de programas tradicionales en comparación con los datos almacenados en forma de campo en bases de datos o anotados en documentos. (Jain, n.d.)

32. Cloud Computing

Cloud Computing o computación en la nube en español, se define como “un modelo para permitir el acceso conveniente y bajo demanda de la red a un conjunto compartido de recursos informáticos configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) que se pueden aprovisionar y lanzar rápidamente con un mínimo esfuerzo de gestión o interacción del proveedor de servicios ". En términos generales, Cloud Computing representa una nueva forma de implementar tecnología informática para brindar a los usuarios la capacidad de acceder, trabajar, compartir y almacenar información a través de Internet. (Wang, Ranjan, Chen y Benatallah, 2012)

33. Airflow

Airflow es una plataforma para crear, programar y monitorear flujos de trabajo mediante programación.

Se utiliza el Airflow para crear flujos de trabajo como gráficos acíclicos dirigidos DAG (Directed Acyclic Graphs en inglés) de tareas. El programador de Airflow ejecuta las tareas en una matriz de trabajadores mientras sigue las dependencias especificadas. Las utilidades de línea de comandos enriquecidas hacen que la realización de cirugías complejas en DAGs sea instantánea. La rica interfaz de usuario facilita la visualización de las tuberías que se ejecutan en la producción, el monitoreo del progreso y la resolución de problemas cuando es necesario.

Cuando los flujos de trabajo se definen como código, se vuelven más mantenibles, de versiones, de prueba y de colaboración. ("Apache Airflow Documentation," n.d.)

34. Directed acyclic graph

Para poder admitir la capacidad de empujar y extraer conjuntos de cambios entre varias instancias del mismo repositorio, necesitamos una estructura especialmente diseñada para representar múltiples versiones de las cosas. La estructura que utilizamos se denomina Gráfico Acíclico Dirigido o Directed Acyclic Graph (DAG) en inglés, un diseño que es más expresivo que un modelo puramente lineal. La historia de todo en el repositorio se modela como un DAG. (“Directed Acyclic Graphs (DAGs),” n.d.)

35. Dark Data

Dark Data son datos que no se han clasificado o asociado con una herramienta o uso analítico. Son todos los datos desconocidos dentro de la organización. Estos son los datos generados por usuarios individuales o sistemas no conectados o no catalogados que pueden estar fuera de los sistemas de protección y administración de almacenamiento estándar. En este sentido, no solo se trata de datos que no están clasificados o asociados con funciones analíticas, sino que también son datos que la empresa puede ignorar. (Preston de Guise, 2017)


Bibliografía

Akhtar, M. F. (2018). Big Data Architect’s Handbook: A guide to building proficiency in tools and systems used by leading Big Data experts. UK: Packt Publishing.Apache Airflow Documentation. (n.d.). Retrieved March 18, 2019, from https://airflow.apache.org/

Apache Software Foundation. (n.d.). Retrieved March 18, 2019, from https://kafka.apache.org/

Brijs, B. (2013). Business Analysis for Business Intelligence. Taylor & Francis group.

Burstein, F., & Holsapple, C. W. (2008). Handbook on Decision Support Systems 1: Basic Themes. Springer.

Casters, M., Bouman, R., & Dongen, J. van. (2010). Pentaho Kettle Solutions: Building Open Source ETL Solutions with

Pentaho Data Integration. Canada: Wiley Publishing Inc.

Chowdhury, M., Apon, A., & Dey, K. (2017). Data Analytics for Intelligent Transportation Systems (Elsevier).

Directed Acyclic Graphs (DAGs). (n.d.). Retrieved March 18, 2019, from https://ericsink.com/vcbe/html/directed_acyclic_graphs.html

Guise, P. de. (2017). Data Protection: Ensuring Data Availability. United States: Taylor & Francis group.

Heydt, M. (2017). Learning pandas. UK: Packt Publishing.

Jain, V. K. . (n.d.). Big Data and Hadoop. New Delhi: Khanna Book Publishing Co.

Jolly, K. (2018). Machine Learning with scikit-learn Quick Start Guide: Classification, regression, and clustering techniques in Python. UK: Packt Publishing.

Karau, H., Konwinski, A., Wendell, P., & Zaharia, M. (2015). Learning Spark: Lightning-Fast Big Data Analysis (Databricks). United States: O’reilly Media, Inc.

Kotu, V., & Deshpande, B. (2015). Predictive Analytics and Data Mining: Concepts and Practice with RapidMiner (Elsevier). United States.

Kotu, V., & Deshpande, B. (2019). Data Science: Concepts and practice (Elsevier). United States: Morgan Kaufmann.

Leskovec, J., Rajaraman, A., & Ullman, J. D. (2014). Mining of Massive Datasets. Cambridge University Press.

Lutz, M. (2013). Learning Python: Powerful Object-Oriented Programming. Canadá: O’reilly Media, Inc.

Mattison, R. (2006). The Data Warehousing Handbook. United States: XiT Press.

McQuillan, M. (2015). Introducing SQL Server (Springer). Apress.

MELODA. (2019). Retrieved March 18, 2019, from http://www.meloda.org/dataset-definition/

NumPy. (2018). Retrieved March 18, 2019, from http://www.numpy.org/

Odersky, M., Spoon, L., & Venners, B. (2008). Programming in Scala. United States: Artima Inc.

Pasupuleti, P., & Purra, B. S. (2015). Data Lake Development with Big Data. Pack Publishing.

Perera, S. (2018). Stream Processing. Retrieved March 18, 2019, from https://medium.com/stream-processing/what-is-stream-processing-1eadfca11b97

Ren, K. (2016). Learning R Programming. UK: Packt Publishing.

Runkler, T. A. (2016). Data Analytics: Models and Algorithms for Intelligent Data Analysis (Springer).

Tosi, S. (2009). Matplotlib for Python Developers. UK: Packt Publishing.

Wang, L., Ranjan, R., Chen, J., & Benatallah, B. (2012). Cloud Computing: Methodology, Systems, and Applications. United States: Taylor & Francis group.

Waskom, M. (2018). seaborn: statistical data visualization. Retrieved March 18, 2019, from https://seaborn.pydata.org/

Watts, S. (2017). What is Batch Processing? Batch Processing Explained. Retrieved March 18, 2019, from https://www.bmc.com/blogs/what-is-batch-processing-batch-processing-explained/

Comentarios:

No existe comentarios

{$ comment.fullName $}

{$ comment.date | date:'medium' $}

{$ comment.comment $}

Deja tu comentario: