Introducción a Apache Spark -

Introducción a Apache Spark

AnonymousUser

Index

Introducción a Apache Spark

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Prólogo

Agradecimientos

Prefacio

Convenciones de formato

Comandos del terminal o shell del sistema operativo

Comandos de consola Python

Listados de código fuente

Variables, funciones, clases, métodos y atributos

Capítulo I. ¿Qué es Apache Spark?

1. El big data ya está aquí

2. Extendiendo el software stack del big data

3. Mejorando la eficiencia del big data

4. Una pila de software big data unificada y evolucionada

5. Spark y Python

6. Spark y sus alternativas

Capítulo II. Descargar y empezar con Apache Spark

1. Descargar Apache Spark

2. Introducción al shell de Python

3. Conceptos esenciales de Spark

4. Aplicaciones autocontenidas

4.1. Ejecutando la aplicación mediante spark-submit

5. Configurando Spark

5.1. Spark properties: configuración a nivel de aplicación

5.2. Otras variables de configuración

Capítulo III. Conceptos básicos de Spark

1. Conjuntos de datos resilientes y distribuidos

1.1. Creación de RDD

1.2. Acciones sobre RDD

1.3. Transformaciones de RDD

1.4. Persistencia de RDD

2. Variables compartidas

2.1. Variables difundidas

2.2. Acumuladores

3. Caso práctico: palabras más frecuentes

Capítulo IV. Acceso a datos

1. Formatos de archivos

1.1. Ficheros de texto

1.1.1. Cargando ficheros

1.1.2. Guardando ficheros

1.2. Ficheros JSON

1.2.1. Cargando datos

1.2.2. Guardando datos

1.3. Ficheros CSV

1.3.1. Cargando datos

1.3.2. Cargando datos

1.4. Ficheros SequenceFiles

1.4.1. Cargando datos con SequenceFiles

1.4.2. Guardando datos con SequenceFile

2. Bases de datos

2.1. JDBC

2.2. Hive

Capítulo V. SQL en Spark

1. Data frames

1.1. Creación de data frames

1.2. Operaciones básicas

2. Consultas SQL

2.1. Funciones definidas por el usuario

Capítulo VI. Procesando flujos de datos con Spark

1. Un ejemplo sencillo

2. Receptores

3. Transformaciones

3.1. Transformaciones básicas sobre DStreams

3.2. Transformaciones de tipo join

3.3. Operación UpdateStateByKey

3.4. Operación transform

3.5. Transformaciones en ventana (windowed)

4. Operaciones de salida con DStreams

5. DataFrames y operaciones SQL con Spark Streaming

Capítulo VII. Aprendizaje automático con Spark

1. El módulo MLlib

2. Uso de MLlib

2.1. Pasos a seguir

2.2. Ejemplo de agrupamiento

2.3. Crear los RDD

2.4. Convertir texto a valores numéricos

2.5. Entrenar el algoritmo

2.6. Evaluar el modelo

3. Funcionalidades de MLlib

3.1. Tipos de datos

3.2. Estadística

3.3. Clasificación y regresión

3.4. Extracción de características y transformación

3.5. Otros algoritmos y funcionalidades

4. Caso práctico: agrupamiento de imágenes etiquetadas

5. Para saber más

Apéndices

Apéndice A. Análisis de grafos con Spark

A.1 Representando grafos

Resilient Distributed Property Graph

VertexRDD

EdgeRDD

A.2 Operaciones con grafos

A.3 Algoritmos de GraphX

Apéndice B. Breve introducción a Python

B.1 Sangrado en Python

B.2 Variables, operadores y tipos de datos

B.3 Sentencias de control de flujo

B.4 Funciones

B.4.1 Funciones lambda

B.5 Clases

B.5.1 Iteradores

B.6 Imports

B.7 Para saber más

In this book: Content of the Book
My notes
My highlights

Settings

Font:

Text size:

Aa Aa
Reset text size

Background color:

Aa Aa Aa Aa

Interface language:

Bookmarks

Highlights

Notes

Facebook
Twitter
LinkedIn
Dictionary
Wikipedia

1

Introducción a Apache Spark ·