Buy
Bookshop
Introducción a Apache Spark
AnonymousUser
Index
Introducción a Apache Spark
(1)
(2)
(3)
(4)
(5)
(6)
(7)
Prólogo
Agradecimientos
Prefacio
Convenciones de formato
Comandos del terminal o shell del sistema operativo
Comandos de consola Python
Listados de código fuente
Variables, funciones, clases, métodos y atributos
Capítulo I. ¿Qué es Apache Spark?
1. El big data ya está aquí
2. Extendiendo el software stack del big data
3. Mejorando la eficiencia del big data
4. Una pila de software big data unificada y evolucionada
5. Spark y Python
6. Spark y sus alternativas
Capítulo II. Descargar y empezar con Apache Spark
1. Descargar Apache Spark
2. Introducción al shell de Python
3. Conceptos esenciales de Spark
4. Aplicaciones autocontenidas
4.1. Ejecutando la aplicación mediante spark-submit
5. Configurando Spark
5.1. Spark properties: configuración a nivel de aplicación
5.2. Otras variables de configuración
Capítulo III. Conceptos básicos de Spark
1. Conjuntos de datos resilientes y distribuidos
1.1. Creación de RDD
1.2. Acciones sobre RDD
1.3. Transformaciones de RDD
1.4. Persistencia de RDD
2. Variables compartidas
2.1. Variables difundidas
2.2. Acumuladores
3. Caso práctico: palabras más frecuentes
Capítulo IV. Acceso a datos
1. Formatos de archivos
1.1. Ficheros de texto
1.1.1. Cargando ficheros
1.1.2. Guardando ficheros
1.2. Ficheros JSON
1.2.1. Cargando datos
1.2.2. Guardando datos
1.3. Ficheros CSV
1.3.1. Cargando datos
1.3.2. Cargando datos
1.4. Ficheros SequenceFiles
1.4.1. Cargando datos con SequenceFiles
1.4.2. Guardando datos con SequenceFile
2. Bases de datos
2.1. JDBC
2.2. Hive
Capítulo V. SQL en Spark
1. Data frames
1.1. Creación de data frames
1.2. Operaciones básicas
2. Consultas SQL
2.1. Funciones definidas por el usuario
Capítulo VI. Procesando flujos de datos con Spark
1. Un ejemplo sencillo
2. Receptores
3. Transformaciones
3.1. Transformaciones básicas sobre DStreams
3.2. Transformaciones de tipo join
3.3. Operación UpdateStateByKey
3.4. Operación transform
3.5. Transformaciones en ventana (windowed)
4. Operaciones de salida con DStreams
5. DataFrames y operaciones SQL con Spark Streaming
Capítulo VII. Aprendizaje automático con Spark
1. El módulo MLlib
2. Uso de MLlib
2.1. Pasos a seguir
2.2. Ejemplo de agrupamiento
2.3. Crear los RDD
2.4. Convertir texto a valores numéricos
2.5. Entrenar el algoritmo
2.6. Evaluar el modelo
3. Funcionalidades de MLlib
3.1. Tipos de datos
3.2. Estadística
3.3. Clasificación y regresión
3.4. Extracción de características y transformación
3.5. Otros algoritmos y funcionalidades
4. Caso práctico: agrupamiento de imágenes etiquetadas
5. Para saber más
Apéndices
Apéndice A. Análisis de grafos con Spark
A.1 Representando grafos
Resilient Distributed Property Graph
VertexRDD
EdgeRDD
A.2 Operaciones con grafos
A.3 Algoritmos de GraphX
Apéndice B. Breve introducción a Python
B.1 Sangrado en Python
B.2 Variables, operadores y tipos de datos
B.3 Sentencias de control de flujo
B.4 Funciones
B.4.1 Funciones lambda
B.5 Clases
B.5.1 Iteradores
B.6 Imports
B.7 Para saber más
In this book:
Content of the Book
My notes
My highlights
Settings
Font:
- Original Font -
Arial
Courier
Georgia
Palatino
Sans Forgetica
Tahoma
Times New Roman
Verdana
Text size:
Aa
Aa
Reset text size
Background color:
Aa
Aa
Aa
Aa
Interface language:
English (US)
English (UK)
Español
Català
Bookmarks
Highlights
Notes
Facebook
Twitter
LinkedIn
Dictionary
Wikipedia
1
Introducción a Apache Spark
·