Big Data on AWS fornisce un'introduzione alle soluzioni per i big data basate su cloud come Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis e il resto della piattaforma per i big data di AWS.
In questo corso ti mostriamo come utilizzare Amazon EMR per elaborare i dati con l'ampio ecosistema degli strumenti Hadoop quali Hive e Hue. Inoltre ti insegniamo come creare ambienti dei big data, lavorare con Amazon DynamoDB, Amazon Redshift e Amazon Kinesis e sfruttare le best practice per progettare ambienti dei big data per sicurezza e convenienza in termini di costi.
Al termine del corso sarai in grado di:
- Adattare le soluzioni AWS all'interno di un ecosistema dei big data
- Sfruttare Apache Hadoop nel contesto di Amazon EMRIdentificare i componenti di un cluster Amazon EMR
- Lanciare e configurare un cluster Amazon EMR
- Sfruttare i quadri di programmazione comuni disponibili per Amazon EMR, tra cui Hive, Pig e Streaming
- Sfruttare Hue per migliorare la facilità di utilizzo di Amazon EMR
- Utilizzare l'analisi in-memory con Spark e Spark SQL in Amazon EMR
- Scegliere le opzioni di storage dei dati AWS opportune
- Individuare i vantaggi dell'uso di Amazon Kinesis per un'elaborazione dei big data quasi in tempo reale
- Definire le nozioni di data warehousing e database a colonne
- Sfruttare Amazon Redshift per archiviare e analizzare i dati in modo efficiente
- Comprendere e gestire i costi e la sicurezza per i deployment di Amazon EMR e Amazon Redshift
- Individuare opzioni per integrazione, trasferimento e compressione dei dati
- Utilizzare il software di visualizzazione per illustrare dati e query
- Organizzare flussi di big data utilizzando AWS Data Pipeline
Il corso è erogato da XPeppers in qualità di Training Partner con docenti XPeppers.
Questo corso è destinato a:
- Gli individui responsabili di progettazione e implementazione di soluzioni per i big data, ovvero architetti delle soluzioni e amministratori SysOps
- Data scientist e analisti dei dati interessati all'apprendimento di informazioni sulle soluzioni per i big data in AWS
Prima di partecipare al corso, i partecipanti sono invitati a soddisfare i seguenti requisiti preliminari:
- Familiarità di base con le tecnologie dei big data, tra cui Apache Hadoop, MapReduce, HDFS e query SQL/NoSQL
- Conoscenze operative dei servizi AWS principali e dell'implementazione del cloud pubblico
- Comprensione di base di data warehousing, sistemi di database relazionali e progettazione di database
Giorno 1
- Panoramica dei big data
- Integrazione, trasferimento e compressione
- Soluzioni di storage
- Archiviazione e query dei dati in DynamoDB
- Elaborazione dei big data e Amazon Kinesis
- Introduzione ad Apache Hadoop e Amazon EMR
- Utilizzo di Amazon Elastic MapReduce
Giorno 2
- Quadri di programmazione Hadoop
- Elaborazione di log dei server con Hive in Amazon EMR
- Elaborazione di dati chimici utilizzando lo streaming di Hadoop in Amazon EMR
- Semplificazione della tua esperienza di Amazon EMR con Hue
- Esecuzione di script Pig in Hue in Amazon EMR
- Spark in Amazon EMR
- Creazione e query interattiva di tabelle con Spark e Spark SQL in Amazon EMR
- Gestione dei costi di Amazon EMR
- Sicurezza dei tuoi deployment Amazon EMR
Giorno 3
- Data warehouse e data store a colonne
- Amazon Redshift e big data
- Ottimizzazione del tuo ambiente Amazon Redshift
- Modelli di progettazione dei big data
- Visualizzazione e organizzazione dei big data
- Utilizzo di Tibco Spotfire per la visualizzazione dei big data