DSS Online #8 – Apache Spark, un ecosistema poliedrico.

Lascia un feedback su questo evento

Cosa è Apache Spark? Sicuramente una delle più inflazionate buzzword nel mondo del Big Data Analytics ma soprattutto un consolidato standard per il Massive Parallel Processing.

Nel mondo dello streaming tanti sono i competitor ma quando si parla di batch processing, “no way” Spark è un must assoluto. Ci piace definire Spark un ecosistema!

Infatti, grazie alle funzionalità ad esso collegate, come MlLib, Hive, Delta e tante altre rende possibile lo sviluppo di una pipeline end-to-end di dato partendo dall’ingestion, fino alla visualization passando per il Machine Learning. La combinazione di Spark con le sue tecnologie satellite spinge ad un altro livello lo sviluppo di datalake aziendali che permettano una gestione ottimale anche in use case tipici dei classici DWH ma su di una architettura open source molto più economica.

Vediamo insieme come l’ecosistema Spark può essere impiegato per estrarre valore da massive moli di dato sfruttandone al massimo le potenzialità tecniche e commerciali.

Download slide (5M PDF)

 

Andrea Picasso è un Senior Big Data Engineer presso NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. Andrea ha preso parte in progetti di ricerca nel mondo dell’intelligenza artificiale nel periodo in cui si trovava a Singapore. Tornato in Italia circa 2 anni fa si è concentrato nell’applicare la sua conoscenza nel mondo dell’industria del Big Data. Le sue attività principali sono il design e lo sviluppo di architetture Big Data per workflow di ETL ed Analytics. Il suo focus tecnologico verte principalmente su tool per il processing distribuito di dato come Spark e Flink, inoltre è un grande promoter del paradigma di programmazione funzionale e del linguaggio Scala.