DataScienceSeed #12, The Art of AI-Possible, the NVIDIA Way

Finalmente, dopo più di un anno passato pandemicamente online, i meetup DataScienceSeed tornano a svolgersi parzialmente in presenza, per il momento (per motivi di capienza dei locali) limitatamente ai soci iscritti all’associazione. Il resto della community comunque potrà continuare a seguirci come al solito attraverso il nostro canale youtube, sperando di riuscire presto a ritrovarci tutti quanti in presenza senza limitazioni.

Il meetup avrà luogo Giovedi 18 Novembre, a partire dalle ore 18:00 presso l’auditorium di Liguria Digitale, in via Enrico Melen,

Registrati per il meetup o per ricevere il link online su eventbrite:

Durante questo nostro prossimo meetup, Carlo Nardone, Senior Solution Architect ad NVIDIA ci presenterà brevemente alcuni trend dei modelli Deep Learning allo stato dell’arte e le conseguenze dal punto di vista dell’infrastruttura necessaria, con esempi concreti proposti da NVIDIA partendo dalle scale estreme fino agli strumenti software disponibili per la più ampia platea possibile di sviluppatori di applicazioni d’Intelligenza Artificiale.

Fisico di formazione, Carlo Nardone si è occupato di calcolo ad alte prestazioni (HPC) sviluppando codici di simulazione numerica su piattaforme massicciamente parallele sin dai tempi della Connection Machine ormai 30 anni fa. Oggi tutti hanno facilmente accesso a una piattaforma dello stesso tipo grazie alle GPU, mentre nel frattempo la vera “killer app” dell’HPC e del Calcolo Parallelo si è rivelata essere l’Intelligenza Artificiale grazie all’esplosione del Deep Learning. Dopo esperienze al CRS4, Quadrics (società Finmeccanica), Sun Microsystems, dieci anni fa ha puntato sull’adozione degli acceleratori NVIDIA come tecnologia innovativa per l’HPC aiutando fra l’altro una grande istituzione finanziaria italiana a portare i propri codici su CUDA. Da sette anni è in NVIDIA come Senior Solution Architect del team EMEA con focus sull’infrastruttura e sulle piattaforme dedicate all’IA: la famiglia NVIDIA DGX, DGX POD, DGX SuperPOD.

 

Bonus content

Cosa c’entra questa maschera di login con il meetup?

Lo scopriremo presto, in un intervento lampo che segurà il talk principale del meetup. Come associazione ci siamo dati anche l’obiettivo supportare l’apprendimento, la sperimentazione ed i progetti dei nel campo della Data Science. Sta arrivando il momento di mettere in pratica questo proposito!

DSS Online #11, Le sfide dell’Edge Computing

Nell’ultima edizione di DataScienceSeed Online prima della pausa estiva,  Mercoledi 21 Luglio alle 18:00 abbiamo parlato di Edge Computing, con Alberto Cabri, PhD.

Se hai partecipato o se hai visto il video (che trovi qui sotto) dacci un feedback!

La disponibilità di piattaforme integrate ad alte prestazioni consente al giorno d’oggi di eseguire algoritmi in edge con indubbi vantaggi sul consumo di banda, la sicurezza e la salvaguardia della privacy. Tuttavia la strada non è in discesa e talvolta la complessità di rendere operativo un sistema edge non è trascurabile e si deve lavorare su sistemi eterogenei con strumenti che se da un lato possono semplificare la realizzazione ed il deployment delle soluzioni (ad. es. docker) dall’altro richiedono l’acquisizione di ulteriori competenze.

Il caso d’uso  mostrato è relativo al riconoscimento real-time di componenti elettronici con deep learning, legato al progetto Ariadne, Data Driven Recovery System, di cui ci ha raccontato i sommi capi Rosario Capponi nella sessione di Q&A.

Alberto Cabri Ha conseguito il Dottorato in Computer Science and Systems Engineering presso l’Università di Genova nel 2020. E’ un socio fondatore di Vega Research Laboratories, uno spin-off dell’Università di Genova la cui mission sono la progettazione e sviluppo di soluzioni basate su tecnologie emergenti, quali AI, edge computing. Ha una Laurea in Ingegneria Elettronica ed è docente di ruolo di Informatica presso un Istituto Tecnico di Genova. E’ stato fondatore ed AD di Flashover Time S.r.l., Manager in Computer Science Corporation, Project Manager in Marconi Communications e ha ricoperto diversi ruoli tecnici in Elsag e Cap Gemini.

Ecco le slide presentate da Alberto (PDF 2M)

Questo il link al video mostrato durante la presentazione.

E qui il link alla serie di tutorial su Jetson Nano a cui si fa riferimento, che fa parte del NVIDIA Developer Program 

Infine ecco la slide sul progetto Ariadne di cui l’esempio descritto fa parte.

2021-04 Ariadne ADS

 

 

DSS Online #10 MLOps, quando si smette di giocare

Lunedi 5 luglio,abbiamo parlato  di MLOps con Simone Merello, Head of Deep AI presso Perceptolab.

Se hai seguito l’evento online o hai visto il video

 lasciaci un feedback!

 

Ogni giorno sempre più modelli vengono sviluppati per creare nuove funzionalità. Sfortunatamente non appena si ha a che fare con più modelli, dataset e data scientists le cose si complicano. Ciascun esperimento ha molte dipendenze e l’effetto  “changing anything changes everything” rende difficile tenere traccia di cosa sta accadendo. Una soluzione ML-driven richiede di tracciare come un modello è stato prodotto, scelto, distribuito e come si comporta in produzione: il modello di ML è solo un pezzo del puzzle. Simone ci mostrerà alcuni dei problemi più comuni che grosse AI companies hanno nel sviluppare soluzioni basate sul ML e come risolverli.

Simone Merello, inizia la sua carriera come ricercatore in ambito ML presso l’università NTU di Singapore. Successivamente esce dall’ambito accademico per diventare prima Research Scientist ed ora Head of Deep AI presso Perceptolab.

Hanno partecipato al dibattito a fine talk

Piero Cornice, Lead Engineer in Lilli

Andrea Panizza Senior AI Specialist at Baker Hughes

 

Qui le slide dell’incontro:  MLOps – quando si smette di giocare

ed il famoso file “Registro Merello dei 300 tools ML” in formato ODS: AI Tools and Platforms

DSS Online #9 – Rumenta Intelligente… ovvero: Economia Circolare e AI

Al prossimo meetup, venerdi 7 maggio a partire dalle ore 18:00, parleremo di un tema “green” ovvero Economia Circolare e Intelligenza Artificiale. Ne discuteremo con Giorgio Spreafico e  Daniele Bonventre di algoWatt S.p.A., green tech solution company che progetta, sviluppa e integra soluzioni per la gestione dell’energia e delle risorse naturali.

Registrati come al solito su eventbrite per ricevere il link all’evento online:

Giorgio e Daniele ci parleranno di soluzioni innovative basate su reti neurali per il supporto alle decisioni nella cosiddetta “biodigestione” di rifiuti solidi urbani.

Un biodigestore è un impianto che funziona trasformando la frazione organica di rifiuti solidi urbani (FORSU) e altre matrici organiche, i quali vengono miscelati con batteri per ottenere biogas (una miscela di diversi tipi di gas composti in prevalenza da metano ed anidride carbonica) tramite un processo di fermentazione in condizioni di assenza di ossigeno e, come residuo, producendo del compost di qualità da utilizzare in agricoltura o compost grigio per la riambientazione di emergenze ambientali

Questi impianti possono essere considerati come fonti di energia rinnovabile, riducendo l’emissione di gas serra. Il recupero energetico dalla produzione di biogas da parte di un biodigestore può arrivare a diversi GWh/anno, producendo milioni di metri cubi di biogas, facendo risparmiare ogni anno milioni tonnellate di CO2 e riducendo il consumo di suolo per lo smaltimento dei rifiuti.

In un primo intervento, Giorgio ci introdurrà l’argomento e le problematiche collegate, seguito da Daniele che invece ci racconterà qualche dettaglio in più dal punto di vista tecnico sulle soluzioni adottate.

Giorgio Spreafico Laurea magistrale in Fisica, ha pluridecennale esperienza di modellistica nei settori ambientali e industriale e di modellazione geostatistica. Attualmente è il responsabile della Divisione Prodotti di algoWatt.

Daniele Bonventre Ha una Laurea magistrale in Fisica presso l’Università degli Studi di Genova. Ha lavorato due anni presso i laboratori Smart Materials dell’Istituto Italiano di Tecnologia ed ora, in qualità di Data Scientist, si occupa dello sviluppo di prodotti basati su Intelligenza Artificiale ed algoritmi di analisi tensoriale.

algoWatt S.p.A. progetta, sviluppa e integra soluzioni per la gestione dell’energia e delle risorse naturali, in modo sostenibile e socialmente responsabile, garantendo un vantaggio competitivo. La Società fornisce sistemi di gestione e controllo che integrano dispositivi, reti, software e servizi con una chiara focalizzazione settoriale: digital energy e utilities, smart cities & enterprises e green mobility.

DSS Online #8 – Apache Spark, un ecosistema poliedrico.

Lascia un feedback su questo evento

Cosa è Apache Spark? Sicuramente una delle più inflazionate buzzword nel mondo del Big Data Analytics ma soprattutto un consolidato standard per il Massive Parallel Processing.

Nel mondo dello streaming tanti sono i competitor ma quando si parla di batch processing, “no way” Spark è un must assoluto. Ci piace definire Spark un ecosistema!

Infatti, grazie alle funzionalità ad esso collegate, come MlLib, Hive, Delta e tante altre rende possibile lo sviluppo di una pipeline end-to-end di dato partendo dall’ingestion, fino alla visualization passando per il Machine Learning. La combinazione di Spark con le sue tecnologie satellite spinge ad un altro livello lo sviluppo di datalake aziendali che permettano una gestione ottimale anche in use case tipici dei classici DWH ma su di una architettura open source molto più economica.

Vediamo insieme come l’ecosistema Spark può essere impiegato per estrarre valore da massive moli di dato sfruttandone al massimo le potenzialità tecniche e commerciali.

Download slide (5M PDF)

 

Andrea Picasso è un Senior Big Data Engineer presso NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. Andrea ha preso parte in progetti di ricerca nel mondo dell’intelligenza artificiale nel periodo in cui si trovava a Singapore. Tornato in Italia circa 2 anni fa si è concentrato nell’applicare la sua conoscenza nel mondo dell’industria del Big Data. Le sue attività principali sono il design e lo sviluppo di architetture Big Data per workflow di ETL ed Analytics. Il suo focus tecnologico verte principalmente su tool per il processing distribuito di dato come Spark e Flink, inoltre è un grande promoter del paradigma di programmazione funzionale e del linguaggio Scala.

DSS Online #7 – Reinforcement Learning: Applicazioni

Il primo meetup Online del 2021 per DataScienceSeed, si è svolto Venerdi 22 Gennaio dalle 18 in poi, tutto dedicata al Reinforcement Learning, uno dei tre paradigmi principali del machine learning (oltre al supervised e all’unsupervised ML) in grado di risolvere problemi decisionali complessi.

Lascia qui un feedback sull’evento

Lo scopo del Reinforcement Learning consiste nel realizzare agenti autonomi capaci di apprendere comportamenti complessi tramite ripetute interazioni di tipo “trial and error” con un ambiente dinamico in cui sono immersi.

Le azioni vengono valutate tentando di massimizzare un valore numerico di “reward” (ricompensa), in modo di premiare quei comportamenti dell’agente che ottimizzano gli obiettivi prefissati, ed allo stesso tempo penalizzare quei comportamenti che allontanano l’agente da questi obiettivi.

Per questo meetup, abbiamo ripreso il filo dall’evento organizzato Martedi 14 Gennaio da Cagliari Machine Learning Meetup e Italian Association for Machine Learning, dove Alessandro oltre ad introdurre l’argomento del Reinforcement Learning ci ha parlato della piattaforma Diambra, un luogo virtuale in cui osservare agenti di Reinforcement Learning crescere e imparare, combattere l’uno contro l’altro o contro gli umani.

I giochi in ambienti simulati sono ideali per ed affilare gli algoritmi di Reinforcement Learning, ma non ci fermiamo a questo: Durante il 7 meetup Online di DataScienceSeed abbiamo approfondito l’argomento parlando delle numerose possibili applicazioni in ambito industriale e commerciale, così come di quelle in campo militare, tra le quali ce ne sono molto di interessanti e promettenti.

Qui trovate il video del meetup:

Mentre quello qui di seguito è il video dell’incontro di Martedi 14 Gennaio:

Alessandro Palmas è un ingegnere aerospaziale con più di 8 anni di esperienza nello sviluppo di software per applicazioni scientifiche avanzate e sistemi software complessi. In qualità di responsabile R&D in una PMI italiana in campo aerospaziale e difesa, coordina progetti in contesti che vanno dalle dinamiche del volo spaziale ai sistemi autonomi basati sull’apprendimento automatico. Il suo obiettivo principale nel ML è il deep reinforcement learning, la visione artificiale e modelli 3D. Ha fondato iniziative innovative, l’ultima delle quali è Artificial Twin, che fornisce tecnologie avanzate per il machine learning, la modellazione fisica e le applicazioni di geometria computazionale. Due aree chiave in cui si concentra l’attuale lavoro di Artificial Twin Deep RL sono l’intrattenimento con videogiochi e i sistemi di guida, navigazione e controllo.

DSS Online #6: Causal Reasoning in ML: Spiegare “perché”

Torniamo in UK ad incontrare Pier Paolo Ippolito, Freelance data scientist con un portafoglio di competenze impressionante e la passione per la divulgazione. Ci parlerà di un tema importante nel Machine Learning: distinguere le cause dalle correlazioni, con un esempio purtroppo sempre alla ribalta, legato alla diffusione delle epidemie.

Partecipano all’incontro Carla Marcenaro e Simone Merello.

Lascia qui un feedback sull’evento

 

Al giorno d’oggi le tecnologie di Machine Learning si basano solo sulle correlazioni tra le diverse “features”. Ció nonostante, questo approccio può eventualmente portare a conclusioni errate poiché correlazioni non implicano necessariamente causalità.

Come esempio di questo studio di ricerca, Pier Paolo ha creato e distribuito una suite di modelli “agent based” e comportamentali al fine di simulare gli sviluppi di malattie epidemiche in diversi tipi di comunità.

Nel meetup quindi, oltre ad imparare qualcosa sul tema del causal reasoning, esploreremo un esempio molto concreto, sviluppato in open source e disponibile come applicazione web.

Pier Paolo Ippolito è un SAS Data Scientist e MSc in Intelligenza Artificiale laureato presso l’Università di Southampton. Ha un forte interesse per i progressi dell’IA e le applicazioni di apprendimento automatico. Al di fuori del suo lavoro, è uno scrittore per Towards Data Science e un Kaggle Contributor.

Scarica le slide del talk (pdf 2M)

Link a cui si fa riferimento nel talk:

Main page: https://pierpaolo28.github.io/

Dashboard: http://3.22.240.181:8501/

Librerie per Causal Reasoning: https://microsoft.github.io/dowhy/, https://github.com/uber/causalml, https://github.com/quantumblacklabs/causalnex

Libreria per lavorare con equazioni differenziali (modelli compartimentali): https://www.scipy.org/

DSS Online #5: AI e Machine Learning per le PMI e la PA – Organizzare il team di AI

Nicolò Annino ci racconta la sua esperienza di ingegnere ed imprenditore nel progettare sistemi di Machine Learning per le piccole e medie imprese e per la PA in Italia, vivendo sulle nuvelo del Cloud e sulla terra di confine dell’Edge.

L’evento è collegato a C1A0 Expo 2020 – La fiera internazionele dell’AI di Genova

Lascia il tuo feedback sull’evento qui!

Può una piccola azienda contribuire ad influenzare ed ispirare le modalità di sviluppo di un intero paese?

Per rispondere affrontiamo con un viaggio tra tecnologia e opportunità, dove per realizzare sistemi complessi servono competenza, rapidità ed intuizione. Tra sistemi di produzione e di fund raising parleremo di come il Machine learning può entrare nelle PMI e nella Pubblica Amministrazione anche senza “santi in paradiso”.

Nella seconda parte della chiacchierata si affronta il problema dell’organizzazione di un progetto di AI dal punto di vista del Team.
Nicolò Annino, dopo la laurea con tesi in bio-robotica ha fondato varie società tra cui la Idealarm Ltd, che oggi è attivamente impegnata nello sviluppo di sistemi di sicurezza avanzati per il contrasto alla criminalità ed al terrorismo. La società ha un focus specifico nella computer-vision e machine learning, vantando numerose invenzioni ed innovazioni che le hanno permesso di veder adottati i suoi sistemi più innovativi in ambito militare,in particolari settori di sicurezza nazionale, oltre a numerose applicazioni specifiche per le forze dell’ordine.Ha fondato la social community Machine Learning Italia,coinvolgendo oltre 3000 tra docenti, ricercatori, professionisti e studenti di Machine Learning ed Intelligenza Artificiale ed è cofondatore del guppo Machine Learning Catania che organizza seminari ed eventi di divulgazione scientifica in Sicilia orientale. E’ consulente tecnico per editori italiani nello sviluppo di sistemi di Intelligenza Artificiale applicata alla profilazione utente, analisi dati e processing del linguaggio naturale e supporta come mentor di varie startup ed aziende.

 

Ecco le slide di Nicolò (pdf 3.5MB)

DSS Online #4: Tech & Ethics for the Open Source AI: The Linux Foundation AI

Venerdi 23 Ottobre 2020 sempre a partire dalle 18:00, DataScienceSeed è tornato questa volta in versione internazionale, completamente in inglese, con degli ospiti di eccezione dagli U.S.!

The First internation DataScienceSeed event, in our 4th online meetup we have had the pleasure to meet the Linux Foundation AI, part of the Linux Foundation. Their mission is to build and support an open AI community, and drive open source innovation in the AI, ML and DL domains by enabling collaboration and the creation of new opportunities for all the members of the community.

Give us your feedback on the event at this link!

We started from an intro to LFAI, then we dig deeper in two of their projects, touching technical and ethical topics. Two sides of the same coin of Artificial Intelligence, now and more and more in the future.

LF AI and Open Source: Accelerating Innovation in the AI Market

Over the past two decades, open source software — and its collaborative development model — has disrupted multiple industries and technology sectors, including the Internet/web, telecom, and consumer electronics. Today, large scale open source projects in new technology sectors like blockchain and artificial intelligence are driving the next wave of disruption in an even broader span of verticals ranging from finance, energy and automotive to entertainment and government.

In this talk, Dr. Haddad provided a quick overview of the efforts of the LF AI Foundation in supporting the development, harmonization, and acceleration of open source AI projects and how to get involved.

Download Ibrahim’s slides (pdf)

The easiest way to get in touch with LFAI is to join the Slack channel


If you want to know more , you may want to have a look to the session held by Ibrahim at the AI for People summer workshop, which is where we met him the first time!

Ibrahim Haddad (Ph.D.) is the Executive Director of the LF AI Foundation. Prior to the Linux Foundation, Haddad served as Vice President of R&D and Head of the Open Source Division at Samsung Electronics. Throughout his career, Haddad has held several technology and portfolio management roles at Ericsson Research, the Open Source Development Lab, Motorola, Palm and Hewlett-Packard. He graduated with Honors from Concordia University (Montréal, Canada) with a Ph.D. in Computer Science, where he was awarded the J. W. McConnell Memorial Graduate Fellowship and the Concordia University 25th Anniversary Fellowship.

End-to-End Deep Learning Deployment with ONNX

A deep learning model is often viewed as fully self-contained, freeing practitioners from the burden of data processing and feature engineering. However, in most real-world applications of AI, these models have similarly complex requirements for data pre-processing, feature extraction and transformation as more traditional ML models.

Any non-trivial use case requires care to ensure no model skew exists between the training-time data pipeline and the inference-time data pipeline. This is not simply theoretical – small differences or errors can be difficult to detect but can have dramatic impact on the performance and efficacy of the deployed solution. Despite this, there are currently few widely accepted, standard solutions for enabling simple deployment of end-to-end deep learning pipelines to production.

Recently, the Open Neural Network Exchange (ONNX) standard has emerged for representing deep learning models in a standardized format. While this is useful for representing the core model inference phase, we need to go further to encompass deployment of the end-to-end pipeline. In this talk Nick introduced ONNX for exporting deep learning computation graphs, as well as the ONNX-ML component of the specification, for exporting both “traditional” ML models as well as common feature extraction, data transformation and post-processing steps. He covered how to use ONNX and the growing ecosystem of exporter libraries for common frameworks (including TensorFlow, PyTorch, Keras, scikit-learn and Apache SparkML) to deploy complete deep learning pipelines. Finally, I will explore best practices for working with and combining these disparate exporter toolkits, as well as highlight the gaps, issues and missing pieces to be taken into account and still to be addressed.

Nick Pentreath (Open Source Developer, Developer Advocate) – Principal Engineer, IBM CODAIT – Nick is a Principal Engineer at IBM. He is an Apache Spark committer and PMC member and author of Machine Learning with Spark. Previously, he co-founded Graphflow, a startup focused on recommendations and customer intelligence. He has worked at Goldman Sachs, Cognitive Match, and led the Data Science team at Mxit, Africa’s largest social network. He is passionate about combining commercial focus with machine learning and cutting-edge technology to build intelligent systems that learn from data to add business value.

Download Nick’s slides (pdf)

AI Fairness 360 – an open source toolkit to mitigate discrimination and bias in machine learning models

Machine learning models are increasingly used to inform high-stakes decisions. Discrimination by machine learning becomes objectionable when it places certain privileged groups at the systematic advantage and certain unprivileged groups at a systematic disadvantage. Bias in training data, due to prejudice in labels and under -or oversampling, yields models with unwanted bias. The AIF360 R package is a R interface to AI Fairness 360 – a comprehensive toolkit that provides metrics to check for unwanted bias in datasets and machine learning models and state-of-the-art algorithms to mitigate such bias. This session explored the metrics and algorithms provided in AI Fairness 360 toolkit, as well as a hands-on lab in R.

AIF360 is a sub-project of Trusted AI

Saishruthi Swaminathan (Developer Advocate, Open Source Developer) is a developer advocate and data scientist in the IBM CODAIT team whose main focus is to democratize data and AI through open source technologies. She has a Masters in Electrical Engineering specializing in Data Science and a Bachelor degree in Electronics and Instrumentation. Her passion is to dive deep into the ocean of data, extract insights and use AI for social good. Previously, she was working as a Software Developer. On a mission to spread the knowledge and experience, she acquired in her learning process. She also leads education for rural children initiative and organizing meetups focussing women empowerment.

Download Saishruthi’s slides

Useful links:

Trusted AI WIki 

Trusted AI Projects

DSS Online #3: Data Science vs Data Engineering: il lato robusto dell’AI

Venerdi 2 Ottobre 2020, Piero Cornice di Signal AI ci ha raccontato da Londra la sua esperienza da Software Engineer incaricato di mettere in produzione in real time i modelli di NLP realizzati dal team di Data Scientists dell’azienda. La sfida è tecnica ma anche umana.

Lasciaci un feedback sull’evento, a questo link!


Piero Cornice è Technical Lead a Signal AI , un’azienda britannica che si occupa di aumentare il potere decisionale dei propri clienti estraendo informazioni da notizie in tempo reale. Ingegnere informatico con un background in sistemi embedded e media streaming, negli ultimi anni ha lavorato su sistemi di raccomandazione e Natural Language Processing.

La Data Platform di Signal AI processa oltre 4 milioni di documenti al giorno, analizzando in tempo reale entità, argomenti, sentimenti, e altri fattori. Allo stesso tempo tale infrastruttura consente di sviluppare e sperimentare agilmente nuovi modelli di machine learning.

Estrarre informazioni automaticamente da un grande volume di testi in tempo reale presenta sfide su più livelli. In Signal AI abbiamo individuato due aspetti fondamentali per affrontarle: le scelte tecnologiche e la collaborazione tra ingegneria e ricerca.

Le scelte tecnologiche richiedono di bilanciare l’adozione di soluzioni off-the-shelf con lo sviluppo di tool specializzati. La collaborazione tra ricercatori e ingegneri gioca un ruolo vitale per l’innovazione e la velocità con cui temi di ricerca possono trovare uno sbocco applicativo. Tuttavia non è facile trovare un punto d’incontro tra i processi della ricerca e quelli della messa in produzione.

Questo intervento descrive le principali soluzioni tecniche e organizzative che hanno permesso al team di raggiungere tali risultati, con l’obiettivo di condividere le lezioni imparate lungo il percorso.

Slide di Piero Cornice (8.7M pdf)