DSS Online #15 – Explainable AI: come interpretare le predizioni di sistemi basati su AI (e non solo)

DataScienceSeed torna per parlare di Explainable AI. Il nuovo meetup online si terrà il   25 Maggio a partire dalle 18:00.

I sistemi più recenti di intelligenza artificiale, come ad esempio quelli basati su deep learning, benché solitamente molto accurati, spesso non consentono una facile compresione delle dinamiche che li portano a generare le proprie “predizioni”.

L’Explainable AI è un campo di ricerca che studia come meglio comprendere ed interpretare sistemi opachi, quali ad esempio le reti neurali, attraverso l’uso di “spiegazioni”. Tali spiegazioni consentono di identificare i meccanismi di funzionamento interni di questi sistemi e conseguentemente di capire se potervi fare affidamento per prendere decisioni.  Ad esempio una spiegazione per una predizione corretta generata da una rete neurale consente di capire se tale predizione è corretta per i motivi giusti. Oppure una spiegazione può aiutare a capire per quali ragioni un sistema basato su AI produce una predizione sbagliata e, conseguentemente, può aiutare a capire come migliorare il sistema (o i dati utilizzati per addestrarlo).

In questo intervento vedremo una panoramica sul campo dell’explainable AI, illustrando alcune delle tecniche più conosciute per la generazione di spiegazioni; a seguire verranno presentate delle tecniche di Explainable AI specifiche per sistemi che utilizzano AI per task di data management. Infine vedremo come alcune spiegazioni possono operativamente essere utilizzate per migliorare i sistemi stessi.

Tommaso Teofili è Principal Software Engineer a Red Hat e dottorando all’Università Roma Tre. Svolge attività di ricerca e sviluppo nel campo dell’Explainable AI, nonché appassionato di tematiche di NLP e Information Retrieval. Contribuisce attivamente a diversi progetti open source come membro dell’Apache Software Foundation.

DSS Online #13 – Sicurezza dei Sistemi Complessi: Si può tendere al rischio zero?

L’analisi del rischio è un insieme di metodi logici che servono ad analizzare la sicurezza di un sistema complesso. Questa prevede la stima delle probabilità di accadimento di eventi indesiderati con conseguenze avverse, e la valutazione degli effetti sul sistema. Storicamente l’analisi prende avvio dalle frequenze di guasto dei componenti del sistema, concatenate con metodi logici statici. Il rischio viene quindi espresso in termini di frequenza attesa, ed è una fotografia statica del sistema nelle peggiori condizioni possibili.

Questa stima è sempre estremamente cautelativa, e spesso inadeguata a fornire reali informazioni sulla natura del rischio e sulle strategie di prevenzione, e non tiene n considerazione le fluttuazioni nell’operatività. L’applicazione dei nuovi paradigmi di rischio basati sull’ingegneria della resilienza permettono (o meglio, promettono!) di rappresentare la sicurezza di un sistema complesso in modo dinamico, e di intercettare le deviazioni di processo prima che si avviino i percorsi verso gli incidenti.

Il Machine Learning per l’analisi del rischio

L’applicazione di opportuni algoritmi di apprendimento automatico può facilitare questo processo, e nell’intervento verranno discusse alcune idee in merito all’applicazione dell’inferenza Bayesiana all’analisi del rischio, e come queste possono rappresentare un importante passo verso l’ambizioso target di rischio zero.

Tomaso Vairo, Ingegnere chimico e PhD, svolge attività di ricerca e docenza presso l’Università degli Studi di Genova, nei campi dell’analisi del rischio e della modellistica ambientale. E’ inoltre analista di rischio presso l’Agenzia Regionale per la Protezione dell’Ambiente Ligure (ARPAL) e divulgatore scientifico.

Ecco le slide presentate da Tomaso (PDF 2M) DSS2302

Bibliografia sull’argomento

gentilmente selezionata da Tomaso:

Resilience Dynamic Assessment Based on Precursor Events: Application to Ship LNG Bunkering Operations Sustainability 2021, 13(12), 6836

Predictive model and Soft Sensors Application to Dynamic Process Operative Control CHEMICAL ENGINEERING TRANSACTIONS VOL. 86, 2021

Resilience Assessment of Bunkering Operations for A LNG Fuelled Ship Proceedings of the 30th European Safety and Reliability Conference and 15th Probabilistic Safety Assessment and Management Conference (ESREL 2020)

Accessibility for maintenance in the engine room: development and application of a prediction tool for operational costs estimation Ship Technology Research – Taylor and Francis Online 2022

A Data Driven Model for Ozone Concentration Prediction in a Coastal Urban Area CHEMICAL ENGINEERING TRANSACTIONS VOL. 82, 2020

A Dynamic Approach to Fault Tree Analysis based on Bayesian Beliefs Networks CHEMICAL ENGINEERING TRANSACTIONS VOL. 77, 2019

 

DataScienceSeed#13: Cracks and Potholes

Ultimo appuntamento dell’anno con i meetup di datascienceseed. Con la nuova formula ibrida con l’incontro in presenza aperto agli iscritti all’associazione, insieme al nostro usuale streaming sul canale youtube, ci vediamo poco prima di natale Giovedi 16 Dicembre, a partire dalle ore 18:00  per parlare di buchi e crepe.

Registrazione su eventbrite seguendo il link qui sotto: La prenotazione su eventbrite riguarda per il momento l’accesso web. Dobbiamo ancora avere le conferme finali per consentire ai soci dell’associazione DataScienceSeed di partecipare in presenza.

 

Andrea Ranieri, ricercatore del CNR-IMATI di Genova, ci descriverà una applicazione del deep-learning ad un problema ben noto a chiunque abbia percorso una strada asfaltata: la manutenzione del manto stradale.

L’infrastruttura stradale è uno dei pilastri delle moderne società: essa rende possibile il trasporto efficiente di persone e merci laddove altre modalità di trasporto non potrebbero competere in termini di costo.

Tuttavia l’asfalto stradale tende a deteriorarsi col tempo, con l’utilizzo e a causa dei fenomeni atmosferici ed ambientali. E’ proprio la capillarità dell’infrastruttura stradale, il suo maggior pregio, che la rende anche molto difficile e costosa da monitorare e manutenere – solo negli US, sia i danni agli automobilisti che per la manutenzione delle strade sono stimati in “billions USD/year”.

Ad oggi, in Italia come anche nella maggioranza dei Paesi nel mondo, il rilevamento dei danni al manto stradale avviene manualmente, con operatori specializzati in campo e costose attrezzature. Questo limita molto l’efficacia del monitoraggio da parte degli enti preposti alla manutenzione.

Il CNR di Genova ha recentemente iniziato ad applicare la Computer Vision, le Reti Neurali e l’Intelligenza Artificiale al problema della pothole e crack detection sul manto stradale. L’approccio scelto è quello di eseguire la segmentazione semantica di immagini stradali per individuare in modo molto preciso sia buche che fessurazioni.

Andrea ci racconterà come è possibile fare tutto questo, e quali sono gli scenari futuri resi possibili dall’utilizzo di self-supervised learning e telecamere RGB-D.

Andrea Ranieri è ricercatore presso il Consiglio Nazionale delle Ricerche, Istituto di Matematica Applicata e Tecnologie Informatiche (IMATI), dove si occupa di Deep Learning e AI principalmente in ambito Computer Vision. Andrea ha una laurea in Ingegneria Informatica, un Dottorato di Ricerca in Scienze ed Ingegneria dello Spazio e un background tecnologico estremamente vario che va da networking e sistemi distribuiti a robotica e perception. Usa Linux quotidianamente da più di 15 anni e Python e Fast.ai da neanche 3. I suoi interessi di ricerca vanno dalla segmentazione di immagini al self-supervised learning, passando per tecniche “context-aware” per la data augmentation.

 

 

DataScienceSeed #12, The Art of AI-Possible, the NVIDIA Way

Finalmente, dopo più di un anno passato pandemicamente online, i meetup DataScienceSeed tornano a svolgersi parzialmente in presenza, per il momento (per motivi di capienza dei locali) limitatamente ai soci iscritti all’associazione.

Carlo Nardone, Senior Solution Architect ad NVIDIA ci ha presentato alcuni trend dei modelli Deep Learning allo stato dell’arte e le conseguenze dal punto di vista dell’infrastruttura necessaria, con esempi concreti proposti da NVIDIA partendo dalle scale estreme fino agli strumenti software disponibili per la più ampia platea possibile di sviluppatori di applicazioni d’Intelligenza Artificiale.

Fisico di formazione, Carlo Nardone si è occupato di calcolo ad alte prestazioni (HPC) sviluppando codici di simulazione numerica su piattaforme massicciamente parallele sin dai tempi della Connection Machine ormai 30 anni fa. Oggi tutti hanno facilmente accesso a una piattaforma dello stesso tipo grazie alle GPU, mentre nel frattempo la vera “killer app” dell’HPC e del Calcolo Parallelo si è rivelata essere l’Intelligenza Artificiale grazie all’esplosione del Deep Learning. Dopo esperienze al CRS4, Quadrics (società Finmeccanica), Sun Microsystems, dieci anni fa ha puntato sull’adozione degli acceleratori NVIDIA come tecnologia innovativa per l’HPC aiutando fra l’altro una grande istituzione finanziaria italiana a portare i propri codici su CUDA. Da sette anni è in NVIDIA come Senior Solution Architect del team EMEA con focus sull’infrastruttura e sulle piattaforme dedicate all’IA: la famiglia NVIDIA DGX, DGX POD, DGX SuperPOD.

Ecco le slide presentate da Carlo Nardone  (pdf, 4M)

Demo Center NT Nuove Tecnologie per DataScienceSeed

Durante il meetup è stato presentato il demo center offerto per DataScienceSeed da NT Nuove Tecnologie, equipaggiato col supporto di NVIDIA ed ospitato nel data center di Liguria Digitale.

Presentazione Demo Center NT

 

DSS Online #11, Le sfide dell’Edge Computing

Nell’ultima edizione di DataScienceSeed Online prima della pausa estiva,  Mercoledi 21 Luglio alle 18:00 abbiamo parlato di Edge Computing, con Alberto Cabri, PhD.

Se hai partecipato o se hai visto il video (che trovi qui sotto) dacci un feedback!

La disponibilità di piattaforme integrate ad alte prestazioni consente al giorno d’oggi di eseguire algoritmi in edge con indubbi vantaggi sul consumo di banda, la sicurezza e la salvaguardia della privacy. Tuttavia la strada non è in discesa e talvolta la complessità di rendere operativo un sistema edge non è trascurabile e si deve lavorare su sistemi eterogenei con strumenti che se da un lato possono semplificare la realizzazione ed il deployment delle soluzioni (ad. es. docker) dall’altro richiedono l’acquisizione di ulteriori competenze.

Il caso d’uso  mostrato è relativo al riconoscimento real-time di componenti elettronici con deep learning, legato al progetto Ariadne, Data Driven Recovery System, di cui ci ha raccontato i sommi capi Rosario Capponi nella sessione di Q&A.

Alberto Cabri Ha conseguito il Dottorato in Computer Science and Systems Engineering presso l’Università di Genova nel 2020. E’ un socio fondatore di Vega Research Laboratories, uno spin-off dell’Università di Genova la cui mission sono la progettazione e sviluppo di soluzioni basate su tecnologie emergenti, quali AI, edge computing. Ha una Laurea in Ingegneria Elettronica ed è docente di ruolo di Informatica presso un Istituto Tecnico di Genova. E’ stato fondatore ed AD di Flashover Time S.r.l., Manager in Computer Science Corporation, Project Manager in Marconi Communications e ha ricoperto diversi ruoli tecnici in Elsag e Cap Gemini.

Ecco le slide presentate da Alberto (PDF 2M)

Questo il link al video mostrato durante la presentazione.

E qui il link alla serie di tutorial su Jetson Nano a cui si fa riferimento, che fa parte del NVIDIA Developer Program 

Infine ecco la slide sul progetto Ariadne di cui l’esempio descritto fa parte.

2021-04 Ariadne ADS

 

 

DSS Online #10 MLOps, quando si smette di giocare

Lunedi 5 luglio,abbiamo parlato  di MLOps con Simone Merello, Head of Deep AI presso Perceptolab.

Se hai seguito l’evento online o hai visto il video

 lasciaci un feedback!

 

Ogni giorno sempre più modelli vengono sviluppati per creare nuove funzionalità. Sfortunatamente non appena si ha a che fare con più modelli, dataset e data scientists le cose si complicano. Ciascun esperimento ha molte dipendenze e l’effetto  “changing anything changes everything” rende difficile tenere traccia di cosa sta accadendo. Una soluzione ML-driven richiede di tracciare come un modello è stato prodotto, scelto, distribuito e come si comporta in produzione: il modello di ML è solo un pezzo del puzzle. Simone ci mostrerà alcuni dei problemi più comuni che grosse AI companies hanno nel sviluppare soluzioni basate sul ML e come risolverli.

Simone Merello, inizia la sua carriera come ricercatore in ambito ML presso l’università NTU di Singapore. Successivamente esce dall’ambito accademico per diventare prima Research Scientist ed ora Head of Deep AI presso Perceptolab.

Hanno partecipato al dibattito a fine talk

Piero Cornice, Lead Engineer in Lilli

Andrea Panizza Senior AI Specialist at Baker Hughes

 

Qui le slide dell’incontro:  MLOps – quando si smette di giocare

ed il famoso file “Registro Merello dei 300 tools ML” in formato ODS: AI Tools and Platforms

DSS Online #9 – Rumenta Intelligente… ovvero: Economia Circolare e AI

Al prossimo meetup, venerdi 7 maggio a partire dalle ore 18:00, parleremo di un tema “green” ovvero Economia Circolare e Intelligenza Artificiale. Ne discuteremo con Giorgio Spreafico e  Daniele Bonventre di algoWatt S.p.A., green tech solution company che progetta, sviluppa e integra soluzioni per la gestione dell’energia e delle risorse naturali.

Registrati come al solito su eventbrite per ricevere il link all’evento online:

Giorgio e Daniele ci parleranno di soluzioni innovative basate su reti neurali per il supporto alle decisioni nella cosiddetta “biodigestione” di rifiuti solidi urbani.

Un biodigestore è un impianto che funziona trasformando la frazione organica di rifiuti solidi urbani (FORSU) e altre matrici organiche, i quali vengono miscelati con batteri per ottenere biogas (una miscela di diversi tipi di gas composti in prevalenza da metano ed anidride carbonica) tramite un processo di fermentazione in condizioni di assenza di ossigeno e, come residuo, producendo del compost di qualità da utilizzare in agricoltura o compost grigio per la riambientazione di emergenze ambientali

Questi impianti possono essere considerati come fonti di energia rinnovabile, riducendo l’emissione di gas serra. Il recupero energetico dalla produzione di biogas da parte di un biodigestore può arrivare a diversi GWh/anno, producendo milioni di metri cubi di biogas, facendo risparmiare ogni anno milioni tonnellate di CO2 e riducendo il consumo di suolo per lo smaltimento dei rifiuti.

In un primo intervento, Giorgio ci introdurrà l’argomento e le problematiche collegate, seguito da Daniele che invece ci racconterà qualche dettaglio in più dal punto di vista tecnico sulle soluzioni adottate.

Giorgio Spreafico Laurea magistrale in Fisica, ha pluridecennale esperienza di modellistica nei settori ambientali e industriale e di modellazione geostatistica. Attualmente è il responsabile della Divisione Prodotti di algoWatt.

Daniele Bonventre Ha una Laurea magistrale in Fisica presso l’Università degli Studi di Genova. Ha lavorato due anni presso i laboratori Smart Materials dell’Istituto Italiano di Tecnologia ed ora, in qualità di Data Scientist, si occupa dello sviluppo di prodotti basati su Intelligenza Artificiale ed algoritmi di analisi tensoriale.

algoWatt S.p.A. progetta, sviluppa e integra soluzioni per la gestione dell’energia e delle risorse naturali, in modo sostenibile e socialmente responsabile, garantendo un vantaggio competitivo. La Società fornisce sistemi di gestione e controllo che integrano dispositivi, reti, software e servizi con una chiara focalizzazione settoriale: digital energy e utilities, smart cities & enterprises e green mobility.

DSS Online #8 – Apache Spark, un ecosistema poliedrico.

Lascia un feedback su questo evento

Cosa è Apache Spark? Sicuramente una delle più inflazionate buzzword nel mondo del Big Data Analytics ma soprattutto un consolidato standard per il Massive Parallel Processing.

Nel mondo dello streaming tanti sono i competitor ma quando si parla di batch processing, “no way” Spark è un must assoluto. Ci piace definire Spark un ecosistema!

Infatti, grazie alle funzionalità ad esso collegate, come MlLib, Hive, Delta e tante altre rende possibile lo sviluppo di una pipeline end-to-end di dato partendo dall’ingestion, fino alla visualization passando per il Machine Learning. La combinazione di Spark con le sue tecnologie satellite spinge ad un altro livello lo sviluppo di datalake aziendali che permettano una gestione ottimale anche in use case tipici dei classici DWH ma su di una architettura open source molto più economica.

Vediamo insieme come l’ecosistema Spark può essere impiegato per estrarre valore da massive moli di dato sfruttandone al massimo le potenzialità tecniche e commerciali.

Download slide (5M PDF)

 

Andrea Picasso è un Senior Big Data Engineer presso NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. Andrea ha preso parte in progetti di ricerca nel mondo dell’intelligenza artificiale nel periodo in cui si trovava a Singapore. Tornato in Italia circa 2 anni fa si è concentrato nell’applicare la sua conoscenza nel mondo dell’industria del Big Data. Le sue attività principali sono il design e lo sviluppo di architetture Big Data per workflow di ETL ed Analytics. Il suo focus tecnologico verte principalmente su tool per il processing distribuito di dato come Spark e Flink, inoltre è un grande promoter del paradigma di programmazione funzionale e del linguaggio Scala.

DSS Online #7 – Reinforcement Learning: Applicazioni

Il primo meetup Online del 2021 per DataScienceSeed, si è svolto Venerdi 22 Gennaio dalle 18 in poi, tutto dedicata al Reinforcement Learning, uno dei tre paradigmi principali del machine learning (oltre al supervised e all’unsupervised ML) in grado di risolvere problemi decisionali complessi.

Lascia qui un feedback sull’evento

Lo scopo del Reinforcement Learning consiste nel realizzare agenti autonomi capaci di apprendere comportamenti complessi tramite ripetute interazioni di tipo “trial and error” con un ambiente dinamico in cui sono immersi.

Le azioni vengono valutate tentando di massimizzare un valore numerico di “reward” (ricompensa), in modo di premiare quei comportamenti dell’agente che ottimizzano gli obiettivi prefissati, ed allo stesso tempo penalizzare quei comportamenti che allontanano l’agente da questi obiettivi.

Per questo meetup, abbiamo ripreso il filo dall’evento organizzato Martedi 14 Gennaio da Cagliari Machine Learning Meetup e Italian Association for Machine Learning, dove Alessandro oltre ad introdurre l’argomento del Reinforcement Learning ci ha parlato della piattaforma Diambra, un luogo virtuale in cui osservare agenti di Reinforcement Learning crescere e imparare, combattere l’uno contro l’altro o contro gli umani.

I giochi in ambienti simulati sono ideali per ed affilare gli algoritmi di Reinforcement Learning, ma non ci fermiamo a questo: Durante il 7 meetup Online di DataScienceSeed abbiamo approfondito l’argomento parlando delle numerose possibili applicazioni in ambito industriale e commerciale, così come di quelle in campo militare, tra le quali ce ne sono molto di interessanti e promettenti.

Qui trovate il video del meetup:

Mentre quello qui di seguito è il video dell’incontro di Martedi 14 Gennaio:

Alessandro Palmas è un ingegnere aerospaziale con più di 8 anni di esperienza nello sviluppo di software per applicazioni scientifiche avanzate e sistemi software complessi. In qualità di responsabile R&D in una PMI italiana in campo aerospaziale e difesa, coordina progetti in contesti che vanno dalle dinamiche del volo spaziale ai sistemi autonomi basati sull’apprendimento automatico. Il suo obiettivo principale nel ML è il deep reinforcement learning, la visione artificiale e modelli 3D. Ha fondato iniziative innovative, l’ultima delle quali è Artificial Twin, che fornisce tecnologie avanzate per il machine learning, la modellazione fisica e le applicazioni di geometria computazionale. Due aree chiave in cui si concentra l’attuale lavoro di Artificial Twin Deep RL sono l’intrattenimento con videogiochi e i sistemi di guida, navigazione e controllo.

DSS Online #6: Causal Reasoning in ML: Spiegare “perché”

Torniamo in UK ad incontrare Pier Paolo Ippolito, Freelance data scientist con un portafoglio di competenze impressionante e la passione per la divulgazione. Ci parlerà di un tema importante nel Machine Learning: distinguere le cause dalle correlazioni, con un esempio purtroppo sempre alla ribalta, legato alla diffusione delle epidemie.

Partecipano all’incontro Carla Marcenaro e Simone Merello.

Lascia qui un feedback sull’evento

 

Al giorno d’oggi le tecnologie di Machine Learning si basano solo sulle correlazioni tra le diverse “features”. Ció nonostante, questo approccio può eventualmente portare a conclusioni errate poiché correlazioni non implicano necessariamente causalità.

Come esempio di questo studio di ricerca, Pier Paolo ha creato e distribuito una suite di modelli “agent based” e comportamentali al fine di simulare gli sviluppi di malattie epidemiche in diversi tipi di comunità.

Nel meetup quindi, oltre ad imparare qualcosa sul tema del causal reasoning, esploreremo un esempio molto concreto, sviluppato in open source e disponibile come applicazione web.

Pier Paolo Ippolito è un SAS Data Scientist e MSc in Intelligenza Artificiale laureato presso l’Università di Southampton. Ha un forte interesse per i progressi dell’IA e le applicazioni di apprendimento automatico. Al di fuori del suo lavoro, è uno scrittore per Towards Data Science e un Kaggle Contributor.

Scarica le slide del talk (pdf 2M)

Link a cui si fa riferimento nel talk:

Main page: https://pierpaolo28.github.io/

Dashboard: http://3.22.240.181:8501/

Librerie per Causal Reasoning: https://microsoft.github.io/dowhy/, https://github.com/uber/causalml, https://github.com/quantumblacklabs/causalnex

Libreria per lavorare con equazioni differenziali (modelli compartimentali): https://www.scipy.org/