DataScienceSeed#6 – Stock Market Machine Learning & Caffè con Pandas

 

23 Maggio 2019, Digital Tree, Genova, ore 18

link eventbrite

Ecco l’agenda del sesto incontro, a cavallo tra la frontiera della ricerca e la didattica sui nostri dataset.

Merello e Finanza

Mercati Finanziari: affrontare con il Machine Learning un un problema davvero complesso

Simone Merello, specialista in AI for Finance presso Nanyang Technological University of Singapore

Predire l’andamento del mercato finanziario è un problema complesso, al punto che non ne è ancora chiara la fattibilità stessa. Sono state tentate tutte le tecniche di Machine Learning ed ogni sorta di reti naurali, ma i problemi sono tanti ed a tanti livelli. Simone ci racconterà come affrontare un problema così complesso presentandoci le tecniche usate nelle ultime ricerche, in un percorso tra le difficoltà e le opportunità valido per molte classi di problemi.


Caffe pandas

Caffè con Pandas: cosa abbiamo imparato dal Coffe Machines Dataset

A Febbraio i ragazzi di Flairbit ci hanno offerto un problema di manutenzione predittiva su una flotta di macchine del caffè professionali.  Ci abbiamo lavorato e siamo pronti a mostrarne i risultati alla community. Parleremo di Pandas, la libreria Python che non può mancare nella cassetta degli attrezzi del data scientist, per passare da un dataset selvaggio ad un docile datasetche daremo in pasto ad un modello di machine learning di tipo “classico” ma per niente banale, ed ad una rete neurale.

Riusciremo a prevenire i guasti ed a meritarci un buon caffè?


I meetup DataScienceSeed sono in collaborazione con IAML, Italian Association for Machine Learning

Questo incontro è possibile anche grazie al supporto di

Wonder Talent Investor

Gruppo IB

Dataset Challenge Hands-On #1 – Flairbit coffee machines, Rulex churn service

DataScienceSeed Hands-ON #1

Il Dataset Hands-On è dedicato alla presentazione di problemi concreti di aziende o di ricerca, da affrontare con tecniche di data science a scopo didattico. Non c’è niente come un problema vero per imparare!

L’obiettivo è presentare dataset e relative sfide da parte di aziende o istituzioni, a sviluppatori, data scientists, machine learning engineers, esperti o in corso di formazione. Lo scopo degli incontri e delle sfide è didattico, ma non si esclude che ne possa uscire qualcosa di buono, sia per l’azienda che propone il challenge sia per chi lo affronta. Non si può perdere: o si ha successo o si impara…e le due cose non si escludono!

Ecco quello di cui abbiamo parlato nel primo incontro dedicato ai Dataset:

Internet of Professional Coffee Machines

FlairBit, software house che fornisce prodotti software proprietari e servizi di consulenza per aiutare le aziende nel processo di trasformazione digitale e innovazione, ha presentato un dataset contenente dati di funzionamento, manutenzione e guasti relativi a macchine per l’erogazione di bevande. Luca Bixio e Matteo Rulli hanno raccontato il contesto in cui il dataset è stato raccolto, spiegato il contenuto del dataset nei dettagli e lanciato alcune sfide ai partecipanti che vorranno cimentarsi con l’analisi dei dati. Sarà possibile prevedere il funzionamento delle macchine nel prossimo futuro sulla base dei dati a disposizione? Sarà possibile determinare le cause di un fermo macchina o di un guasto? Sarà possibile prevedere un fermo macchina? La sfida è lanciata!

Click per scaricare il pdf che descrive il dataset

Rulex Dataset Challenge
Presentazione dei risultati di Giorgio Garziano

Rulex propne uno speciale tipo di piattaforma AI, che si distingue per creare modelli comprensibili e facilmente implementabili, per consentire agli esperti di business e di processo di creare e distribuire rapidamente applicazioni AI senza bisogno di competenze matematiche o di programmazione.

Andrea Caridi, Business Development Manager di Rulex, aveva presentato nel primo incontro DataScienceSeed un dataset relativo al churn di un servizio di musica online, ovvero all’analisi ed alla predizione dell’abbandono della piattaforma da parte degli utenti, per poter consentire di prendere azioni mirate per prevenirlo.

Click per aprire la pagina che descrive il dataset. Per avere una copia del dataset usate il modulo in fondo al post.

Durante il nostro incontro, Giorgio Garziano,  senior software developer ed autore in datascienceplus.com, ha descritto la sua analisi eseguita in linguaggio R, con un notebook molto sostanzioso:

Click per scaricare il file .zip con il notebook R mostrato da Giorgio.

 

Il dataset fornito da Rulex deriva dal dataset della Kaggle Competition WSDM – KKBox’s Churn Prediction Challenge.

Per  sperimentare l’analisi usando il tool Rulex Analytics, usate il modulo qui sotto,