Filomena Elia: ricerca di anomalie nei dati

logo replya 2xNome: Filomena Elia

Laureata il: 29/04/2016

Tesi: Analisi e Sperimentazione di algoritmi di Outlier Detection in Sistemi GDO

Intervistiamo Filomena durante il suo periodo di vacanza. Ha discusso la tesi da una manciata di giorni e trascorrerà una settimana dalla sua famiglia, in Puglia, prima di iniziare la sua avventura lavorativa a Milano. “Ho un impegno di assunzione con un contratto indeterminato in Reply, l’azienda di consulenza in ambito business dove ho svolto il mio tirocinio”, racconta Filomena, che si era trasferita a Milano lo scorso settembre.

Dati dagli scontrini – La tesi di Filomena riguarda l’ambito della grande distribuzione e le sue sorgenti dati sono le casse dei supermercati. “Ogni notte gli scontrini vengono elaborati trasformati e inseriti in un data warehouse, una specie di magazzino di dati”. In questo modo è possibile eseguire tutta una serie di operazioni e analisi da cui si possono ricavare informazioni interessanti, come il tipo di merce che viene acquistata con i relativi prezzi.

“Prima però si devono fare dei passaggi di pulizia dei dati”, puntualizza Filomena, che in un primo momento avrebbe dovuto svolgere la sua tesi proprio su questo tipo di operazioni, che servono a rendere utilizzabili i dati. In particolare, avrebbe dovuto controllarne la qualità.

Quando poi, per problemi tecnici, il progetto è stato abbandonato, Filomena ha pensato di proporre un nuovo tipo di analisi.

Caccia all’anomalia – “Ho suggerito all’azienda di studiare le tecniche di anomaly detection”. Chi lavora in questo ambito cerca in mezzo a montagne di dati i valori che in per qualche motivo sono molto diversi da tutti gli altri. “La presenza di un dato anomalo potrebbe essere dovuta a un errore oppure, se siamo fortunati, potrebbe suggerirci qualcosa di interessante”, spiega Filomena. Nel caso degli scontrini, un’anomalia potrebbe essere dovuta semplicemente a un errore da parte del cassiere che ha digitato uno zero in più quando ha battuto sul registratore di cassa. Tuttavia, un dato anomalo come la vendita di un certo prodotto in un particolare periodo dell’anno potrebbe suggerire nuove politiche di vendita. “Per esempio potrei trovare per un supermercato un incremento nelle vendite di panettone nel mese di agosto in un singolo punto vendita. Magri perché quel negozio aveva una scorta di panettone e come sfida ha deciso di esporlo nel bancone dei dolci e le persone lo hanno acquistato. Un dato del genere potrebbe suggerire di estendere quella promozione in futuro anche per atri punti vendita”, prosegue.

ImmagineTesiElia

Filomena nella sua tesi ha confrontato tre diverse tecniche di outline detection, per capire quale fosse la migliore nel suo caso specifico. Una buona analisi riesce a individuare i valori anomali, a rimuovere quelli che sono dovuti a errori ed evidenziare e analizzare quelli interessanti. Alla fine del suo studio, la studentessa ha individuato il migliore dei tre: “Si tratta di un lavoro sperimentale, prima di applicare i miei risultati nella realtà serviranno altri test”.

Strategia vincente – Dopo la laurea triennale in informatica a Bari, Filomena si era trasferita a Pisa per specializzarsi nella business intelligence. “La parte più bella del mio lavoro è partire da un insieme di dati che non significano niente. Hai questa marea di informazioni che non hanno senso per nessuno e sai che ci puoi estrarre conoscenza”.

Nel caso della tesi l’azienda ha fornito i dati, ma trattandosi di un lavoro sperimentale la tesista aveva carta bianca. Così, mentre durante le ore di tirocinio Filomena lavorava ai progetti di Reply, nel tempo libero portava avanti il proprio: “Ho lavorato alla tesi di notte e nei fine settimana. Ma alla fine questa strategia si è rivelata vincente, perché adesso vedo prospettive interessanti all’interno dell’azienda”.