IN EVIDENZA

Dati fantastici e dove trovarli

Ovvero, di che cosa si occupa un data scientist, e dove può reperire le informazioni necessarie per il suo lavoro

Gran parte delle discipline scientifiche viene chiamata in causa nella data science: matematica, statistica e calcolo delle probabilità, ricerca operativa, informatica e l’intero lotto delle tecniche più moderne di machine and statistical learning, gestione dei database, analisi predittiva e chi più ne ha più ne metta. Crediti immagine: Pixabay

APPROFONDIMENTO – Data science, data scientist: se ne sente parlare sempre più spesso, ed è una tendenza destinata a crescere nei prossimi anni. In che cosa consiste questa nuova disciplina? E che profilo deve avere chi se ne occupa? Sintetizzando, si potrebbe dire che con data science si intende il complesso dei processi e dei sistemi volti a estrarre conoscenza da dati, nelle ormai molteplici e varie forme in cui essi si trovano.

In effetti negli ultimi anni, grazie alla diffusione dell’accesso al web, c’è una enorme disponibilità di dati, anche a basso costo, praticamente ovunque. Si tratta di informazioni nuove, recenti, nate già in epoca digitale, oppure di contenuti analogici, creati anche secoli prima  dell’avvento dell’era della rete globale, e convertiti in modo da poter essere fruiti da dispositivi mobili e fissi, sensori, strumentazione, blogs. Secondo una stima degli analisti di IBM, ad esempio, circa il 90% dei dati attualmente disponibili sono stati creati non più di due anni fa.

Che cosa significa, esattamente, estrarre conoscenza da tale mole sconfinata di dati? La risposta dipende molto dall’applicazione: in generale si potrebbe dire che lo scopo è identificare dei pattern definiti e delle regolarità che aiutano a dare un senso astratto a informazioni che altrimenti avrebbero il carattere della massa informe.

Per fare un esempio, assumiamo che un’azienda intenda determinare quali sono le attese dei propri potenziali clienti sui prodotti futuri, per individuare la direzione più efficace sia in termini di investimenti in ricerca e sviluppo, sia di strategia commerciale.
La prima domanda da porsi è: dove prendere i dati che mi interessano? Una possibile strada da seguire sarebbe esaminare i forum che raccolgono le opinioni degli utenti sui prodotti simili, o la somministrazione di questionari, o ancora l’analisi dei profili pubblici sui social network, o anche l’analisi della concorrenza.

E poi? Che cosa farsene di tutti i dati così raccolti? Il punto di partenza è il mondo reale, dal quale provengono tutte le informazioni disponibili in rete e non: il primo step, quindi, consiste nella raccolta di tali informazioni, selezionando le modalità più opportune che garantiscono una adeguata copertura delle necessità.

A questo punto interviene il bravo data scientist, che effettua un primo filtraggio della grande quantità di informazioni ricavate, con la finalità di renderle meno indigeste per gli algoritmi che dovranno processarle. Grazie all’analisi effettuata, si possono ottenere modelli e nuove tecniche applicabili sia ai dati grezzi, sia agli stessi dati filtrati.

Il risultato finale è la determinazione dell’informazione strutturata a cui si puntava: nell’esempio sopra descritto, ad esempio, si otterrà la lista dei requisiti e dei cambi da effettuare su un prodotto corrente per renderlo più competitivo e appetibile per una platea sempre più vasta di utenti. Senza far mancare, naturalmente, una dettagliata reportistica che descriva e fornisca interpretazioni circa i risultati raggiunti, in modo chiaro e intellegibile.

Gran parte delle discipline scientifiche viene chiamata in causa in questo processo: matematica, statistica e calcolo delle probabilità, ricerca operativa, informatica e l’intero lotto delle tecniche più moderne di machine and statistical learning, gestione dei database, analisi predittiva e chi più ne ha più ne metta.

Naturalmente, si deve sottolineare ancora una volta che uno dei punti cruciali è dove reperire i giusti dati, in base alle proprie necessità. Una risposta arriva, ad esempio, da Analytics Vidhya, un blog indiano con diffusione globale interamente dedicato all’analisi dei dati e alle tecniche proprie del data science, che individua le 25 più autorevoli e importanti sorgenti di preziose informazioni per data scientist e non.

Si passa dalle fonti più generaliste e istituzionali, come la World Bank, a quelle più specializzate, come Google Dataset, fino ad arrivare a quelle per veri e propri esperti di modellazione predittiva e apprendimento automatico, come Quandl, orientata soprattutto a dati economici e finanziari, o DrivenData, che si pone l’obiettivo di stimolare le sfide tecnologiche per produrre impatti positivi sulla società.

Nè mancano siti che contengono dati sui film da scegliere in base ai propri gusti, come MovieLens, o addirittura per marcare i tweet che contengono sentimenti positivi o negativi, come Twitter Sentiment Analysis.

Insomma, un orizzonte davvero vasto e tanto meno esplorato quanto più è particolare l’applicazione che si ha in mente: i giovani (e meno giovani) cercatori di leggendarie creature informatiche sono avvertiti.

Leggi anche: Databases #2: questione di scala

Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.   

Condividi su
Gianpiero Negri
Laureato in Ingegneria Elettronica, un master CNR in meccatronica e robotica e uno in sicurezza funzionale di macchine industriali. Si occupa di ricerca, sviluppo e innovazione di funzioni meccatroniche di sicurezza presso una grande multinazionale del settore automotive. Membro di comitati scientifici (SPS Italia) e di commissioni tecniche ISO, è esperto scientifico del MIUR e della European Commission e revisore di riviste scientifiche internazionali (IEEE Computer society). Sta seguendo attualmente un corso dottorato in matematica e fisica applicata. Appassionato di scienza, tecnologia, in particolare meccatronica, robotica, intelligenza artificiale e matematica applicata, letteratura, cinema e divulgazione scientifica, scrive per Oggiscienza dal 2015.