GitHub - epunto/daita-final-project: Project Work del gruppo E. della classe DAITA10 (corso per Data Engineers)

📝 Indice

Problema
Soluzione
Limitazioni
Utilizzo
Tecnologie Utilizzate
Autori
Riconoscimenti

🧐 Problema

Il cliente ha richiesto l'analisi di alcuni dati per capire quanto vale la pena investire in pubblicità, e quali canali sono i più appropriati.

(back to top)

💡 Soluzione

Per analizzare i dati, abbiamo sviluppato una pipeline per portare i dati dai file originali alla nostra dashboard in PowerBi, dove possiamo mostrare i risultati delle nostre analisi.

Ricezione dei file

Abbiamo inizialmente ricevuto 4 file di formati diversi: due file CSV, un file XLS, e un file SQL. Di seguito, degli screen che esemplificano la varietà di formati.

CSV	XLS	SQL

Ad una prima occhiata, appare possibile combinare tutti i dati in un singolo dataset grazie alla colonna adv_ID; la possibilità è stata esplorata con l'aiuto di Python.

Python e Jupyter: una ETL

Per prima cosa, dovevamo velocemente testare come poter leggere i file: a questo scopo è stato creato il notebook 01_data_collection per aprire, leggere e trasformare i file.

È stata testata una possibile soluzione con tale notebook usando le librerie Python. Con Pandas, per ogni file in input è stato creato un dataframe, e questi dati sono stati unificati in un singolo dataframe facendo operazioni di merge sulla colonna adv_ID.

Una volta accertato che l'operazione restituisse con successo il dataset, è stato creato un file Python 02_ETL_pipeline per astrarre l'operazione (ed, eventualmente, automatizzarla nel caso ricevessimo nuovi file, o nel caso i file che abbiamo venissero aggiornati.)

Data Lake

Una volta ottenuto il nostro dataset finale result, abbiamo creato un database MySQL per salvare i nostri dati. I comandi per la creazione di tale database si possono trovare nel file 03_database.

Ora possiamo interrogare il nostro database; ad esempio, la query:

SELECT MIN(Sales), MAX(Sales), AVG(Sales)
FROM adv_data.dati;

Restituisce la seguente tabella:

MIN(Sales)	MAX(Sales)	AVG(Sales)
2	999	20.1600

Data exploration

Tornando su Jupyter , abbiamo esplorato il nostro dataset (04_data_exploration) usando librerie Python come Seaborn e Matplotlib per vedere in forma grafica com'è fatto il dataset, e quali potrebbero essere eventuali relazioni tra le variabili.

Ad esempio, abbiamo prodotto una heatmap che mostra chiaramente un alta correlazione tra le vendite (Sales) e il budget per la televisione (TV); potrebbe valere la pena esplorare meglio questa relazione.

Data Science (R)

PowerBI

Usando PowerBI , abbiamo caricato i dati e tramite Power Query ripuliti dai dati anomali riscontrati nelle prime analisi fatte.

Procediamo poi ad effettuare varie analisi grafiche riportando quelle più significative Es. la suddivisione delle spese e del fatturato.

Dato Anomalo in evidenza	Data Cleaning con Power Query

(back to top)

🚩 Limitazioni

La quantità di spunti di riflessione rilevanti per il business è stata inferiore alle previsioni; forse il dataset era troppo piccolo (solo 200 righe), o forse mancavano dati aggiuntivi che potessero aggiungere profondità alla ricerca.

(back to top)

🎈 Utilizzo

Per vedere la dashboard in PowerBI

Scaricare il file adv.pbix dalla cartella PowerBi

Per eseguire il codice

Scaricare il contenuto della repository come file ZIP.

Decomprimere il file nella cartella desiderata, poi aprire la cartella in Visual Studio Code. Potrebbe essere necessario installare alcune estensioni per aprire e/o eseguire alcuni tipi di file (es file Jupyter)

(back to top)

⛏️ Costruito con

(back to top)

✍️ Autori

Baldoni Eugenia (@niaBaldoni)
Scrima William
De Cales Giovanni
Rossi Eleonora
Anas Chaya
Roma Marco
Murgo Francesco

🎉 Riconoscimenti

Grazie a Generation Italy per il corso di Junior Data Engineer, senza il quale non avremmo realizzato questo progetto
Grazie a Christian Iozzi per averci ispirati
Grazie a Marco Cavalotto e Diana Lungoci per averci accompagnati in questo viaggio
Grazie a Francesco Del Pizzo e Simone Migliorisi per il supporto morale durante lo sviluppo

(back to top)

Name		Name	Last commit message	Last commit date
Latest commit History 66 Commits
Dataset		Dataset
PowerBi		PowerBi
res		res
.gitattributes		.gitattributes
.gitignore		.gitignore
01_data_collection.ipynb		01_data_collection.ipynb
02_ETL_pipeline.py		02_ETL_pipeline.py
03_database.sql		03_database.sql
04_data_exploration.ipynb		04_data_exploration.ipynb
ProjectWork_E._DAITA10.pptx		ProjectWork_E._DAITA10.pptx
README.md		README.md
result.csv		result.csv
statistical_data_analysis.R		statistical_data_analysis.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pubblicità

📝 Indice

🧐 Problema

💡 Soluzione

Ricezione dei file

Python e Jupyter: una ETL

Data Lake

Data exploration

Data Science (R)

PowerBI

🚩 Limitazioni

🎈 Utilizzo

Per vedere la dashboard in PowerBI

Per eseguire il codice

⛏️ Costruito con

✍️ Autori

🎉 Riconoscimenti

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Pubblicità

📝 Indice

🧐 Problema

💡 Soluzione

Ricezione dei file

Python e Jupyter: una ETL

Data Lake

Data exploration

Data Science (R)

PowerBI

🚩 Limitazioni

🎈 Utilizzo

Per vedere la dashboard in PowerBI

Per eseguire il codice

⛏️ Costruito con

✍️ Autori

🎉 Riconoscimenti

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages