Sei sulla pagina 1di 17

Statistica Applicata

Università degli Studi di Salerno


Corso di Laurea in Ingegneria Informatica

1- Introduzione al corso

Prof. Fabio Postiglione


Prof. Paolo Addesso
paddesso@unisa.it
Statistica
https://www.treccani.it/enciclopedia/statistica/

Scienza che ha per oggetto lo studio dei fenomeni collettivi


suscettibili di misura e di descrizione quantitative: basandosi
sulla raccolta di un grande numero di dati inerenti ai fenomeni in
esame, e partendo da ipotesi più o meno direttamente suggerite
dall’esperienza o da analogie con altri fenomeni già noti, mediante
l’applicazione di metodi matematici fondati sul calcolo delle
probabilità, si perviene alla formulazione di leggi di media che
governano tali fenomeni, dette leggi statistiche.
2
Statistica

Spesso la raccolta dei dati viene limitata a un campione più ristretto,


opportunamente predeterminato in modo da rappresentare
fedelmente le caratteristiche generali.

Concepita inizialmente come attività descrittiva di certi fatti sociali


e in particolare come attività amministrativa dello Stato, la
Statistica ha via via ampliato i suoi confini, fino a diventare una
vera e propria ‘scienza del collettivo’, disciplina con finalità non
solo descrittive dei fenomeni sociali e naturali, ma orientata anche a
finalità di ricerca nei vari ambiti scientifici.
3
… Applicata
• Scienze naturali
o Fisica (astronomia, fisica della materia, …)
o Biologia
o Climatologia

• Economia, marketing, finanza

• Scienze sociali e demografia

• Psicologia

• Ingegneria
o Ingegneria Civile
o Ingegneria Industriale
o Ingegneria dell’Informazione (Ingegneria Informatica, Telecomunicazioni, …)
4
Approccio statistico
Statistica metodologica
• Enfasi sulla metodologia statistico-matematica
• Analisi dei dati al fine di dimostrare la validità del
metodo

Statistica applicata
• Progettazione della raccolta dei dati (ad es., gli
esperimenti) ed analisi dei dati per la risoluzione di
problemi in diversi domini applicativi
• Analisi dei fenomeni attraverso gli strumenti statistici
o Scelta del metodo più appropriato
5
Data Science
La Data Science (scienza dei
dati) si basa sulle competenze di
Informatica, Statistica e quelle
del dominio applicativo

Un Data Scientist deve


conoscere:
• Statistica
• Machine Learning
• Ambienti software per
l’analisi dei dati e la
presentazione dei risultati (R,
Python)
• Database -> Big data
•… 6
Data Scientist

https://hbr.org/2012/10/data-scientist-the-sexiest-
job-of-the-21st-century

7
Libri di testo
D. Piccolo
Statistica per le decisioni, 3° ed.
Il Mulino, 2020

S. M. Iacus, G. Masarotto
Laboratorio di Statistica con R, 2° ed.
McGraw-Hill, 2014

8
Libri di supporto
M. Guida
Affidabilità
Aracne, 2020

A. Papoulis, S. U. Pillai
Probability, random variables and
stochastic processes, 4th ed.
McGraw-Hill, 2001

Materiale didattico integrativo


piattaforma e-learning di ateneo (http://elearning.unisa.it)
accessibile agli studenti tramite le credenziali uniche di ateneo
9
Obiettivi formativi del corso di Statistica Applicata
L’insegnamento mira a fornire:
• i principali strumenti per visualizzare i dati e descriverli tramite semplici modelli, in
particolare basati sulla regressione;
• i metodi più rilevanti per pianificare la raccolta di dati, per sottoporre a verifica
sperimentale i modelli, e analizzare l’effetto dei diversi fattori di influenza;
• i metodi principali per costruire e sottoporre a verifica sperimentale modelli interpretativi
di un fenomeno;
• la capacità di utilizzare i principali strumenti software per l’analisi dei dati.

Conoscenze e comprensione
Descrizione di fenomeni non deterministici basata sulla teoria della probabilità. Elementi di
base di statistica descrittiva, per sintetizzare i dati nell’analisi univariata e multivariata, e
dell’inferenza statistica. Analisi dei fattori più significativi nella descrizione di un fenomeno.
Modelli di regressione lineare. Test per valutare la significatività statistica.

Applicazione delle conoscenze e della comprensione


Analizzare semplici dataset di interesse applicativo tramite software dedicati per applicazioni
di statistica. Stimare i parametri di modelli di regressione lineare dei dati.
Progettare semplici esperimenti per la raccolta dei dati e analizzare i fattori di influenza
tramite Analisi della Varianza.
10
Prerequisiti del corso di Statistica Applicata

Prerequisiti:
• adeguate conoscenze matematiche
• nozioni di probabilità di base.

Propedeuticità:
• Fondamenti di segnali e trasmissione

11
Contenuti del corso di Statistica Applicata
• Richiami di teoria della probabilità. Calcolo combinatorio. Modelli di variabili
aleatorie. Coppie di variabili aleatorie. Distribuzioni congiunte e marginali.
Indicatori sintetici per coppie di variabili aleatorie. Modelli di variabili aleatorie
discrete e continue di uso nell’analisi dei dati

• Statistica descrittiva: popolazione e campione, campionamento casuale,


distribuzione di frequenza e frequenza relativa per variabili discrete e continue.
Indici statistici di posizione e di variabilità: media campionaria, mediana,
varianza campionaria. Box Plot. Introduzione al software R. Statistica descrittiva
tramite R

• Statistica Inferenziale e concetti di base del ragionamento induttivo. La funzione


di verosimiglianza. Teoria degli stimatori. Proprietà di uno stimatore. Metodo
della massima verosimiglianza: principi ed applicazioni. Stima dei parametri di
una popolazione. Stima puntuale ed intervallare. Intervalli di confidenza: esempi
principali. La distribuzione t di Student. La distribuzione chi-quadrato.
Applicazione in R dei concetti spiegati.
12
Contenuti del corso di Statistica Applicata
• Verifica (Test) di Ipotesi. Rischio di I e di II specie di un test d’ipotesi. Ipotesi
nulla, livello di significatività e potenza di un test. Curve ROC. Test del
rapporto di verosimiglianza. Test statistici asintotici. Test d’ipotesi sulla
popolazione Normale. Applicazione in R dei concetti spiegati.

• Progettazione degli esperimenti e Analisi di Varianza (ANOVA). Piani


completamente casualizzati. Piani a blocchi completi e quadrati Latini. Piani
Fattoriali. Confronto tra medie di popolazioni Normali. Partizione della
variabilità sperimentale. ANOVA ad una via e a due vie. Analisi dei residui.
Implementazione in R degli strumenti presentati.

• Analisi di correlazione e regressione lineare. Matrice di correlazione. Modello


di regressione lineare semplice. Stima ai minimi quadrati dei parametri del
modello. Il coefficiente di determinazione. Modello di regressione lineare
multipla. Scelta del migliore modello di regressione e procedura stepwise.
Implementazione in R degli strumenti presentati.

13
Modalità di verifica dell’apprendimento
• L’esame prevede un progetto di gruppo e un colloquio orale.
o Il progetto mira a stabilire le capacità di analizzare un semplice dataset
tramite il software R.
o Il colloquio orale è finalizzato a valutare nel suo complesso: la capacità di
affrontare problemi di statistica applicata attraverso le metodologie e gli
strumenti illustrati durante il corso; la conoscenza ed il livello di
comprensione dei concetti presentati al corso.
o Vengono anche valutate l’autonomia di giudizio e la capacità espositiva

14
Introduction to R
http://cran.r-project.org/
• A language and environment for statistical computing and graphics
• A GNU project which is similar to the S language and environment, developed at Bell
Laboratories (formerly AT&T, now Lucent Technologies) by John Chambers and
colleagues

• It provides a wide variety of statistical techniques (linear and nonlinear


modelling, classical statistical tests, Bayesian approach, time-series analysis,
classification, clustering,... ) and graphical tools
• highly extensible with a huge number of free packages

• R is available as free software


• Free Software Foundation’s GNU General Public License in source code form.

• One of most widely used data analysis software: used by millions of data
scientists, statisticians and data analysts
15
RStudio

https://www.rstudio.com/products/rstudio/

• RStudio is an integrated development environment (IDE) for R.


• It includes a console, syntax-highlighting editor that supports direct
code execution, as well as tools for plotting, history, debugging and
workspace management.

• RStudio is available in open source and commercial editions


and runs on the desktop (Windows, Mac, and Linux)
16
RStudio

17

Potrebbero piacerti anche