Energia Sbobina Crisostomi

20/04
Perché uno dei temi ingegneristici più importanti riguarda le smart grids?
Non sono soltanto le smart grid una risposta alla sostenibilità. Gli aspetti legati alla sostenibilità
dove sono?
Le città iniziano a essere un centro di aggregazione di popolazione.
Aumentano le città con più di un milione di abitanti e queste ultime stanno cambiando anche. Ci
sono città che hanno un numero di abitanti cosi elevato che sono comparabili ad un intera nazione.
Questo aumento delle città fa si che anche la ricchezza venga concentrata.
Il fatto che le persone siano in città fa si che l’impatto ambientale maggiore sia all’interno delle città.
Quale è la chiave di lettura? SE RIUSCIAMO a migliorare la sostenibilità all’interno delle città siamo
anche in grado di migliorare la sostenibilità su scala mondiale. All’interno della città c’è una serie di
altri settori che sono ugualmente importanti.
Cosa si intende con smart? Far funzionare meglio, in maniera più intelligente le infrastrutture che
abbiamo a disposizione.
SMART, significa connesso a internet.
Smart grid quindi i vari componenti di una rete elettrica sono connessi a internet.
Il motivo per cui si usa la parola smart, perché una volta collegato a internet l’obiettivo è aumentare
la potenzialità del prodotto in modo tale che sia davvero più intelligente rispetto alla mancata
connessione.
Per dire come rendere smart un oggetto c’è un paradigma, tre aggettivi che iniziano con i
Instrumented, ci vorrà una scheda di rete per far funzione con internet, tutta quella parte elettronica
per rendere un oggetto effettivamente smart.
Interconnected, un oggetto è smart nel momento in cui è veramente interconnesso.
Intelligent, contiene tutte le funzionalità che in maniera automatica permette di usare l ‘oggetto nel
modo migliore possibile.
Cosa vuol dire nel caso dell’energia instrument,intelligent, interconnected?
Bhe intanto rendere tutto disponibile online.
L’intelligenza potrebbe essere di monitorare i consumi elettrici in tempo reale.

Spinti da questi temi di sostenibilità quello che accade è che diverse città hanno cercato di migliorare
le proprie perfomance su campi diversi. Ci sono state città che hanno puntato su pianificazione dei
trasporti, città che sono performanti dal punto di vista della sostenibilità elettrica.
per questo motivo vanno di moda i grafici che rappresentano quanto una città è smart.
Si riesce davvero a migliorare l’intelligenza? Per rendere smart una città ci sono molti settori,
solitamente si prende un settore e ci si concentra su quello. Quello che si vede è che non è
economicamente conveniente concentrarsi su un singolo settore ma è conveniente soltanto se
vengono integrate le funzionalità tra di loro. Quindi una smart grid funziona bene se inserita in un
contesto smart.
IoT, internet of things. I vari oggetti sono prima resi smart e poi collegati a internet. Questo IoT è cosi
diffuso che si inizia a usare la sigla IoE ovvero internet of everything, perché effettivamente mentre
prima era per mettere in evidenza che un oggetto era connesso a internet al giorno d’oggi tutto è
connesso a intrnet.
Industria 4.0, è l’internet of things applicato all’industria.
Cyber physical System, si mette in evidenza che la rete internet coinvolga alcuni elementi cyber
ovvero macchine e adl physical ovvero persone.
Big Data, ogni oggetto connesso a internet trasmette di continuo un flusso di dati per cui abbiamo a
disposizione grandi banche dati di informazioni.
Una prima applicazione prendiamo come esempio lo smart parcheggio.
Il problema del parcheggio è un problema importante, aldilà dell’impatto sull’inquinamento ha un
imnpatto ancghe sulla qualità della vita.
Prima I
Sono messi dei sensori sotto terra in modo da sapere quali parcheggi sono occupati o meno.
Tutti i parcheggi sono numericamente univoci. E vengono trasmessi i parcheggi liberi attraverso
internet.
Da un punto di vista scientifico l’automobile è cambiata drasticamente, ha incorporato aspetti
elettronici che sono diventati molto determinanti.
23/04
La smart grid è soltanto un iniziativa per arrivare ad un livello di sostenibilità maggiore di quello
attuale.
Tutti questi miglioramenti funzionano se abbiamo sensori che monitorano l’attuale stato dell’oggetto
in esame.
È interessante capire perché tra tutte le applicazioni smart, perché c’è anche la rete elettrica.
Le motivazioni della smart grid, molte sono legate alla crescita della popolazione. Aumenta la
domanda di energia elettrica però invece che aumentare le centrali si cerca di ottimizzare quella già
esistente.
Accanto all’aumento della popolazione c’è anche l’aumento dei dispositivi elettronici.
La crescita della domanda di picco dell’energia elettrica ha superato la crescita dell’infrastruttura

annuale di quasi del 25%. Se aumenta la domanda ma non la infrastruttura di pari passo non siamo
più in grado di sddisfare la domanda.
Un altro aspetto, che sta dietro le grandi rivoluzioni sono i problemi economici.
Un altro motivo di andare verso la smart grid. L’impatto di un black out è tremendo.
Un’altra serie di motivi come tenere bassi i prezzi, aspetti legatj alla sicurezza.
Ci sono aspetti storici anche, come la rete elettrica è stata la più grande rivoluzione ingegneristica.
Possibile che mentre altre strutture vengano rinnovate a frequernze molto veloci mentre quella
elettrica è sostanzialmente la stessa per oltre 100 anni?
È stato pensato cosa può aggiungere una smart grid ad una rete elettrica attuale?
Cosa si intende per rete inelligente?

Il primo termine interessante è la parola autonoma, ovvero quando occorre prendere decisioni, le
prende da sole grazie ai sensori.
L’altro aspetto riguarda la cooperazione, dietro una rete ci son diversi operatori, se riusciamo ad
allineare il punto di vista del’utilizzo dell’energia elettrica riusciamo ad usarla nel modo migliore. Per
allineare gli obiettivi è quando l’utilizzatore diventa anche produttore (con pannelli sul tetto) quindi
anche lui sarà interesasto all’efficienza dell’energia elettrica.
Una sigla che si trova spesso è AMI, advance measuring infrastructure, un esempio sono i contatori
intelligenti.
I sensori che abbiamo nella nostra abitazione sono veramente smart? Si perché hanno sensori e
sono leggibili da remoto.
SM, smart meter
PMU, phasor measurement unit, si intende quella sensoristica che viene messa per monitorare in
tempo reale non solo tensione e corrente ma anche la fase istante per istante.
Efficiente è la motivazione principale della smart grid.
Un termine che si usa frequentemente è DSM, demand side management e dice che , se abbiamo un
grafico sulle x c’è tempo e y la generazione sarà una curva di tipo gaussina quindi avremmo un picco
solitamente nelle ore centrali del giorno. Se noi acecndiamo la lavatrice al mattino , quello che
accade è che il picco sarà spostato, quindi il sistema sposterà la curva del carico nel tempo.
Quindi non c’è bisogno di comprare energia elettrica per produrre, basta posticipare l’utilizzo di
energia dal picco cosi siamo a livello costante di energia prodotta.
Mercati P2P, peer to peer.
Se noi abbiamo pannelli sul tetto, ma non sprechiamo energia allora la diamo a qualcun altro senza
passare dall’energia elettrica nazionale. Ovviamente è fattibile se produzione ed energia sono vicini.
Accomodante ovvero, utilizzare lampadine al led con un consumo minore, in sostanza consumare
energia senza preoccuparci che sia stata prodotta da combustibili fossili o da fonti rinnovabili.
In questo caso si parla di smart energy system in maniera più ampia.
Indurre il consumatore ad avere comportamenti più virtuosi.
Ci son diversi pensieri che vanno dal bastone alla carota.

Se la smart grid è progettata bene altri possono sfruttarla per fare soldi.
V2G veicle to grid,
Deve essere focalizzata sulla qualità, ovvero senza disturbi dell’energia elettrica.,
Dato il background della smart grid , cosa c’entra questo corso? A noi interessa il forecasting e
perché è importante, di quali problemi si occupa e quali problemi cerca di risolvere.
A che serve la capacità del forecasting?
Ad esempio nell’eolico potrebbe interessare quanta energia riesco a produrre domani, mentre
nell’idroelettrico è deterministico perché ho un bacino d’acqua.
Abbiamo inoltre il consumo di energia elettrica che essendo non deterministico può essere
interessante prevedere quanto si consuma.
Il primo obiettivo è bilanciare consumo e produzione di energia elettrica, però c’è un'altra nuvoletta
dove ci sono i sistemi di accumulo che possono assorbire o erogare corrente in base all’istante di
tempo.
Vpp (virtual power plant), invece di pensare alla rete nazionale uno può pensare ad una rete più
piccola.
L’idea di scindere le reti fino ad averne una più piccola, quando si parla di problema di rete elettrica
legata all’affidabilità si può isolare la mini rete e il problema non si percuote su tutta la rete.
Inoltre riprendendo il p2p è più fattibile perché la rete è più piccola.
L’idea della smart grid è di avere tante piccole smart grid.
Questo c’entra con le serie temporali, perché qualunque sia la scala della rete, il cuore di tutto è EMS
perché è quello che prende le decisioni. Ma come fa a prendere le decisioni? Deve prendere le
decisioni , affinche il consumo sia uguale alla produzione.
Se io so che il consumo è 100 allora io posso decidere come produrre 100. Oppure potrei produrre
più energia dei consumi e venderla sul mercato. È l’EMS che prende queste decisioni.
Ci sono una serie di difficoltà per raggiungere l’ottimo che ad oggi non si è ancora raggiunto.
In questo esempio vogliamo minimizzare il prezzo. Oltre al vincolo ci sono i vincoli.
Il primo vincolo è che l’energia consumata sia uguale a quella generata.
Non possiamo produrre energia infinita dall’eolico, fotovoltaico, ma in generale anche altre centrali
elettriche.
Anche gli accumuli hanno dei vincoli.
Tutti i problemi di ottimizzazione si possono risolvere in due modi
Ottimizzazione greedy cioè dato un istante temporale si trova una soluzione ottimale. Esistono però
soluzioni più furbe che tengono conto di un futuro, di un orizzonte temporale quindi riusciamo a
trovare una soluzione in generale migliore. Per fare ciò servono previsione accurate.
Una motivazione per studiare la predizione di serie storiche è questo.
L’alternativa è una soluizione istante per istante che è sub ottima.

Il problema della rete si è spostato ai produttori, a cui viene chiesto di sapere quanta energia
produranno nelle 24 ore successive che verranno utilizzate queste informazioni per trovare l’ottimo
prima descritto. Però se uno sbaglia ne paga le consueguenze se producono meno, i cosidetti oneri di
sbilanciamento.
Da una parte quindi si sviluppano metodi di forecasting, e dall’altro usano metodi cautelativi ovvero
annunciano che produrranno meno di quello che realmente pensano.
Un altro motivo di fare forecasting è: se produce meno della previsione per un lungo periodo è
possibile pensare che ci siano problemi tecnici da qualche parte.
Un’altra applicazione è quella legata al DSM.

Possiamo pensare una serie di altrio problemi.
Immaginiamo di avere un veicolo ibrido, uno chiede “in che modalità vado?”
Quali serie temporali occorrono?

La prima serie temporale è il prezzo dell’energia elettrica. Per venderla o comprarla. Questo in figura
è l’andamento dei prezzi nell’arco di tre anni.
Un’altra serie riguarda il carico elettrico. Ovvero generazione e consumo.

Quindi prezzo, carico e generazione ci interessano.
Per quanto riguarda la generazione abbiamo dei lassi temporali che prendono diverse categorie di
nomi.
Come si fa la previsione delle singole componenti? Non è facile, ci sono dimensioni e tipologie
diverse, i luoghi sono diversi e diversamente illuminati.
L’eolico è difficile, molto difficile da prevedere. Se il fotovoltaico ha una stagionalità l’elolico non ha
periodicità.
La generazione dell’eolico dipende da quanto vento c’è.
Uno si aspetta che più c’e vento più produce energia elettrica.
Come mai c’è un alta dispersione dei dati? Bho.

Man mano che l’orizzonte di previsione aumenta la previsione è sempre meno accurata.nel caso
dell’eolico l’errore è quasi il doppio rispetto al fotovoltaico.
27/04
Come possiamo formalmente scrivere questa serie? Possiamo sia definirla in maniera ricorsiva
x(k+1)= x(k) +5
Oppure in maniera esplicita x(k) = 10 + 5K.

Ci sono serie che non sono semplici da esprimere in maniera esplicita, ad esempio la serie di
fibonacci è molto complessa.
Quale è il modo alternativo per predire la serie temporale?
Si crea un oproblema di interpolazione, abbiamo una serie di punti e vogliamo una retta che passi
attraverso quei punti.
Avremo un polinomio , in questo caso, di cinque polinomi
A + A1*x1 + a2*x2 + a3*x3 + a4*x4 + a5*x5
Quando imponiamo il passaggio da un punto l’equazione sopra deve fare ad esempio 15.
Di per se possiamo trovare infinite soluzioni che interpolano quelle soluzioni.
Se sono infiniti i modelli, quale è quello giusto? Dare una risposta spesso è difficile.
Occam rasoio, da un punto di vista ingegneristico, se esistono diversi modi per spiegare un
fenomeno solitamente quello più semplice è quello corretto.
Se la retta non passa per l’origine si chiama affine.
Il problema di prima era il problema dell’interpolazione, ora abbiamo un problema diverso, perché
non vogliamo un polinomio che passa esattamente tra questi punti ma una sua approssimazione.
Se uno guarda i dati sembra ci sia una retta che passa tra i dati. Come è fatta però la retta migliore
che approssimi da questi punti?
Data una retta, chiamiamo d1, d2 …di la distanza dai punti della retta.
Cerchiamo di ottenere la retta migliore con un problema di ottimizzazione.

La retta migliore è quella che è più vicina ai punti in media.
C’è anche un altro modo.
Se troviamo la retta e troviamo m e q migliori, posso fare la stima di una predizione. Allora un certo
di, può essere visto coma la distanza tra y-yi. Quindi cerco di minimizzare la loro differenza. La
differenza che c’è tra la y vera e la yi prende il nome di residuo = di.
Andiamo poi a minimizzare la somma dei quadrati dei residui. Facendo i quadrati si toglie il segno.
Questo problema viene chiamato “problema ai minimi quadrati”.

Nella pratica un modo per risolvere questa parabola è trovare il minimo valore. Faccio variare m in
un range di valori. Poi per ogni combinazione di m e q andiamo a mettere li dentro xi e yi. Ci
calcoliamo il risultato e prendiamo il minimo.
Greed search viene chiamata questa soluzione.
Questo campionamento ha uno svantaggio chiamato curse of dimensionality, poiché la complessità

del problema aumenta all’aumentare della dimensione del problema.
Il problema è molto semplice perché si trova in forma chiusa i parametri.
Vogliamo calcolarci teta* uguale a (m* e q*). Possiamo scrivere Y =X * teta e troviamo che teta* =
X(x) * Y
X(x) è la pseudo inversa di X

Ci sono dei casi in cui l’osservazione non conta. C’è un caso chiamato outliers che è una coppia che
non ha niente a che vedere con le altre coppie.
Come accadono? Il sensore legge un valore anomalo per malfunzionamento oppure si freeza e legge
il solito valore in base a condizioni diverse.
Quello che può accade in alcuni casi è che si dice che non funziona, ma non è che non funziona è che
ci sono valori sballati.
Prima di lanciare a occhi chiusi un metodo la prima cosa da fare è guardare i dati.
Un errore comune è pensare che la regressione funziona solamente con valori lineari.
Ma se la relazione fosse quadratica? Non funziona più nulla?? Assolutamente no, funziona eccome.
Y = aX^2 diventa Y= a X* dove X^2 = X*.
Quindi rimane sempre lineare la relazione.
La linearità non deve esserci tra le variabili di ingresso e uscita ma solo i coefficienti.
Possiamo trovare un polinomio che approssimi la regressione lineare.

Una variazione è la regressione lineare pesata. Nel secondo caso non si minimizza la somma dei
quadrati ma si pesa ognuno con un certo valore W. Perché fare una cosa simile? Un residuo
maggiore pesa di più rispetto ad un altro residuo. La retta verrà leggermente diversa, è importante
che il residuo più pesante sia più piccolo. Comunque vado sempre a minimizzare la somma. Uno dei
motivi per fare una cosa del genere è che se abbiamo una serie storica legata ad un fotovoltaico, che
se le misure ad esempio rispecchiano periodi dell’anno do più peso all’errore di agosto anziche di
gennaio, perché nel frattempo magari l’impianto è cambiato, è invecchiato o modificato o usurato
etc… quindi è per dare diversa importanza ai residui per privilegiare i residui più recenti.
30/04
È necessario continuare il preambolo di cosa significa fare una previsione.

Fare la previsione significa prevedere l’uscita. Qualunque sia la serie storica è interessante andare a
vedere quali possono essere le possibili uscite e ingressi.
Teta, abbiamo detto in generale quelli che sono i parametri fisici del sistema.
U è il vettore di variabili di input.
Questi sono parametri in qualche modo deterministici, sa ad esempio l’efficienza del sistema , sa la
potenza massima etc…
Ci sono aspetti che non sono noti e vengono racchiusi dalla variabile xi(ξ) e solitamente sonoi rumori,
e gli aspetti che non sono stati modellati.
Tipicamente abbiamo U,teta ma non xi.
Il problema non è semplice e non abbiamo la xi.
Se riusciamo a capire la funzione f allora il problema è risolto. Per trovare la funzione f è quella di
fare una regresione lineare e da una stima di f possiamo sapere y sapendo gli ingressi.
Prima di tutto bisogna capire quali sono le variabili di ingresso.
Poi dobbiamo scegliere una classe di modelli matematici. Come fai a sapere se quel modello
matematico è buono? Di solito aiuta a sapere quale è la fisica dei modelli sottostanti.
Poi dobbiamo scegliere teta.
Questa è una possibile procedura per risolvere il problema.

Se abbiamo x1,x2 , con due intervalli diversi è chiaro che un errore della stima di b viene poi
moltiplicato su 10000 e 10000, invece qualsiasi sia a x1 è piccolo quindi l’errore sarà piccolo.
Per non avere problemi di scala, si normalizzano i dati.
Un altro problema è che possono mancare dei dati. Se c’è un outlier lo rimuovo e ok, però per quel x
= 7 che valore metto?
Posso prendere il campione prima e quello dopo e faccio una media. Questo è fattibile se è lineare
ma se non lo fosse? Devo inventarmi i dati, posso andare a mano a fare una stima di quello che ci
dovrebbe essere.
La previsione bisogna capire quello che accadrà domani, e dobbiamo fare predizioni su dati che il
modello non ha mai visto. Dobbiamo cercare di capire cosa significa veramente prevedere.
Dobbiamo avere un databse di dati storici che dobbiamo dividere in tre gruppi
Addestramento
Validazione
Test
Una buona parte del dataset lo usiamo per il training, che serve per imparare quanto vale il vettore
teta. Una seconda parte lo uso per la validazione, serve per fare la scelta del modello e dire quale
modello funziona meglio.
L’ultima parte del dataset lo uso come test, serve per dirmi quali sono le perfomance. Quando
andiamo a divedere le tre parti esse devono essere disgiunte.
Ogni volta si può provare modelli diversi, lienare, cubico o quadratico e poi in base ai valori possiamo
dire quale è quello migliore.
Quali dati del dataset uso per ogni gruppo?

Il dataset lo divido in base all’esperienza.
Come faccio a decidere quale è il modello più giusto? Un potrebbe dire che vado a guardare l’errore
che viene commesso nel set di validazione.
Ma se guardo solo i residui potrei sbagliare, quindi non esiste un modello unico per capire quale è
più corretto.
Perché se la curva che descrive meglio i punti rispetto alla retta, faccio una previsione mi da un
valore, mentre la retta un altro, quindi bisogna stare attenti.
Non esiste un metodo per capire quale è il modello migliore, serve esperienza.
Un potrebbe dire che
Y = mx +c è un caso particoalre di Y = ax^2 + bx +c , basta che a sia uguale a 0, ma il rischio è che

facendo una regressione lineare abbiamo imparato il rumore e non il sistema. Se entrambi spiegano
la Y per il rasoio di ocamm allora quello più semplice è quello corretto.
Inoltre se il nostro dataset ha pochi parametri non va bene perché magari non catturo pienamente il
fenomeno se ne ho troppi è ugualmente male perché potrei catturare solamente il rumore. Allora
quanti ne scelgo? Anche li esperienza, in alcuni casi aiuta la fisica del sistema.
In questo caso il modello è stato scelto con un ordine troppo basso.
Per aiutarci c’è qualcosa.
Anzitutto la fisica del sistema.
Poi ci sono esperienze degli altri da poter sfruttare.

Ci sono trucchi per capire se si sta andando verso un over o under fitting, ovvero la varianza se è alta
o bassa.
Se ho il modello e aggiungo un punto e ne rimuovo uno, allora la curva interpolante cambia di molto.
Questo è tipico dell’overfitting.
I modelli overfittati hanno un alta varianza.
Per questo il modello si sceglie nella validaizone per vedere come cambia la curva.
C’è qualche altro trucco per evitare l’overfitting.

L’idea della regolarizzazione è semplice di per se.
Regolarizzazione significa che quando andiamo a risolvere il problema di ottimo, ai residui al

quadrato ci aggiungiamo g(teta) questo normalmente è la norma di teta oppure il modulo di teta.
Questi sono i prezzi giorno per giorno di tre anni.
Intanto si nota un outlier.
Qui si vede come serie temporale.

Facciamo un modello semplice, ho un database dei prezzi e degli orari. Siamo in grado di prevedere il
prezzo di domani?
Vedendo che c’e una certa regolarità, vediamo che il prezzo di domani è una combinazione linerare
del prezzo di ieri più il prezzo di una settimana fa.
Facciamo che i parametri dipendono dai giorni della settimana.
È conveniente tenere in considerazione un modello ancora più semplice, qui dice che il prezzo di
domani è quello di oggi. Perché fare un modello di questo tipo? Ogni volta che si propone un
modello più sofisticato rispetto a quello semplice devo vedere se mi conviene.
Funziona bene o male il modello più complesso? E se rispondiamo “i residui fanno 100” non si sa se
fa bene o male ma se dico che “il modello semplice fa 150 questo fa 100” allora effettivamente
funziona meglio.
Questo è quello che succede e trovo i migliori coefficenti di ciascun giorno.
Facciamo asse tempo e valore.
Abbiamo un punto (oggi) e vogliamo predire il prezzo di domani, cosa si fa? Sapendo che abbiamo un
database dei prezzi andiamo a vedere i prezzi storici e andiamo a imparare i coefficenti ottimali k1 e
k2 , dopo diche vedremo che il prezzo di domani è uguale al prezzo di ieri*k1 + prezzo di una
settimana fa *k2. Ci troviamo k1 e k2 risolvendo la pseudoinversa dell’ultimo anno.
Poi cosa succede? Passa un giorno che scriveremo come prima ma con diversi k1 e k2. Un altro
motivo per cui sono diversi è che calcolo k1 e k2 su una finestra temporale shiftata di un giorno,
quindi diversa. Questa cosa si chiama Sliding window oppure in italiano finestra mobile.
Questo modello funziona bene quando non ci sono feste. Poiché le feste i prezzi si abbassanno e
quindi sballa.
04/05
Ci sono quattro serie che ci interessano come serie storice, prezzo, carico , domanda e offerta.
Per quanto riguarda i dati, sono dati pubblici.
Qui si osserva che ci sono dei valori molto bassi e altri molto alti, il primo sono due settimane di
ferragosto.
Facendo lo zoom c’è una regolarità impressionante. È circa lo stesso andamento del prezzo
dell’energia elettrica.
Vengono colorati in maniera diversa in base ai giorni della settimana.
Per capire il carico si spiega il Feature Extracion, invece che andare a considerare tutte le curve di
carico che ha 24 dati è possibile estrarre e riassumere in meno dati che abbia lo stesso contenuto
informativo.
Perché clusterizzare è importante? Clusterizzare è un modo per comprimere le informazioni. Invece
di portarmi dietro tante informazioni posso portarmi dietro un valore medio.
Clustrerizzare può servire come modello base per algoritmi di apprendimento.
Il terzo aspetto, un buon clustering ha potere predittivo.
Un quarto aspetto, è che si possono notare comportanti che uno non si aspettava.
Esistono due modi per allenare, il primo modo è quello supervisionato, in cui ad ogni informazione si
assume ad un etichetta, ovvero già l’assegnazione ad un gruppo.
In un algoritmo non supervisionato non si danno le etichette. O perché non si sanno o perché
vogliamo vedere cosa dice il nostro algoritmo.
Supponiamo di avere 4 dati, -3,-1,2,4. Il punto -3 è assegnato al centro -4 mentre gli altri sono
assegnati al centro 0.
Gli input sono intanto dei dati, tipo serie storica. Devo dirgli quanti sottogruppi voglio suddividere.
Questo è un modo per scrivere l’algoritmo.

È visto come un problema di ottimizzazione, si cerca di minimizzare la distanza tra tutti i punti e il
rispettivo centro.
Però ha un difetto, la soluzione non è unica, dipende dalle considerazioni iniziali. Dipende da dove si
mettono i centri dei cluster, a seconda di come si prendono possiamo avere risultati diversi.
Come si fa ad evitare di convergere ad un minimo locale invece che totale?
Lanciare l’algoritmo più volte e si prende la soluzione migliore o quella che avviene più spesso.
Come si sceglie il numero dei cluster?
Una risposta che non funziona sempre.
Si osserva il grafico a destra, ha un gomito. J (la funzione di distanza) diminuisce all’aumentare dei
gruppi, allora la distanza verrà zero se assegno un centro per ogni punto. C’è un valore di K in cui j è
sufficentemente basso.
Si fa un weep (spazzata) ovvero si manda k da 1 al massimo e si guarda quanto guadagna J di valore

per scegliere il valore ottimale.
A volte invece dell’algoritmo k-means viene utilizzato un algoritmo chiamatio FUZZY K means, la
differenza non si forza un punto a essere solo blku o rosso ma si dice quale è l grado di
appartenenza ad uno o l’altro. Questo è utile,
Si può dare un sottoinsieme dei dati per addestrare, questo si fa per diversi sottoinsieme con diversi
valori di k. Un aspetto che si nota è che la variazione standardd dei punti di j che si trova.
Quindi dati diversi gruppi si vede che k son sempre simili.

Qualche altro trucco aiuta a clusterizzare meglio.
Invece che classificare sui carichi giornalieri si porta dietro solo l’inizio del carico ovvero la morning
slow, si diminuisce il numero di variabili e in generale si ottengono soluzioni migliori.
Cluster annidato/gerarchico, invece di dividere i dati subito in n classi, prima si fa n-1 e poi un gruppo
di divide nuovamente.
Il carico come lo previdiamo?
Introduciamo il concetto di black box, metto gli ingressi e osservo l’uscita. Però non so cosa c’è
dentro , ovvero non conosco la fisica del sistema.
Sempre un metodo per fare previsioni.
Prende la previsione meteo di domani, guarda nel proprio databse un valore simile e lo assimila
come previsione. Cerca k istanze simile per fare la previsione.
Uno dei motivi per il quale è stato riscoperto più volte è che questo metodo funziona bene se il
database storico è molto grande.
Devo scegliere anche come dare i pesi ai vicini. Ovviamente darò più peso a quelli vicini.
Vediamo come si applica alla previsione del carico.

La validazione serve per imparare i meta parametri.
I metapraemtri riguardano proprio la scelta di quei parametri, tipo il numero di cluster, la distanza e
la ricomposizione (i pesi).
11/05
Pr
Per quanto riguarda la generazione di elettricità.
Per quanto riguarda la generazione da rinnovabile bisogna separare il fotovoltaico dall’eolico per la
diversa fisica che c’è dietro.
Ci sono differenti tipologie di impianti voltaici. Può essere diversa la dimensione ed anche la
tecnologia dell’impianto. A parità di tecnologia l’efficienza può non essere sempre la stessa.
Come facciamo a prevedere l’energia generata. Solar è sinonimo di pannello fotovoltaico.
Il vantaggio è che l’irradianza solare è possibile calcolarla in maniera determinata sapendo le

coordinate e l’ora. Quello che non si conosce è la variabile CSI clear sky index, tipicamente è una
percentuale. Se csi è 100% significa che l’irradianza è massima.
Quando si parla dell’irradianza, si intede GTI, tilted ovvero che è proiettata sui pannelli poiché non è
detto sia orizzontali. Global identifica il fatto che l’irradianza sul pannello è totale. Data come somma
di tutte le componenti in slide.
Questa slide è dedicata ai sensori. L’unica variabile di itneresse è l’irradianza che viene calcolata con
dei sensori. Un’alternativa è usare o una cella pilota o il satellite.
Questi sensori servono per andare a fare una stima, previsione della generazione.
Componenti dell’errori, quando si fa una previsione avrà due componenti dell’errore. La prima è
dovuta dal fatto che la previsione dell CSI non sarà mai perfetta e quindi faranno sbagliare la
previsione della produzione di energia elettrica. La seconda componente dell’errore intrinseci della
previsione.
Utilizzando i sensori si possono distinguere le componenti dell’errore, se utilizzando le previsioni si fa

un errore del 10% ed usando i dati veri l’errore scende del 5% allora le due componenti dell’errore
erano 50 e 50.
Gli algoritmi di previsione si distinguono in model base, in cui si sfrutta il principio fisico del
fotovoltaico.
Come ingressi ci sono le previsioni, temperatura dell’aria, vento ed umidità. Serve anche un modello
dell’impianto, inclusa di tecnologia.
Poi serve un modello dell’inverter perché da corrente continua si passa in alternata.
Questo modello non funziona, nel senso che le previsioni non sono accurate.
Mettendo insieme i vari errori di approssimazione l’accuratezza della previsione viene molto
approssimata.
Quale è l’alternativa?
Ignorare il tutto, immaginare un sistema dove abbiamo i nostri ingressi e l’uscita e poi cercare di
capire la relazione senza preoccuparci di cosa c’è dentro.
Si fa l’apprendimento a black box.
A volte viene utilizzata in letteratura il nome di data-driven ovvero che si apprende solo sulla base
dei dati.
Facendo cosi si riduce il numero di parametri rendendo molto più semplice allenare il modello.
Questo è un esempio.
Questo modello lineare, dobbiamo avere dei parametri.
Per sapere A B C e D dobbiamo fare una regressione lineare. Tipicamente D ha un impatto minore.
Solitamente non si mette la velocità del vento poiché è di difficile previsione.
Qui c’è un elenco dei problemi all’interno del fotovoltaico.
Qui una serie di algoritmi per analizzare pannelli fotovoltaici
È chiaro che come input ci sono i dati dell’irradianza.
Ensemble = utilizzare due previsioni e farne la media.
Ensemble cooperativo e competitivo.
La differenza è che il coop utilizza entrambe le previsioni per fornire una terza previsione.
Nel competitivo quello che succede è che una sola delle previsioni va avanti e tutte le altre la
perdono. Quello che può accadere è che un algoritmo funziona meglio sotto certe condizioni e un
altro in altre quindi pian piano prendo una volta l’uno e poi l’altro.
32 impianti a latitudini diverse con tecnologie diverse.
Qui c’è un confronto. Tra i vari metodi.
Confronto sull’anno. l’errore è basso, nei mesi invernali è facile prevedere la generazione.
Queste sono gli indici di perfomance o criteri di valutazione dell’errore.
P cappuccio è la stima o previsione mentre Pm è quella effettiva.
Quasi tutti gli errori sono normalizzati, perché dare una misura di per se significa poco se non
confrontato con l’impianto. Per questo motivo si ha bisogno di un valore assoluto.
In alcuni casi vogliamo mantenere il segno dell’errore, perché? Poiché è importante sapere se il
modello sottostima o sovrastima la previsione.
Ci sono casi in cui non si vuole normalizzare per avere una stima della grandezza dell’errore
commesso.
La differenza tra i primi due è che il primo tiene conto dell’errore non al quadrato , mentre il
secondo tiene conto del quadrato. Quindi errori maggiori li pesa di più.
Nel caso del fotovoltaico è sempre bene specificare se tenere conto o meno delle ore notturne.
Ci sono alcuni che preferiscono non considerarle poiché l’errore viene 0. Però l’indice viene diverso,
invece che divide per N=12 invecce che per N =24. Può sembrare che un modello sia il doppio più
perfomante invece ha solo un indicizzazione diversa.
Inoltre bisogna capire quali sono considerate le ore notturne?
Cambiano a calendario. La definizione di ore notturne è un po' contorta.
Due algoritmi sono confrontabili tra loro solo se si utilizza lo stesso indice N.
Questi sono grafici degli errori.
Perché siamo interessati a capire se l’errore ha un andamento gaussiano o no? perché l’errore
gaussiano è quasi pressoché ineliminabile.
La campagna degli errori può essere utile per vedere
-Se ci sono polarizzazioni (bias) che il valor medio non ha valor nullo
-Fare un test di gaussaniatà , per vedere se ha la forma di campana
-Vedere le code della pdf (densità di probabilità), per vedere se sono le frequenti gli errori che
vengono commessi sono rilevanti.
Se uno di questi test ha qualcosa di errato solitamente il modello ha qualcosa di sbagliato.

Qui gli errori compiuti dai vari algoritmi.
Uno può dire, a me sembra che gli algoritmi funzionino bene tutti. Qui si vedono le prestazione mese
per mese di ogni algoritmi.
Qui lo stesso confronto di prima. Qui è aggregato. Fatto confronto impianto per impianto.
Qui è per CSI.
Qui ci sono due tipologie di errore, di chi ha fatto le previsioni meteo e nostro che abbiamo fatto la
previsione su quelle previsioni.
Qui si può vedere l’impatto di avere i dati giusti. In questo caso quello che si è fatto è di utilizzare
l’irradianza calcolata dal satellite, che è misurata, ovviamente non si può fare la previsione poiché
sono dati reali. Ma se mi avessero dato quei dati, quale sarebbero l’errore da noi commesso?
L’errore sarebbe quello in curva tratteggiata. Si vede bene che se prima l’errore era del 2% ora è del
1%, ad esempio.
Avendo i dati giusti le previsioni sarebbero ancora migliori di quelle rappresentate perché che qui c’è
soltalto il grey box che non è il miglior algoritmo di previsione, se ci fosse stato l’ensamble sarebbero
state ancora migliori.
Il secondo motivo, anche il satellite sbaglia, ci sono sensori migliori, quindi la mia previsione
potrebbe essere migliore.
Il terzo motivo per il quale la curva scenderebbe , questo calcolo è un calcolo orario ovvero che
abbiamo un irradianza oraria, ciò comporta che se la andiamo a disegnare sul grafico tempo-GTI,
disegneremo una specie di campana. Quello che percepiamo come dati è che l’irradianza resti
costante tutta l’ora. È evidente che quando il CSI non è pari a 1, ci saranno variazioni significative
della irradianza. Qualunque sia il metodo si fanno comunque delle approssimazioni grossolane.
Se uno volesse ulteriore aumentare le previsioni, non servono migliori algoritmi o più parametri,
serve solo una previsione meteo migliore con una risoluzione maggiore.
Perché invece del satellite non si usano i piranometri? Che sono posti direttamente sugli impianti?
Semplicemente non li hanno dati questi dati.

Aldila della previsione fine a se stessa, è un problema interessante poiché legato anche alla
diagnostica.
Una semplice osservazione, gli impianti sono aumentati.
Tutto veniva mantenuto ad intervalli di tempo regolari, ora vogliamo fare una diagnostica pro attiva.
18/05
Ci sono sistemi scada, che rendono disponibili informazioni di prcesso. Si usano queste informazioni
per capire se il sistema funziona. Si cerca di capire se ci sono regioni x1 e x2 per classificare se il
sistema funziona bene o meno. Idealmente si traccia una retta che separa le regioni per classificare i
dati in una o l’altra regione.
Ci sono dei casi in cui la suddivisione in due casi non è sufficiente.

Si può dire che esiste una separazione lineare quando esiste una retta che separa i due tipi. Quando
saremo in più di due dimensioni si parla di iper piani.
Risolveremo questo problema come un problema di ottimizzazione.
Se il numero di equazioni è minore delle incognite troveremo tante combinazioni delle incognite che
generano infinite soluzioni.
Cerchiamo la migliore soluzione possibile .p erchè posso trovare un sacco di rette che dividono la
regione, quindi cerco quella che minimizza l’equazione sopra in slide. Scelgo quella che minimizza un
determinato indice.
Esiste una soluzione famosa, che dice, invece di cercare una retta ne cerco due che hanno le
seguenti caratteristiche
Che le due rette sono parallele , inoltre tutti i punti neri sono sopra una retta e gli altri sotto l’altra.
Tra le due rette parallele scelgo quella la cui distanza è massima. Dopodiche se ne voglio una prendo
la mediana.
Support vector Regresion SVR.

Essendo un algoritmo di ottimizzazione abbiamo un indice di costo ( chiamato cosi)
Perché l’indice di costo è w1^2 + w2^2? Se abbiamo un iperpiano significa che si massimizza la
distanza delle due rette. Questo indice che vogliamo minimizzare significa che i punti neri devono
stare sopra mentre i punti rossi sotto.
Ci sono dati in cui queste tecniche funzionano poco, non si riesce a dividere rossi e neri.
Qui ad esempio non possiamo troare una retta per separare questi due gruppi, è un problema non
lineaer.
Qui è quasi lineare.

Come si risolvono i problemi sopra esposti?
Quello che si fa, è che
Non si trovano valori di A e di b per cui si riescono a separare i rossi e i neri, quindi non c’è soluzione.
Il problema non ha soluzione perché i vincoli sono chiamati hard constriant. Si trasformano questi
hard constraint in soft constraint ovvero il vincolo Ax -b <= 0 diventa un problema con funziona
obiettivo
Min F(x) + lambda(Ax -b). il problema dei vincoli non ci sono più, però li abbiamo messi nella
funzione di costo. Funziona perché se andiamo a minimizzare tutto allora vorremo che AX -b sia
negativo. Se per alcuni valori AX -b nn può esssere negativo e non lo è, allora facciamo una
soluzione best effort.
Si trasgorma il problem di min vincolata in un problema senza vincoli penalizzandomi ogni volta che
il vincolo non è soddisfatto.
Vogliamo trovare una retta che genera un iperpiano separatore, più aumentano le dimensioni più
aumentalo le w. Un iperpiano divide lo spazio in due sotto spazi.
Il problema può essere formulato in maniera diversa, come una funzione.
Se ci troviamo in un piano n-dimensionale, quello che succede è che ci calcoliamo w1x1 fino a wnxn ,
e li sommiamo allora la nostra F è la funzione di attivazione , se il risultato è maggiore di 0
appartiene al cluster 1 altrimenti al cluster 2.
Qualcuno che ha gia studiato le reti neurali, avrà riconosciuto che l’annotazione è il formalismo che
viene utilizzato nelle reti neurali.
Questa teoria fallisce in casi di separazione non lineare.

Riusciamo ad estendere il formalismo visto prima per riuscire a separare i neri dai rossi?
Quello che possiamo fare è avere due sommatori e un’architettura più complicata, percjhè questa
rete neurale ha due strati (i primi due sigma e il secondo sigma). Vengono prima utilizzate le funzioni
di attivazione (sigma) una che coinvolge i pesi in verde ed una i pesi in rosso e poi vengono
risommate per ottenere una nuova uscita. Questa architettura è più ricca della precedente, ma
funziona?
Questo è il primo iperpiano che consideriamo. I punti neri sopra il piano hanno y1=1. Ma il problema
non è ancora stato risolto.
Al primo livello abbiamo anche un secondo iperpiano, i cui valori sopra hanno valore y2=1 e sotto
y2=-1. Quindi un piano da solo non è sufficiente.
Quello che succede è che i punti neri in alto hanno y1=y2=1, i punti rossi hanno y1= -1 e y2=1 infine i
punti neri in basso hanno y1=y2=-1. Succede che se questi punti li vado a disegnare nel piano y1 y2 i
punti diventano linearmente separabili.
I punti neri sono caratterizzati da entrambi i punti positivi o entrambi negativi. Cosi che possono
essere lineamente separati.
La morale è che può accadere che punti non linearmente separalibili, se si spostano su un piano
superiore allora possono essere linearmente separabili.
Quale è il prezzo che si paga?
La difficoltà di apprendimento, ovvero trovare gli iperpiano, significa calcolare i coefficenti e non è
facile. Calcolare in maniera efficiente quando il numero di strati è alto non è cosi facile.
Sostanzialmente in questa maniera si riescono a separare qualsiasi tipi di non linearità. Si cerca un
poliedro che contenga tutti i punti rossi.
A priori non si sa di quanti nodi sommatori abbiamo bisogno e di quanti strati. Le funzioni di
sommatoruia sono chiamati anche neuroni, sono neuroni attivi se il risultato è 1 altrimenti sono
disattivi.
Un altro trucco, per fare la separazione non lineare.
Alla fine con la rete neurale ottengo solo poligoni, ma se utilizzassi una linea curva?
Anche in questo caso, si aggiunge una terza dimensione non lineare.
21/05
È meglio avere tanti o pochi falsi positivi? Ad esempio se i falsi positivi sono guasti, qualcuno deve
andre a vedere e costa.
È facile usare questo teorema, p(a|b) significa probabilità di a sapendo che è accaduto b. bisogna
capire anzitutto chi è b e chi è a.
B , il sistema preditivvo ci segnala un errore.
A, c’è un errore nel sistema.
Quindi p(a|b) significa, quale è la probabilità che ci sia realmente un guasto sapendo che il sistema ci
ha detto che c’è un guasto?
Per vedere quanto fa, p(b|a) è la probabilità di sapere che la previsione ci dia un guasto sapendo che
c’è stato. Quanto vale? Equivale a 0,87. P(a) quanto è? 0,008. P(b) non l’abbiamo, allora come si fa a
calcolare p(b)? un modo per calcolarla è per marginalizzazione. Ovvero è la somma dei falsi e veri
negativi. La p(b) può essere rapprensentata tramite p(b|a)p(a) + p(b| non a)p(non a) [non a ovvero
che non si verifichi].
Però notiamo che il primo termine è uguale a quello sopra che abbiamo già calcolato. E p(b| non a) il
testo lo da, ovvero 0,023 mentre la p(non a) è 1-p(a). il totale viene circa 23%
Diamo un nome ai vari elementi che compaiono all’interno del teorema.
B è l’evidenza ovvero sappiamo che è avvenuto il fatto b. sulla base di questo dato si va a cambiare la
probabilità di a, chiamata probabilita a posteriori.
La p(a) è chiamata a priori perché è la probabilità di a prima che avvenisse b.
P(b|a) è chiamata verosimiglianza. Corrisponde a dire che ci aspettavamo che il problema ci desse un
fault.
Il termine al denominatore non prende nessun nome, fa solo che la p(a|b) sia una probabilità,
altrimenti potrebbe assumere valori maggiori di 1.
Spesso a noi non interessa il denominatore , perché rilassiamo il fatto che sono probabilità,
l’importanza è sapere se è un fault oppure no.
Quindi si usano le probabilità solo in maniera comparativa.

Come funziona una previsione? Questo aspetto lo possiamo vedere come un’applicazione ricorsiva,
cosi si padda da previsione puntuale, lo possiamo estendere ad una visione probabilistica. Questo è
molto più utile, in base alla densità di probabilità si può essere più o meno sicuri della previsione.
Ci sono due passi, uno è la predizione e l’altra la correzzione , la previsione è la previsione classica.
Dopo diche avviene la correzzione, in cui si aggiornano i parametri del modello e faccio una nuova
previsione. Non prevediamo solamente un solo K, si prevede tutta la probabilità.
È importante sapere l’affidabilità di una previsione.
Set_membership ovvero appartenenza ad un insieme o worst case, caso peggiore. Come funziona
questo approccio?
La potenza di p(k) viene generata tramite modelli di regressione. E si tiene conto di un errore e si
sovra stima e sotto stima la previsione di tot percentuale.
Come si fa a dire quale è il caso peggiore?
Il caso peggiore può essere stimato.
Un altro metodo sono le stime “montecarlo”. Come funzionano?
Invece di fare una sola stima, ne faccio molte. Dopo aver prodotto molti scenari posso vedere la
densità di probabilità. Ad ogni previsione aggiungo un errore.
Ho le previsioni delle ‘irradianza e i dati veri, mi vado a disegnare la densità di probabilità dell’errore
che viene commesso, e ad ogni nuova previsione ci aggiungo la campionatura dell’errore . cosi
ottengo una previsione probabilistica.
La formula che può essere utilizzata ha l’espressione sopra.
Non tutta la potenza dell’energia del vento può essere convertita. L’efficienza degli impianti si aggira
verso il 50%.
Uno può pensare che maggiore è la lunghezza delle pale maggiore è l’energia, è vero ma le turbine
devono essere distanti un tot a causa dell’effetto scia. Solitamente si considera una distanza cinque
volte il diametro.
Un altro aspetto è che maggiore è l’altezza della turbina maggiore è il vento.
Il primo problema è quello di identificare una curva caratteristica dell’energia generata.
Si può notare che c’è un sacco di rumore.
Perché ci interessa la curva? Per poter selezionare magari una turbina più idonea dell’altra.
Un altro aspetto è la previsione.
Queste curve vengono date da chi vende le pale eoliche.
Ci sono alcuni parametri
La velocitò di cut in, velocità minima del vento per la quale la turbina necessità per iniziare a girare.
Velocità di cut out, se la velocità del vento è troppo elevata viene fermata per evitare danni.
Dopo di che, c’è un intervallo che la turbina funziona a pieno regime, rated speed, abbiamo una
potenza in uscita pari a quella nominale.
C’è un range di valori del vento dove viene osservata , una rampa.
Se questa curva viene data, perché ci preoccupiamo di identificare la curva?
La curva dipende anche da alcune caratteristiche del luogo.
Ci sono altri aspetti, come usura, posizione delle pale, sporcizia. Ci sono una serie di fattori che fanno
si che la curva osservata è diversa da quella di fabbrica.
Un aspetto che si osserva, che se abbiamo diverse turbine nello stesso parco eolico, nonostante
questo ci potrebbero essere differenze tra le varie turbine.
Per avere la vera curva , bisogna simultaneamente la velocità del vento e la potenza generata. Per
quanto tempo? Per un tempo lungo a sufficienza per creare un db di diverse condizioni
atmosferiche. Deve essere lunga a sufficienza per avere tutte le velocità del vento.
Come si ottiene la curva?
Primo step eleminare tutti i dati sbagliati, o che vado a considerare outliears, è una fase critica
perché non ho la sicurezza che un dato sia giusto o sbagliato.
Una volta individuati le coppie che vale la pena portare avanti, bisogna trovare la cut in e la rated
speed. Dopo di che si attua un fitting ad esempio una regressione di terzo ordine.
Caso studio.
Se prendiamo una turbina possiamo vedere quanti casi cadano in un quadratino di griglia.
L’idea di base è di dire, i quadrati dove ci cadono pochi casi sono outliers gli altri li conservo. Quanti
quadrati faccio?
I quadrati hanno tutti la stessa area o li restringo secondo un criterio?
L’idea è di diminuire l’area, quindi più quadrati dove ci sono più dati.

Energia Sbobina Crisostomi

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Energia Sbobina Crisostomi

Caricato da

Copyright:

Formati disponibili

20/04

Interconnected, un oggetto è smart nel momento in cui è veramente interconnesso.

Bhe intanto rendere tutto disponibile online.

L’intelligenza potrebbe essere di monitorare i consumi elettrici in tempo reale.

Industria 4.0, è l’internet of things applicato all’industria.

La crescita della domanda di picco dell’energia elettrica ha superato la crescita dell’infrastruttura

Cosa si intende per rete inelligente?

SM, smart meter

Efficiente è la motivazione principale della smart grid.

Mercati P2P, peer to peer.

In questo caso si parla di smart energy system in maniera più ampia.

Indurre il consumatore ad avere comportamenti più virtuosi.

Ci son diversi pensieri che vanno dal bastone alla carota.

V2G veicle to grid,

Inoltre riprendendo il p2p è più fattibile perché la rete è più piccola.

L’idea della smart grid è di avere tante piccole smart grid.

Il primo vincolo è che l’energia consumata sia uguale a quella generata.

Anche gli accumuli hanno dei vincoli.

Tutti i problemi di ottimizzazione si possono risolvere in due modi

Una motivazione per studiare la predizione di serie storiche è questo.

L’alternativa è una soluizione istante per istante che è sub ottima.

Un’altra applicazione è quella legata al DSM.

Quali serie temporali occorrono?

Un’altra serie riguarda il carico elettrico. Ovvero generazione e consumo.

La generazione dell’eolico dipende da quanto vento c’è.

Come mai c’è un alta dispersione dei dati? Bho.

Oppure in maniera esplicita x(k) = 10 + 5K.

Quale è il modo alternativo per predire la serie temporale?

Avremo un polinomio , in questo caso, di cinque polinomi

A + A1*x1 + a2*x2 + a3*x3 + a4*x4 + a5*x5

Di per se possiamo trovare infinite soluzioni che interpolano quelle soluzioni.

Se la retta non passa per l’origine si chiama affine.

Cerchiamo di ottenere la retta migliore con un problema di ottimizzazione.

C’è anche un altro modo.

Questo problema viene chiamato “problema ai minimi quadrati”.

Greed search viene chiamata questa soluzione.

Questo campionamento ha uno svantaggio chiamato curse of dimensionality, poiché la complessità

X(x) è la pseudo inversa di X

Y = aX^2 diventa Y= a X* dove X^2 = X*.

Quindi rimane sempre lineare la relazione.

Possiamo trovare un polinomio che approssimi la regressione lineare.

È necessario continuare il preambolo di cosa significa fare una previsione.

U è il vettore di variabili di input.

Tipicamente abbiamo U,teta ma non xi.

Il problema non è semplice e non abbiamo la xi.

Prima di tutto bisogna capire quali sono le variabili di ingresso.

Poi dobbiamo scegliere teta.

Questa è una possibile procedura per risolvere il problema.

Quali dati del dataset uso per ogni gruppo?

Un potrebbe dire che

Y = mx +c è un caso particoalre di Y = ax^2 + bx +c , basta che a sia uguale a 0, ma il rischio è che

Anzitutto la fisica del sistema.

Poi ci sono esperienze degli altri da poter sfruttare.

I modelli overfittati hanno un alta varianza.

C’è qualche altro trucco per evitare l’overfitting.

Regolarizzazione significa che quando andiamo a risolvere il problema di ottimo, ai residui al

Intanto si nota un outlier.

Qui si vede come serie temporale.

Facciamo che i parametri dipendono dai giorni della settimana.

Clustrerizzare può servire come modello base per algoritmi di apprendimento.

Il terzo aspetto, un buon clustering ha potere predittivo.

Questo è un modo per scrivere l’algoritmo.

Come si fa ad evitare di convergere ad un minimo locale invece che totale?

Come si sceglie il numero dei cluster?

A + A1x1 + a2x2 + a3x3 + a4x4 + a5*x5