Introduzione Alle Funzioni Di Manutenzione

Information and Communication Technology – Modulo n. 2 Pag.
Claudio CANCELLI
(www.claudiocancelli.it)
C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Information and Communication Technology – Modulo n. 2 Pag. 2
INDICE
INDICE DEI CONTENUTI

DOCUMENTO DI PROGRAMMAZIONE MODULARE ………………………………………. PAG. 3
1. SVILUPPO DELL’UNITA’ DI LAVORO X.1

X.1.1 - Conoscere il concetto di guasto, di errore e di servizio offerto …….. PAG. 5
X.1.2 - Conoscere e comprendere il significato di affidabilità, disponibilità,
guasto ed errore …………………………………………………………………………………………… PAG. 08
X.1.3 - Comprendere la rilevazione degli errori ed il trattamento del guasto PAG. 15
2. CONCLUSIONI ……………………………………………………………………………………………………….. PAG. 25

Modulo x: Le funzioni di Manutenzione

Modulo x.1: Introduzione alle funzioni di Manutenzione
Obiettivi di competenza finali attesi Cn = OBIETTIVI RELATIVI ALLE
1 – Saper comprendere la necessità e le funzionalità dell’HW e del SW CONOSCENZE (sapere nel senso di
necessari ad interpretare le funzioni di diagnostica nei sistemi di possedere conoscenze descrittive di
elaborazione con controllo a microprocessore (Esercizi da definire tipo formale/astratto)
con l’Unità di Lavoro x.2) Ab= OBIETTIVI RELATIVI ALLE
2 – Saper impostare i criteri di analisi e di progettazione per la ABILITA’ (saper fare, nel senso di
diagnosi di unità hardware duplicate (Esercizi da definire con saper utilizzare in concreto date
l’Unità di Lavoro x.2). Progettare l’hardware ed il software conoscenze)
necessari per il controllo del data bus di un sistema duplicato.
T => TEORIA -- P => PRATICA
Modalità di verifica, recupero ed approfondimento

Verifica in itenere (di tipo formativo), sommativa scritta alla
fine del modulo. Eventuale rivisitazione dei contenuti e
completamento. Eventuale approfondimento mirato ad ulteriori
esempi di analisi o di progetto. Verifica orale e scritta.
Recupero pomeridiano.
Unità di Lavoro x.1 – Introduzione Prerequisiti – Ottima conoscenza dei circuiti combinatori
alle funzioni di manutenzione (Modulo B) e dei circuiti sequenziali (Modulo D)
Obiettivi di Teoria Fondamentali Obiettivi di Laboratorio Fondamentali
CnT1-x.1.1 – Conoscere il concetto di Non previsti
servizio offerto da un sistema
CnT2-X.1.2 – Conoscere e comprendere il Obiettivi di Laboratorio Opzionali
significato di affidabilità, disponibilità, Non previsti
guasto ed errore
CnT3-X.1.3 – Comprendere le modalità di
rilevazione degli errori e di trattamento
del guasto
CnT4-X.1.4 – Introdurre il concetto di
manutenzione
Corrispondenze tra obiettivi e

verifiche
Da definire
Problemi
Da definire
Obiettivi di Teoria Opzionali
Non previsti
Modalità di verifica, recupero ed
approfondimento
Verifica formativa in itenere con esercizi
mirati alla valutazione delle conoscenze e
delle abilità, eventuale rivisitazione dei
contenuti; verifica scritta alla fine
dell’unità. L’eventuale approfondimento
mirato avverrà in itinere. L’eventuale
recupero sarà successivo alla verifica
scritta prevista con J.2. e comunque

previsto con n.ro 4 ore pomeridiane.
Unità di Lavoro x.2 – La simulazione Prerequisiti – Unità di Lavoro x.1 – – Introduzione alle
e la realizzazione funzioni di manutenzione
Obiettivi di Teoria Fondamentali Obiettivi di Laboratorio Fondamentali
AbT1–x.2.1 – saper progettare l’hardware AbL1–x.2.3 – progetto HW e verifica
di controllo degli errori sul bus dati AbL2–x.2.4 – progetto SW e verifica
AbT2–x.2.2 – saper implementare una Obiettivi di Laboratorio Opzionali
routine scritta con un linguaggio di alto Non previsti
livello
Obiettivi di Teoria Opzionali
CnT3-X.2.3 - Programmare un
microcontrollore con la routine scritta in
x.2.2
Corrispondenze tra obiettivi e
verifiche
Da definire
Modalità di verifica, recupero ed
approfondimento
Da definire


SVILUPPO DELL’UNITA’ DI LAVORO x.1
CnT1 – x.1.1
Comprendere il concetto di servizio offerto da un sistema
Introduzione
Poniamoci le seguenti domande e cerchiamo di fornire risposte inerenti gli aspetti
legati alla sicurezza, all’affidabilità ed alla necessità di disporre dei servizi offerti
dall’apparato/sistema/gestore.
Evitiamo la fatica di ricercare la definizione di sistema e cerchiamo di dare un
significato al termine richiamando i concetti che ci saranno utili per la nostra
trattazione.
Esempio 1) Cosa succede il PC con il quale A
lavoriamo/giochiamo/comunichiamo tutti i giorni si guasta? E
se a guastarsi è il chip di memoria del PC presente nell’ufficio
dell’amministratore delegato di una multinazionale, quali
sarebbero le conseguenze?
RISPOSTE
……………………………………………………………………………………………………………
B …………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti in un

sottomarino (fino a 50 anni senza fare rifornimento) o su un aereo supersonico (~ 100
CPU). Lo potremmo tollerare?
C
RISPOSTE
………………………………………
………………………………………
………………………………………
………………………………………
………………………………………
………………………………………

……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………
Esempio 3) E cosa succede se una centrale telefonica urbana va completamente

fuori servizio?
D
RISPOSTE
……………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
Esempio 4) E cosa dire di un satellite che viene progettato per una vita media di 8-
10 anni? E’ così grave che si renda inutilizzabile dopo un anno di vita per la presenza di
condizioni non previste nell’orbita geostazionaria?
RISPOSTE
……………………………………………………………………………………………………………………………………………………………
E ………………………………………………………………
………………………………………………………………
……………………………………..…………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………

Esempio 5) Non è finita: è così grave se durante il relax con la fase di

decompressione, l’applicazione domotica del tele-wc va fuori servizio?
RISPOSTE F
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………..……………
Es. x.1.1) Ed ora come esercizio, in quali dei sistemi riportati in figura spendereste
dei quattrini per garantire l’eccellente funzionalità dell’elettronica presente in
ciascuno di essi?
H
G

CnT1 – x.1.2
Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed
errore
Definizioni e concetti
Prima di procedere è necessario che vengano chiariti alcuni significati di termini
abbastanza ricorrenti.
E’ la probabilità che un componente/apparato/sistema esegua correttamente una

funzione per un dato periodo di tempo e in condizioni di funzionamento
specificate senza evidenziare alcun malfunzionamento.
L’affidabilità (reliability) assicura quindi il corretto funzionamento del prodotto
durante il suo utilizzo.
Es. x.1.2) Una rete dati è composta da 5 router; l’affidabilità R(t) di ciascun
apparato è uguale a 0,99 in un anno. Vuol dire che ciascun apparato
funziona correttamente per il 99% del tempo.
Possiamo introdurre il concetto di:
come F(t) = 1- R(t). Per l’esempio risulta uguale a

1- 0,99 = 0,01. Ossia l’1% è la percentuale di fuori
servizio di ciascun apparato. Se in un anno risultano
60*24*365 = 525.600 minuti, risulta accettabile un
fuori servizio pari all’1%, ossia uguale a 14,4
minuti/giorno.

La disponibilità è una funzione definita come la probabilità che il sistema

non mostri malfunzionamenti nell'istante in cui gli è richiesto di operare.
La disponibilità (Availability) si differenzia dall'affidabilità poiché quest'ultima è una

misura di corretto funzionamento in un intervallo, mentre la disponibilità è una misura
di corretto funzionamento ad un dato istante temporale.
Dopo aver analizzato gli esempi, possiamo pervenire ad una

considerazione:
se il sistema è così fondamentale da dover garantire
criteri economici, di sicurezza e di affidabilità
dobbiamo prevedere che la presenza di un guasto non incida sul
funzionamento complessivo dell’apparato o del sistema.
Per guasto si intende l’interruzione di una o più prestazioni funzionali offerte da un

dispositivo/apparato/sistema.
Il servizio e le prestazioni di molti sistema devono essere garantiti anche in presenza

di un guasto, tenendo comunque presente che i calcolatori impiegati nei Sistemi di
Elaborazione e di Controllo delle Informazioni e dei dati, non potranno mai essere in
nessun caso considerati assolutamente affidabili.
I calcolatori sono spesso alternativi all’uomo ed in molti casi lo supportano con

funzioni fondamentali per l’importanza economica e la sicurezza fisica delle persone.
Una situazione di guasto può provocare danni notevoli in termini economici e di vite
umane se non si giusta
da la
importanza al trattamento ed
alla loro prevenzione.
TASSO DI GUASTO
Al concetto di guasto è normalmente

associato il
TASSO DI GUASTO λ MORTALITA’

INFANTILE
VITA
UTILE USURA
definito come il numero di guasti TEMPO
nell’unità di tempo. Uno schema tipico

del tasso di guasto in funzione dell’età del componente è riportato in figura.

La relazione che esiste tra tasso di guasto ed affidabilità risulta:
-λt
R(t) = e
Es. x.1.3) Calcolare l’affidabilità di un componente a 3000 ore se il tasso di guasto
è pari a:
λ = 8*10-5 h -1 R(t) = 0,787 equivale alla probabilità del 78,7%
che il componente funzioni in tale arco di tempo.
Verificare a quanto ammonta la probabilità che il componente funzioni a 10.000 ore.
Ora introduciamo: Mean Time Between Failure – Ossia l’intervallo

MTBF di tempo (medio) tra due guasti consecutivi, e si
calcola come MMTTBBFF == 11//λλ
Per l’esempio I.1.2 risulta un MTBF uguale a
12.500 ore.
Mean Time To Repair – Ossia l’intervallo di

MTTR tempo medio necessario a riparare o sostituire
l’unità guasta.
Se μ è il tasso di riparabilità, risulta:
MMTTTTRR == 11//μμ
Ad esempio per μ = 0,03, risulta un MTTR
uguale a 30 secondi.
Mean Time To Failure – E’ il tempo atteso

MTTF (valore medio) per la manifestazione del 1°
guasto. Si può calcolare come tempo cumulativo
di funzionamento di tutto il campione diviso il
n.ro di guasti.
Concludiamo l’argomento sull’affidabilità e sui guasti richiamando l’attenzione
sull’affidabilità di sistemi complessi che può essere calcolata individuando i
sottosistemi che li costituiscono e come sono collegati.
I due modelli utilizzati per valutare l’affidabilità di tali sistemi risultano i seguenti:
L’affidabilità totale del sistema è uguale al prodotto

Sistemi in Serie delle affidabilità dei singoli componenti:

RS(t) = R1(t) * R2(t) * R3(t) *…..
e per n elementi uguali:
–nλt
RS(t) = e
All’aumentare dei componenti, cala l’affidabilità

del sistema, per cui, se il valore ottenuto non
soddisfa, dobbiamo usare componenti di migliore
qualità o trovare una soluzione che richieda meno
componenti.
Richiamando l’esempio I.1.2, se la comunicazione
coinvolge i 5 dispositivi, l’affidabilità complessiva
del sistema risulta pari a:
RS(t) = 0,99*0,99*0,99*0,99*0,99 = 0,9509
L’affidabilità totale del sistema è uguale a:

Sistemi in Parallelo
RS(t) = 1 - [(1-R1(t))] * [(1-R2(t))] * ......
Per rendere il sistema non funzionante si devono

guastare tutti i componenti.
È una soluzione che prevede costi elevati perché
ogni componente deve garantire al sistema le
prestazioni richieste necessarie alla corretta
funzionalità. All’aumentare dei componenti,
aumenta l’affidabilità del sistema; se il valore
ottenuto non soddisfa, si devono usare
componenti di migliore qualità oppure aumentare
il numero dei componenti in parallelo.
Il sistema composto da due CPU con affidabilità pari a 0,999 comporta una
affidabilità totale pari a 0,999999.
Per concludere l’argomento solo un cenno all’o

orriiggiinnee ddeeii gguuaassttii che consente di
suddividerli nel modo seguente:
– Le cause fenomenologiche che implicano…

– …Guasti fisici (phisical faults ), dovuti a fenomeni fisici avversi;
– …Guasti causati dall’uomo (human–made faults ), dovuti all’imperfezione
umana;

– I confini del sistema che implicano…

– …Guasti interni (internal faults ), che sono parti dello stato del sistema che,
quando richiamate dall’attività di elaborazione, produrranno un errore;
– …Guasti esterni (external faults ), che derivano dall’interferenza
dell’ambiente fisico nel sistema (perturbazioni elettromagnetiche, radiazioni,
temperatura, vibrazioni, etc.) o dall’interazione con l’ambiente umano;
– La fase di creazione rispetto alla vita del sistema che implica…
– …Guasti di progetto (design faults ), che derivano da imperfezioni che si
verificano durante lo sviluppo del sistema o per modifiche successive;
– …Guasti operativi (operational faults ), che si verificano durante l’uso del
sistema.
… ed alla p
paattoollooggiiaa:
– Un guasto è attivo (active ) quando produce un errore. Un guasto attivo è o un
guasto interno che era in precedenza inattivo (dormant ) e che è stato attivato
dal processo di elaborazione, o un guasto esterno.
Es. x.1.4) Per quale motivo il sistema operativo di un processore presente in una
centrale di commutazione telefonica dovrebbe schedulare un programma
di diagnostica nei confronti della periferica che consente il load della
cassetta di back-up (programmi + data base), e non prevedere la
schedulazione del programma che diagnostica le linee d’abbonato.
……..…………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………

E poi l’altro problema: è giusto affidarsi completamente alle risposte fornite dal
calcolatore?
Gli errori nei sistemi di calcolo si verificano e possono derivare da specifiche

ambigue o incomplete, da errori di progetto, da errori di programmazione, da
errori hardware, da errori di immissione dati o di interpretazione dei risultati
I progettisti hardware e software devono prevedere circostanze atipiche ed

ammettere/contenere l’errore dell’utente; occorre pianificare correttamente la fase
di testing : esistono software di supporto al debugging (correzione degli errori)
Nei confronti degli errori si usano le tecniche di
¾ Tecniche di rilevamento dell’errore — eerrrroorr ddeetteeccttiioonn

Una delle tecniche HW abbastanza diffuse consiste nel generare un bit di parità,
normalmente associato ad un byte, e rilevarlo a valle rilevando la correttezza o meno.
¾ Tecniche di correzione dell'errore — eerrrroorr ccoorrrreeccttiioonn

Una tecnica abbastanza utilizzata durante la trasmissione di informazioni consiste
nell’avere un meccanismo di rilevamento dell'errore che abbia capacità di
diagnosi, cioè che sappia indicare il punto in cui si è verificato un errore ed
intervenire predicendo il risultato.
Relazione tra guasti, errori e malfunzioni
GUASTO (FAULT) È la causa dell’errore
È la manifestazione
ERRORE (ERROR)
del guasto nel sistema
MALFUNZIONE È la manifestazione
C. Cancelli – Introduzione(FAILURE)
alle Funzioni di Manutenzione dell’erroreEd.
sul1.0 - Dicembre 2010
servizio
Le problematiche che si pongono quando bisogna garantire il funzionamento del

sistema secondo specifiche atte a garantire la corretta funzionalità risultano le
seguenti:
– Prevenzione dai guasti (fault pprreevveennttiioonn): come possono essere
prevenute le occorrenze di guasti;
Testing
Qualità
– Tolleranza ai guasti (fault tolerance): come garantire un servizio che

si mantenga conforme alle specifiche, nonostante i guasti;
Sovradimensionamento
Diagnostica
– Eliminazione del guasto (fault removal): come ridurre l'occorrenza

(numero, gravità) dei guasti;
Debugging HW e SW
– Predizione di guasti (fault
forecasting): come stimare il numero, la frequenza di incidenza,
presente e futura, e le conseguenze dei guasti.
Valutazione dei guasti inevitabili
In definitiva:
Se un guasto lo possiamo prevedere
.. lo possiamo rimuovere e gestire

Es. x.1.5) Facciamo riferimento all’esercizio precedente per introdurre il concetto

di Errore Latente ed Errore Rilevato.
¾ Un errore è llaatteennttee (latent) quando non è stato riconosciuto
dal μP
¾ un errore è rriilleevvaattoo (detected), quando un algoritmo o meccanismo
di rilevamento lo riconosce.
Come può un microprocessore non riconoscere un errore latente o

rilevarlo? (…… Interrupt mascherabili ……)
Es. x.1.6) Una domanda per voi. Tutti i guasti che possono capitare in un sistema
controllato da un microprocessore, si possono prevedere? In un sistema
controllato da un μp quali sono i guasti secondo te che non si possono
prevedere?
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
CnT1 – x.1.3
Comprendere le modalità di rilevazione degli errori e di trattamento del guasto
In riferimento alla Tolleranza ai guasti (fault tolerance) valuteremo prima il

sovradimensionamento e quindi analizzeremo il trattamento e recupero dell’errore ed
il trattamento del guasto con casi concreti.
Esempio 6) Consideriamo lo schema seguente. Cosa capita se si verifica un guasto in

memoria, oppure un guasto alla CPU? Oppure su uno dei bus di interconnessione tra
memoria e CPU?
…………………………………………………………
…………………………………………………………
…………………………………………………………
CPU …………………………………………………………
…………………………………………………………
……………………
Se c’è bisogno che il sistema

garantisca una indisponibilità
max di 2 minuti, vi sembra che
questa soluzione possa
MEMORIA
soddisfare tale specifica? Poiché quindi non possiamo permetterci la situazione di

guasto né della CPU né della memoria , in quanto essendo UNITA’ SIMPLEX, mi
impedirebbero l’erogazione del servizio per un tempo superiore a 2 minuti, dobbiamo
pensare ad una struttura alternativa.
Dieci minuti di tempo per pensare.
Soluzioni……………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
Analizziamo la soluzione seguente:
CPU
BUS ‘A’ BUS ‘B’
PWR ‘A’ PWR ‘B’
MEMORIA ‘A’ MEMORIA ‘B’
Con la memoria in configurazione DUPLEX. Se durante l’accesso della CPU in

memoria, verrà rilevato un guasto nel blocco di MEMORIA ‘B’, si può fare in modo che
tale unità venga isolata così che la CPU possa continuare a lavorare con la MEMORIA
‘A’ e garantire così la corretta funzionalità di tutto il sistema. I due blocchi di
memoria vengono alimentate da due fonti di alimentazione differente
Es. x.1.7) Dettagliare l’architettura esposta con la soluzione dell’esempio 1,

mettendo in evidenza l’Address Bus, il Data Bus ed il Control Bus. Pensa a

cosa deve avvenire durante l’operazione di lettura? E durante

l’operazione di scrittura?
CPU ?

A.B
D.B.
C.B
MEMORIA ‘A’ MEMORIA ‘B’
FROM μP
Operazione di
SCRITTURA
Buffer Buffer
TO μP
Operazione di
LETTURA
MUX

Es. x.1.8) Fate riferimento all’alimentazione della CPU. Con l’architettura precedente
c’è un grosso problema. Riguarda l’alimentazione. Come potrebbe essere superato?
La soluzione, in questo caso ve la fornisco io e la discutiamo assieme.

CPU CPU
‘A’ ‘B’
BUS ‘AL’ BUS ‘BL’
BUS ‘AR’ BUS ‘BR’
MEMORIA MEMORIA
‘A’ ‘B’
In assenza di guasti una CPU è attiva e l’altra è in stand-by. Le due memorie vengono
contemporaneamente sia scritte sia lette.
TRATTAMENTO DELL’ERRORE
Il trattamento dell’errore può essere eseguito per:
Rilevare l’errore e recuperarlo

con cui uno stato esente da errore viene sostituito allo stato erroneo. la sostituzione
può avvenire con:
• Recupero indietro, in cui la trasformazione dello stato erroneo consiste nel
riportare il sistema in uno stato precedente al verificarsi dell’errore Þ occorre
determinare un punto di recupero;
• Recupero in avanti, in cui la trasformazione dello stato erroneo consiste nell’evolvere
in un nuovo stato dal quale il sistema possa operare, eventualmente in modo degradato.
o compensarlo

consentendo per la presenza di ridondanza, di continuare a fornire un servizio esente

da errore a partire dallo stato erroneo.
Esempio x.1.9) Supponiamo che per un’operazione di scrittura la CPU ‘A’ acceda IN
memoria con il valore F0F4 sul bus dati. Unitamente a tale dato un ODD parity
generator sul byte basso (DPL) presente all’interno della CPU genera il valore 1 ed un
ODD parity generator sul byte alto (DPH) genera il valore 0. Il controllore di parità
presente nella scheda di memoria rileva 1 piuttosto che 0 sul bit DPH e genera un
interrrupt diretto al microprocessore tramite il Programmable Interrupt Controller.
CPU ‘A’ μP
INT
P.I.C.
DPL= 1
D.B. = F0F4
INTMA
PWR ‘A’ DPH= 0
MEMORIA ‘A’
Alarm Register
DPH ER
Es. x.1.9) Si riporti lo schema hardware che consenta la generazione di parità ed il

controllo di parità sul byte basso del Bus Dati. Si utilizzi il data sheet per il dettaglio
dei componenti che si intende utilizzare
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………….
GESTIONE DEGLI INTERRUPT
Si riporta il diagramma che consente di comprendere il riconoscimento dell’errore

affidato alla priorità che il S.O. assegna ai vari programmi.
Mask Guasto
INTMA
Task 1 Task 2 Interrupt routine Task 3
Mask INT Remove Remove mask

mask INT INTMA
USER PROGRAM
Istante in cui il
guasto provoca
l’errore DPH-ER INTERRUPT HANDLER
Il S.O. consente il
riconoscimento
dell’Interrupt
i
i+1
TRATTAMENTO DEL GUASTO

Il primo passo nel trattamento del guasto è la diagnosi del guasto che
consiste nel determinare le cause degli errori, sia in termini di locazione che di natura.
del guasto. I programmi di diagnostica utilizzano normalmente registri di I/O non
mappati in memoria.
L’esempio precedente evidenzia il richiamo del programma di diagnostica che
consente di individuare l’unità minima guasta sulla quale si può intervenire con
operazioni di MANUTENZIONE CORRETTIVA.

Si tenga presente che lo stesso programma può essere attivato dall’operatore od

anche schedulato per le operazioni di MANUTENZIONE PREVENTIVA, ed
evitare così che errori latenti considerati gravi non vengano subito riconosciuti per la
loro reale importanza.
Seguono poi le azioni tese a prevenire che il guasto sia nuovamente attivato,
tendendo a renderlo passivo mediante il processo di disattivazione del guasto.
Ciò consiste nel mettere FUORI SERVIZIO l’unità identificata guasta e non
richiamata più dagli User Program.
Infine se il sistema non è più in grado di fornire il servizio precedentemente
offerto, viene attivato il processo di riconfigurazione. Può essere ad esempio che
una copia da Stand-By diventi attiva.
L’ultimo tipologia è la MANUTENZIONE PREDITTIVA (o su condizione).
Gli interventi di manutenzione sono subordinati al rilievo, tramite misure dirette o
indirette (misure d'usura, di potenza assorbita, rumore, ...), del raggiungimento di una
soglia di probabilità del verificarsi di un guasto o malfunzionamento.
Con la manutenzione predittiva è possibile:
¾ rispetto alla manutenzione correttiva, evitare gli interventi di urgenza

seguendo l'evoluzione delle anomalie in modo da intervenire nelle condizioni
più favorevoli;
¾ rispetto alla manutenzione preventiva, evitare interventi anche quando
potrebbero non rivelarsi necessari in quanto potenziali fonti di ulteriori
avarie.
Dovevamo intervenire sul concetto di Manutenzione all’inizio di tale Unità Didattica,

ma nessuno di voi è intervenuto per chiederne il significato, vorrà dire che l’argomento
lo completeremo adesso, prima di farci gli auguri per le vacanze.
LA MANUTENZIONE - L'insieme di azioni che permette di mantenere o di
ristabilire un apparato/sistema/dispositivo in uno stato tale da assicurare il servizio
specificato.
Teniamo presente che la manutenzione ha normalmente impatto sulle aree:
Tecnica per la conoscenza necessaria dei sistemi da controllare, ...;
Economica: per le previsioni di investimenti, per i budget di spesa, ...;
Organizzativa: per la gestione lavoro, per la definizione

dell’organigramma, ….

DIAGNOSI DEL GUASTO

Una volta riconosciuto l’errore attraverso l’interrrupt, il microprocessore attiva
il programma di diagnosi per comprendere, possibilmente in modo più accurato, la
motivazione del guasto. Il primo test riguarda la verifica del Bus Dati. Avviene
scrivendo dei pattern (solitamente prima zero e poi uno) e verificando che non si
verifichi né un Ready Time Out e che il pattern letto corrisponda a quello scritto. Ciò
e realizzato tramite i Registri di Loop-Back. Un primo registro di Loop-Back è posto
nelle immediate vicinanze del microprocessore, l’ultimo in prossimità dell’unità
indirizzabile (Memoria o registro di I/O inerente una periferica).
Esempio x.1.11) Proviamo a scrivere sul DB il valore 0000 indirizzando il Loop-Back

Register #1. Supponiamo che il valore letto sia 0000. La funzione EX-OR con tutti 0
non evidenzia alcuna anomalia.
μP
Write Operation Read Operation
Loop-Back Register #1
D.B. = 0000 D.B. = 0000
EXOR (0000, 0000) = 0000
Ora con una seconda operazione sempre nei confronti dello stesso registro scriviamo
FFFF; se in lettura il dato è ancora FFFF, possiamo concludere che la parte tra il
microprocessore e la zona circoscritta da tale registro è PERFETTAMENTE
FUNZIONALE.

μP
D.B. = FFFF D.B. = FFFF
EXOR (FFFF, FFFF) = 0000
Ora nel caso in cui l’operazione che prevede la scrittura di FFFF sul bus dati porti
come risultato di lettura un valore F7FF, ne risulta che la funzione EX-OR è pari a
0800 e quindi il bit 11 è il risultato dell’anomalia.
μP
D.B. = FFFF D.B. = F7FF
EXOR (FFFF, F7FF) = 0800

RICONFIGURAZIONE
Supponiamo che la CPU “A” sia attiva e che la CPU “B” sia in stand-by. Se la CPU “A”
rileva, durante l’accesso in memoria, un guasto nella MEMORIA “A”, una volta
PWR PWR ‘B’

CPU CPU
‘A’ ‘B’
Out of BUS ‘AL’ BUS ‘BL’
Service
MEMORIA MEMORIA
‘A’ ‘B’
riconosciuto l’errore, diagnostica l’unità sospetta guasta e se l’errore è realmente

presente la pone fuori servizio. La riconfigurazione consiste nel fatto cha da questo
momento la CPU “A” lavora non più in configurazione duplex nei confronti della
memoria bensì in simplex interfacciando solo la memoria “B” tramite il bus “AR”. Se
sussisteranno le condizioni per riparare la memoria “A” e se il guasto verrà rimosso la
CPU “A”, tramite una nuova riconfigurazione, interfaccerà entrambe le memoria e
riprenderà a lavorare in duplex.
Un altro esempio di guasto può riguardare la CPU “A” attiva. In tal caso la CPU “A”
informa la CPU “B” che cerca di riprendere il controllo della situazione corrente,
sempre che la CPU “A” sia stata nella condizione di memorizzare le informazioni
correnti (indirizzi, dati, etc..) prima di essere dichiarata fuori servizio. In tal caso la
CPU “B” riprende il programma esattamente dal punto di interruzione della CPU “A”.
Se ciò non dovesse essere possibile la CPU “B” riprende dal programma di boostrap
con una perdita di dati transitoria e parziale.

PWR PWR ‘B’

CPU CPU
Out of ‘A’ ‘B’
Service BUS ‘AL’ BUS ‘BL’
MEMORIA MEMORIA
‘A’ ‘B’
6. CONCLUSIONI
Con l’unità di lavoro x.1 sono stati messi in evidenza gli aspetti considerati
propedeutici per trattare con la successiva unità, x.2, un progetto Hardware o
Software relativo alla diagnostica di una unità sospetta guasta.
Si è così affrontato un argomento di estremo interesse per sistemi particolarmente

critici dal punto di vista della sicurezza e della affidabilità: la necessità di continuare
in real-time ad offrire i servizi anche in presenza di guasti. Ciò viene assicurando
rendendo ridontante l’hardware e prevedendo gli adeguati processi software per
riconoscere il guasto e riconfiurare il sistema.

ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ
Qualsiasi osservazione che possa contribuire a rendere il

documento più completo è ben accolta!
c.cancelli@tiscali.it
o
claudio.cancelli1@istruzione.it
ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ


Introduzione Alle Funzioni Di Manutenzione

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Introduzione Alle Funzioni Di Manutenzione

Caricato da

Copyright:

Formati disponibili

Information and Communication Technology – Modulo n. 2 Pag.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

INDICE DEI CONTENUTI

1. SVILUPPO DELL’UNITA’ DI LAVORO X.1

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Modulo x: Le funzioni di Manutenzione

Modalità di verifica, recupero ed approfondimento

Corrispondenze tra obiettivi e

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti in un

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Esempio 3) E cosa succede se una centrale telefonica urbana va completamente

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Esempio 5) Non è finita: è così grave se durante il relax con la fase di

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

E’ la probabilità che un componente/apparato/sistema esegua correttamente una

Possiamo introdurre il concetto di:

come F(t) = 1- R(t). Per l’esempio risulta uguale a

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

La disponibilità è una funzione definita come la probabilità che il sistema

La disponibilità (Availability) si differenzia dall'affidabilità poiché quest'ultima è una

Dopo aver analizzato gli esempi, possiamo pervenire ad una

Per guasto si intende l’interruzione di una o più prestazioni funzionali offerte da un

Il servizio e le prestazioni di molti sistema devono essere garantiti anche in presenza

I calcolatori sono spesso alternativi all’uomo ed in molti casi lo supportano con

Al concetto di guasto è normalmente

TASSO DI GUASTO λ MORTALITA’

definito come il numero di guasti TEMPO

nell’unità di tempo. Uno schema tipico

del tasso di guasto in funzione dell’età del componente è riportato in figura.

Verificare a quanto ammonta la probabilità che il componente funzioni a 10.000 ore.

Ora introduciamo: Mean Time Between Failure – Ossia l’intervallo

Mean Time To Repair – Ossia l’intervallo di

Mean Time To Failure – E’ il tempo atteso

L’affidabilità totale del sistema è uguale al prodotto

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

RS(t) = R1(t) * R2(t) * R3(t) *…..

e per n elementi uguali:

All’aumentare dei componenti, cala l’affidabilità

RS(t) = 0,99*0,99*0,99*0,99*0,99 = 0,9509

L’affidabilità totale del sistema è uguale a:

Per rendere il sistema non funzionante si devono

Per concludere l’argomento solo un cenno all’o

– Le cause fenomenologiche che implicano…

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

– I confini del sistema che implicano…

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Gli errori nei sistemi di calcolo si verificano e possono derivare da specifiche

I progettisti hardware e software devono prevedere circostanze atipiche ed

Nei confronti degli errori si usano le tecniche di

¾ Tecniche di rilevamento dell’errore — eerrrroorr ddeetteeccttiioonn

¾ Tecniche di correzione dell'errore — eerrrroorr ccoorrrreeccttiioonn

Relazione tra guasti, errori e malfunzioni

GUASTO (FAULT) È la causa dell’errore

Le problematiche che si pongono quando bisogna garantire il funzionamento del

– Tolleranza ai guasti (fault tolerance): come garantire un servizio che

– Eliminazione del guasto (fault removal): come ridurre l'occorrenza

Valutazione dei guasti inevitabili

Se un guasto lo possiamo prevedere

.. lo possiamo rimuovere e gestire

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Es. x.1.5) Facciamo riferimento all’esercizio precedente per introdurre il concetto

RS(t) = 0,990,990,990,990,99 = 0,9509