Sei sulla pagina 1di 27

Information and Communication Technology – Modulo n. 2 Pag.

Claudio CANCELLI
(www.claudiocancelli.it)

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 2

INDICE

INDICE DEI CONTENUTI


DOCUMENTO DI PROGRAMMAZIONE MODULARE ………………………………………. PAG. 3

1. SVILUPPO DELL’UNITA’ DI LAVORO X.1


X.1.1 - Conoscere il concetto di guasto, di errore e di servizio offerto …….. PAG. 5
X.1.2 - Conoscere e comprendere il significato di affidabilità, disponibilità,
guasto ed errore …………………………………………………………………………………………… PAG. 08
X.1.3 - Comprendere la rilevazione degli errori ed il trattamento del guasto PAG. 15
2. CONCLUSIONI ……………………………………………………………………………………………………….. PAG. 25

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 3

Modulo x: Le funzioni di Manutenzione


Modulo x.1: Introduzione alle funzioni di Manutenzione
Obiettivi di competenza finali attesi Cn = OBIETTIVI RELATIVI ALLE
1 – Saper comprendere la necessità e le funzionalità dell’HW e del SW CONOSCENZE (sapere nel senso di
necessari ad interpretare le funzioni di diagnostica nei sistemi di possedere conoscenze descrittive di
elaborazione con controllo a microprocessore (Esercizi da definire tipo formale/astratto)
con l’Unità di Lavoro x.2) Ab= OBIETTIVI RELATIVI ALLE
2 – Saper impostare i criteri di analisi e di progettazione per la ABILITA’ (saper fare, nel senso di
diagnosi di unità hardware duplicate (Esercizi da definire con saper utilizzare in concreto date
l’Unità di Lavoro x.2). Progettare l’hardware ed il software conoscenze)
necessari per il controllo del data bus di un sistema duplicato.
T => TEORIA -- P => PRATICA

Modalità di verifica, recupero ed approfondimento


Verifica in itenere (di tipo formativo), sommativa scritta alla
fine del modulo. Eventuale rivisitazione dei contenuti e
completamento. Eventuale approfondimento mirato ad ulteriori
esempi di analisi o di progetto. Verifica orale e scritta.
Recupero pomeridiano.

Unità di Lavoro x.1 – Introduzione Prerequisiti – Ottima conoscenza dei circuiti combinatori
alle funzioni di manutenzione (Modulo B) e dei circuiti sequenziali (Modulo D)
Obiettivi di Teoria Fondamentali Obiettivi di Laboratorio Fondamentali
CnT1-x.1.1 – Conoscere il concetto di Non previsti
servizio offerto da un sistema
CnT2-X.1.2 – Conoscere e comprendere il Obiettivi di Laboratorio Opzionali
significato di affidabilità, disponibilità, Non previsti
guasto ed errore
CnT3-X.1.3 – Comprendere le modalità di
rilevazione degli errori e di trattamento
del guasto
CnT4-X.1.4 – Introdurre il concetto di
manutenzione

Corrispondenze tra obiettivi e


verifiche
Da definire
Problemi
Da definire
Obiettivi di Teoria Opzionali
Non previsti
Modalità di verifica, recupero ed
approfondimento
Verifica formativa in itenere con esercizi
mirati alla valutazione delle conoscenze e
delle abilità, eventuale rivisitazione dei
contenuti; verifica scritta alla fine
dell’unità. L’eventuale approfondimento
mirato avverrà in itinere. L’eventuale
recupero sarà successivo alla verifica
scritta prevista con J.2. e comunque

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 4
previsto con n.ro 4 ore pomeridiane.

Unità di Lavoro x.2 – La simulazione Prerequisiti – Unità di Lavoro x.1 – – Introduzione alle
e la realizzazione funzioni di manutenzione
Obiettivi di Teoria Fondamentali Obiettivi di Laboratorio Fondamentali
AbT1–x.2.1 – saper progettare l’hardware AbL1–x.2.3 – progetto HW e verifica
di controllo degli errori sul bus dati AbL2–x.2.4 – progetto SW e verifica
AbT2–x.2.2 – saper implementare una Obiettivi di Laboratorio Opzionali
routine scritta con un linguaggio di alto Non previsti
livello
Obiettivi di Teoria Opzionali
CnT3-X.2.3 - Programmare un
microcontrollore con la routine scritta in
x.2.2
Corrispondenze tra obiettivi e
verifiche
Da definire
Modalità di verifica, recupero ed
approfondimento
Da definire

 
 

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 5

SVILUPPO DELL’UNITA’ DI LAVORO x.1 
CnT1 – x.1.1
Comprendere il concetto di servizio offerto da un sistema

Introduzione
Poniamoci le seguenti domande e cerchiamo di fornire risposte inerenti gli aspetti
legati alla sicurezza, all’affidabilità ed alla necessità di disporre dei servizi offerti
dall’apparato/sistema/gestore.
Evitiamo la fatica di ricercare la definizione di sistema e cerchiamo di dare un
significato al termine richiamando i concetti che ci saranno utili per la nostra
trattazione.
Esempio 1) Cosa succede il PC con il quale A
lavoriamo/giochiamo/comunichiamo tutti i giorni si guasta? E
se a guastarsi è il chip di memoria del PC presente nell’ufficio
dell’amministratore delegato di una multinazionale, quali
sarebbero le conseguenze?

RISPOSTE
……………………………………………………………………………………………………………

B …………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………

Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti in un


sottomarino (fino a 50 anni senza fare rifornimento) o su un aereo supersonico (~ 100
CPU). Lo potremmo tollerare?
C
RISPOSTE
………………………………………
………………………………………
………………………………………
………………………………………
………………………………………
………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 6

……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………

Esempio 3) E cosa succede se una centrale telefonica urbana va completamente


fuori servizio?

D
RISPOSTE
……………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………
………………………………………………………………………………………………

Esempio 4) E cosa dire di un satellite che viene progettato per una vita media di 8-
10 anni? E’ così grave che si renda inutilizzabile dopo un anno di vita per la presenza di
condizioni non previste nell’orbita geostazionaria?

RISPOSTE
……………………………………………………………………………………………………………………………………………………………
E ………………………………………………………………
………………………………………………………………
……………………………………..…………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………
………………………………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 7

Esempio 5) Non è finita: è così grave se durante il relax con la fase di


decompressione, l’applicazione domotica del tele-wc va fuori servizio?

RISPOSTE F
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………………………
……………………………………………………………………………..……………

Es. x.1.1) Ed ora come esercizio, in quali dei sistemi riportati in figura spendereste
dei quattrini per garantire l’eccellente funzionalità dell’elettronica presente in
ciascuno di essi?

H
G

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 8

CnT1 – x.1.2
Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed
errore

Definizioni e concetti
Prima di procedere è necessario che vengano chiariti alcuni significati di termini
abbastanza ricorrenti.

E’ la probabilità che un componente/apparato/sistema esegua correttamente una


funzione per un dato periodo di tempo e in condizioni di funzionamento
specificate senza evidenziare alcun malfunzionamento.
L’affidabilità (reliability) assicura quindi il corretto funzionamento del prodotto
durante il suo utilizzo.

Es. x.1.2) Una rete dati è composta da 5 router; l’affidabilità R(t) di ciascun
apparato è uguale a 0,99 in un anno. Vuol dire che ciascun apparato
funziona correttamente per il 99% del tempo.

Possiamo introdurre il concetto di:

come F(t) = 1- R(t). Per l’esempio risulta uguale a


1- 0,99 = 0,01. Ossia l’1% è la percentuale di fuori
servizio di ciascun apparato. Se in un anno risultano
60*24*365 = 525.600 minuti, risulta accettabile un
fuori servizio pari all’1%, ossia uguale a 14,4
minuti/giorno.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 9

La disponibilità è una funzione definita come la probabilità che il sistema


non mostri malfunzionamenti nell'istante in cui gli è richiesto di operare.

La disponibilità (Availability) si differenzia dall'affidabilità poiché quest'ultima è una


misura di corretto funzionamento in un intervallo, mentre la disponibilità è una misura
di corretto funzionamento ad un dato istante temporale.

Dopo aver analizzato gli esempi, possiamo pervenire ad una


considerazione:
se il sistema è così fondamentale da dover garantire
criteri economici, di sicurezza e di affidabilità
dobbiamo prevedere che la presenza di un guasto non incida sul
funzionamento complessivo dell’apparato o del sistema.

Per guasto si intende l’interruzione di una o più prestazioni funzionali offerte da un


dispositivo/apparato/sistema.

Il servizio e le prestazioni di molti sistema devono essere garantiti anche in presenza


di un guasto, tenendo comunque presente che i calcolatori impiegati nei Sistemi di
Elaborazione e di Controllo delle Informazioni e dei dati, non potranno mai essere in
nessun caso considerati assolutamente affidabili.

I calcolatori sono spesso alternativi all’uomo ed in molti casi lo supportano con


funzioni fondamentali per l’importanza economica e la sicurezza fisica delle persone.
Una situazione di guasto può provocare danni notevoli in termini economici e di vite
umane se non si giusta
da la
importanza al trattamento ed
alla loro prevenzione.
TASSO DI GUASTO

Al concetto di guasto è normalmente


associato il

TASSO DI GUASTO λ MORTALITA’


INFANTILE
VITA
UTILE USURA

definito come il numero di guasti TEMPO

nell’unità di tempo. Uno schema tipico


C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010
Information and Communication Technology – Modulo n. 2 Pag. 10

del tasso di guasto in funzione dell’età del componente è riportato in figura.


La relazione che esiste tra tasso di guasto ed affidabilità risulta:

-λt
R(t) = e
Es. x.1.3) Calcolare l’affidabilità di un componente a 3000 ore se il tasso di guasto
è pari a:
λ = 8*10-5 h -1 R(t) = 0,787 equivale alla probabilità del 78,7%
che il componente funzioni in tale arco di tempo.

Verificare a quanto ammonta la probabilità che il componente funzioni a 10.000 ore.

Ora introduciamo: Mean Time Between Failure – Ossia l’intervallo


MTBF   di tempo (medio) tra due guasti consecutivi, e si
calcola come MMTTBBFF == 11//λλ
Per l’esempio I.1.2 risulta un MTBF uguale a
12.500 ore.

Mean Time To Repair – Ossia l’intervallo di


MTTR   tempo medio necessario a riparare o sostituire
l’unità guasta.
Se μ è il tasso di riparabilità, risulta:
MMTTTTRR == 11//μμ
Ad esempio per μ = 0,03, risulta un MTTR
uguale a 30 secondi.

Mean Time To Failure – E’ il tempo atteso


MTTF   (valore medio) per la manifestazione del 1°
guasto. Si può calcolare come tempo cumulativo
di funzionamento di tutto il campione diviso il
n.ro di guasti.
Concludiamo l’argomento sull’affidabilità e sui guasti richiamando l’attenzione
sull’affidabilità di sistemi complessi che può essere calcolata individuando i
sottosistemi che li costituiscono e come sono collegati.
I due modelli utilizzati per valutare l’affidabilità di tali sistemi risultano i seguenti:

L’affidabilità totale del sistema è uguale al prodotto


Sistemi in Serie  delle affidabilità dei singoli componenti:

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 11

RS(t) = R1(t) * R2(t) * R3(t) *…..

e per n elementi uguali:

–nλt
RS(t) = e

All’aumentare dei componenti, cala l’affidabilità


del sistema, per cui, se il valore ottenuto non
soddisfa, dobbiamo usare componenti di migliore
qualità o trovare una soluzione che richieda meno
componenti.
Richiamando l’esempio I.1.2, se la comunicazione
coinvolge i 5 dispositivi, l’affidabilità complessiva
del sistema risulta pari a:

RS(t) = 0,99*0,99*0,99*0,99*0,99 = 0,9509

L’affidabilità totale del sistema è uguale a:


Sistemi in Parallelo 
RS(t) = 1 - [(1-R1(t))] * [(1-R2(t))] * ......

Per rendere il sistema non funzionante si devono


guastare tutti i componenti.
È una soluzione che prevede costi elevati perché
ogni componente deve garantire al sistema le
prestazioni richieste necessarie alla corretta
funzionalità. All’aumentare dei componenti,
aumenta l’affidabilità del sistema; se il valore
ottenuto non soddisfa, si devono usare
componenti di migliore qualità oppure aumentare
il numero dei componenti in parallelo.
Il sistema composto da due CPU con affidabilità pari a 0,999 comporta una
affidabilità totale pari a 0,999999.

Per concludere l’argomento solo un cenno all’o


orriiggiinnee ddeeii gguuaassttii che consente di
suddividerli nel modo seguente:

– Le cause fenomenologiche che implicano…


– …Guasti fisici (phisical faults ), dovuti a fenomeni fisici avversi;
– …Guasti causati dall’uomo (human–made faults ), dovuti all’imperfezione
umana;

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 12

– I confini del sistema che implicano…


– …Guasti interni (internal faults ), che sono parti dello stato del sistema che,
quando richiamate dall’attività di elaborazione, produrranno un errore;
– …Guasti esterni (external faults ), che derivano dall’interferenza
dell’ambiente fisico nel sistema (perturbazioni elettromagnetiche, radiazioni,
temperatura, vibrazioni, etc.) o dall’interazione con l’ambiente umano;
– La fase di creazione rispetto alla vita del sistema che implica…
– …Guasti di progetto (design faults ), che derivano da imperfezioni che si
verificano durante lo sviluppo del sistema o per modifiche successive;
– …Guasti operativi (operational faults ), che si verificano durante l’uso del
sistema.

… ed alla p
paattoollooggiiaa:
– Un guasto è attivo (active ) quando produce un errore. Un guasto attivo è o un
guasto interno che era in precedenza inattivo (dormant ) e che è stato attivato
dal processo di elaborazione, o un guasto esterno.

Es. x.1.4) Per quale motivo il sistema operativo di un processore presente in una
centrale di commutazione telefonica dovrebbe schedulare un programma
di diagnostica nei confronti della periferica che consente il load della
cassetta di back-up (programmi + data base), e non prevedere la
schedulazione del programma che diagnostica le linee d’abbonato.
……..…………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 13

E poi l’altro problema: è giusto affidarsi completamente alle risposte fornite dal
calcolatore?

Gli errori nei sistemi di calcolo si verificano e possono derivare da specifiche


ambigue o incomplete, da errori di progetto, da errori di programmazione, da
errori hardware, da errori di immissione dati o di interpretazione dei risultati

I progettisti hardware e software devono prevedere circostanze atipiche ed


ammettere/contenere l’errore dell’utente; occorre pianificare correttamente la fase
di testing : esistono software di supporto al debugging (correzione degli errori)

Nei confronti degli errori si usano le tecniche di

¾ Tecniche di rilevamento dell’errore — eerrrroorr ddeetteeccttiioonn


Una delle tecniche HW abbastanza diffuse consiste nel generare un bit di parità,
normalmente associato ad un byte, e rilevarlo a valle rilevando la correttezza o meno.

¾ Tecniche di correzione dell'errore — eerrrroorr ccoorrrreeccttiioonn


Una tecnica abbastanza utilizzata durante la trasmissione di informazioni consiste
nell’avere un meccanismo di rilevamento dell'errore che abbia capacità di
diagnosi, cioè che sappia indicare il punto in cui si è verificato un errore ed
intervenire predicendo il risultato.

Relazione tra guasti, errori e malfunzioni

GUASTO (FAULT) È la causa dell’errore

È la manifestazione
ERRORE (ERROR)
del guasto nel sistema

MALFUNZIONE È la manifestazione
C. Cancelli – Introduzione(FAILURE)
alle Funzioni di Manutenzione dell’erroreEd.
sul1.0 - Dicembre 2010
servizio
Information and Communication Technology – Modulo n. 2 Pag. 14

Le problematiche che si pongono quando bisogna garantire il funzionamento del


sistema secondo specifiche atte a garantire la corretta funzionalità risultano le
seguenti:
– Prevenzione dai guasti (fault pprreevveennttiioonn): come possono essere
prevenute le occorrenze di guasti;

Testing
Qualità

– Tolleranza ai guasti (fault tolerance): come garantire un servizio che


si mantenga conforme alle specifiche, nonostante i guasti;

Sovradimensionamento
Diagnostica

– Eliminazione del guasto (fault removal): come ridurre l'occorrenza


(numero, gravità) dei guasti;

Debugging HW e SW
– Predizione di guasti (fault
forecasting): come stimare il numero, la frequenza di incidenza,
presente e futura, e le conseguenze dei guasti.

Valutazione dei guasti inevitabili

In definitiva:

Se un guasto lo possiamo prevedere

.. lo possiamo rimuovere e gestire

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 15

Es. x.1.5) Facciamo riferimento all’esercizio precedente per introdurre il concetto


di Errore Latente ed Errore Rilevato.
¾ Un errore è llaatteennttee (latent) quando non è stato riconosciuto
dal μP
¾ un errore è rriilleevvaattoo (detected), quando un algoritmo o meccanismo
di rilevamento lo riconosce.

Come può un microprocessore non riconoscere un errore latente o


rilevarlo? (…… Interrupt mascherabili ……)

Es. x.1.6) Una domanda per voi. Tutti i guasti che possono capitare in un sistema
controllato da un microprocessore, si possono prevedere? In un sistema
controllato da un μp quali sono i guasti secondo te che non si possono
prevedere?
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………

CnT1 – x.1.3
Comprendere le modalità di rilevazione degli errori e di trattamento del guasto

In riferimento alla Tolleranza ai guasti (fault tolerance) valuteremo prima il


sovradimensionamento e quindi analizzeremo il trattamento e recupero dell’errore ed
il trattamento del guasto con casi concreti.

Esempio 6) Consideriamo lo schema seguente. Cosa capita se si verifica un guasto in


memoria, oppure un guasto alla CPU? Oppure su uno dei bus di interconnessione tra
memoria e CPU?

…………………………………………………………
…………………………………………………………
…………………………………………………………
CPU …………………………………………………………
…………………………………………………………
……………………

Se c’è bisogno che il sistema


garantisca una indisponibilità
max di 2 minuti, vi sembra che
questa soluzione possa
MEMORIA
C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010
Information and Communication Technology – Modulo n. 2 Pag. 16

soddisfare tale specifica? Poiché quindi non possiamo permetterci la situazione di


guasto né della CPU né della memoria , in quanto essendo UNITA’ SIMPLEX, mi
impedirebbero l’erogazione del servizio per un tempo superiore a 2 minuti, dobbiamo
pensare ad una struttura alternativa.

Dieci minuti di tempo per pensare.

Soluzioni……………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………

Analizziamo la soluzione seguente:

CPU

BUS ‘A’ BUS ‘B’

PWR ‘A’ PWR ‘B’

MEMORIA ‘A’ MEMORIA ‘B’

Con la memoria in configurazione DUPLEX. Se durante l’accesso della CPU in


memoria, verrà rilevato un guasto nel blocco di MEMORIA ‘B’, si può fare in modo che
tale unità venga isolata così che la CPU possa continuare a lavorare con la MEMORIA
‘A’ e garantire così la corretta funzionalità di tutto il sistema. I due blocchi di
memoria vengono alimentate da due fonti di alimentazione differente

Es. x.1.7) Dettagliare l’architettura esposta con la soluzione dell’esempio 1,


mettendo in evidenza l’Address Bus, il Data Bus ed il Control Bus. Pensa a

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 17

cosa deve avvenire durante l’operazione di lettura? E durante


l’operazione di scrittura?

CPU ?

BUS ‘A’ BUS ‘B’


A.B
D.B.
C.B

PWR ‘A’ PWR ‘B’

MEMORIA ‘A’ MEMORIA ‘B’

FROM μP

Operazione di
SCRITTURA

Buffer Buffer

BUS ‘A’ BUS ‘B’

TO μP

Operazione di
LETTURA
MUX

BUS ‘A’ BUS ‘B’

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 18

Es. x.1.8) Fate riferimento all’alimentazione della CPU. Con l’architettura precedente
c’è un grosso problema. Riguarda l’alimentazione. Come potrebbe essere superato?
La soluzione, in questo caso ve la fornisco io e la discutiamo assieme.

PWR ‘A’ PWR ‘B’


CPU CPU
‘A’ ‘B’
BUS ‘AL’ BUS ‘BL’

BUS ‘AR’ BUS ‘BR’

PWR ‘A’ PWR ‘B’

MEMORIA MEMORIA
‘A’ ‘B’

In assenza di guasti una CPU è attiva e l’altra è in stand-by. Le due memorie vengono
contemporaneamente sia scritte sia lette.

TRATTAMENTO DELL’ERRORE
Il trattamento dell’errore può essere eseguito per:

Rilevare l’errore e recuperarlo


con cui uno stato esente da errore viene sostituito allo stato erroneo. la sostituzione
può avvenire con:
• Recupero indietro, in cui la trasformazione dello stato erroneo consiste nel
riportare il sistema in uno stato precedente al verificarsi dell’errore Þ occorre
determinare un punto di recupero;
• Recupero in avanti, in cui la trasformazione dello stato erroneo consiste nell’evolvere
in un nuovo stato dal quale il sistema possa operare, eventualmente in modo degradato.

o compensarlo

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 19

consentendo per la presenza di ridondanza, di continuare a fornire un servizio esente


da errore a partire dallo stato erroneo.

Esempio x.1.9) Supponiamo che per un’operazione di scrittura la CPU ‘A’ acceda IN
memoria con il valore F0F4 sul bus dati. Unitamente a tale dato un ODD parity
generator sul byte basso (DPL) presente all’interno della CPU genera il valore 1 ed un
ODD parity generator sul byte alto (DPH) genera il valore 0. Il controllore di parità
presente nella scheda di memoria rileva 1 piuttosto che 0 sul bit DPH e genera un
interrrupt diretto al microprocessore tramite il Programmable Interrupt Controller.

CPU ‘A’ μP
INT

P.I.C.

DPL= 1
D.B. = F0F4
INTMA

PWR ‘A’ DPH= 0

MEMORIA ‘A’

Alarm Register
DPH ER

Es. x.1.9) Si riporti lo schema hardware che consenta la generazione di parità ed il


controllo di parità sul byte basso del Bus Dati. Si utilizzi il data sheet per il dettaglio
dei componenti che si intende utilizzare
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010
Information and Communication Technology – Modulo n. 2 Pag. 20

……………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………….

GESTIONE DEGLI INTERRUPT

Si riporta il diagramma che consente di comprendere il riconoscimento dell’errore


affidato alla priorità che il S.O. assegna ai vari programmi.
Mask Guasto
INTMA

Task 1 Task 2 Interrupt routine Task 3

Mask INT Remove Remove mask


mask INT INTMA

USER PROGRAM

Istante in cui il
guasto provoca
l’errore DPH-ER INTERRUPT HANDLER

Il S.O. consente il
riconoscimento
dell’Interrupt
i

i+1

TRATTAMENTO DEL GUASTO


Il primo passo nel trattamento del guasto è la diagnosi del guasto che
consiste nel determinare le cause degli errori, sia in termini di locazione che di natura.
del guasto. I programmi di diagnostica utilizzano normalmente registri di I/O non
mappati in memoria.
L’esempio precedente evidenzia il richiamo del programma di diagnostica che
consente di individuare l’unità minima guasta sulla quale si può intervenire con
operazioni di MANUTENZIONE CORRETTIVA.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 21

Si tenga presente che lo stesso programma può essere attivato dall’operatore od


anche schedulato per le operazioni di MANUTENZIONE PREVENTIVA, ed
evitare così che errori latenti considerati gravi non vengano subito riconosciuti per la
loro reale importanza.
Seguono poi le azioni tese a prevenire che il guasto sia nuovamente attivato,
tendendo a renderlo passivo mediante il processo di disattivazione del guasto.
Ciò consiste nel mettere FUORI SERVIZIO l’unità identificata guasta e non
richiamata più dagli User Program.
Infine se il sistema non è più in grado di fornire il servizio precedentemente
offerto, viene attivato il processo di riconfigurazione. Può essere ad esempio che
una copia da Stand-By diventi attiva.
L’ultimo tipologia è la MANUTENZIONE PREDITTIVA (o su condizione).
Gli interventi di manutenzione sono subordinati al rilievo, tramite misure dirette o
indirette (misure d'usura, di potenza assorbita, rumore, ...), del raggiungimento di una
soglia di probabilità del verificarsi di un guasto o malfunzionamento.
Con la manutenzione predittiva è possibile:

¾ rispetto alla manutenzione correttiva, evitare gli interventi di urgenza


seguendo l'evoluzione delle anomalie in modo da intervenire nelle condizioni
più favorevoli;
¾ rispetto alla manutenzione preventiva, evitare interventi anche quando
potrebbero non rivelarsi necessari in quanto potenziali fonti di ulteriori
avarie.

Dovevamo intervenire sul concetto di Manutenzione all’inizio di tale Unità Didattica,


ma nessuno di voi è intervenuto per chiederne il significato, vorrà dire che l’argomento
lo completeremo adesso, prima di farci gli auguri per le vacanze.
LA MANUTENZIONE - L'insieme di azioni che permette di mantenere o di
ristabilire un apparato/sistema/dispositivo in uno stato tale da assicurare il servizio
specificato.
Teniamo presente che la manutenzione ha normalmente impatto sulle aree:

Tecnica per la conoscenza necessaria dei sistemi da controllare, ...;

Economica: per le previsioni di investimenti, per i budget di spesa, ...;

Organizzativa: per la gestione lavoro, per la definizione


dell’organigramma, ….

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 22

DIAGNOSI DEL GUASTO


Una volta riconosciuto l’errore attraverso l’interrrupt, il microprocessore attiva
il programma di diagnosi per comprendere, possibilmente in modo più accurato, la
motivazione del guasto. Il primo test riguarda la verifica del Bus Dati. Avviene
scrivendo dei pattern (solitamente prima zero e poi uno) e verificando che non si
verifichi né un Ready Time Out e che il pattern letto corrisponda a quello scritto. Ciò
e realizzato tramite i Registri di Loop-Back. Un primo registro di Loop-Back è posto
nelle immediate vicinanze del microprocessore, l’ultimo in prossimità dell’unità
indirizzabile (Memoria o registro di I/O inerente una periferica).

Esempio x.1.11) Proviamo a scrivere sul DB il valore 0000 indirizzando il Loop-Back


Register #1. Supponiamo che il valore letto sia 0000. La funzione EX-OR con tutti 0
non evidenzia alcuna anomalia.

μP
Write Operation Read Operation

Loop-Back Register #1

D.B. = 0000 D.B. = 0000

EXOR (0000, 0000) = 0000

Ora con una seconda operazione sempre nei confronti dello stesso registro scriviamo
FFFF; se in lettura il dato è ancora FFFF, possiamo concludere che la parte tra il
microprocessore e la zona circoscritta da tale registro è PERFETTAMENTE
FUNZIONALE.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 23

μP
Write Operation Read Operation

Loop-Back Register #1

D.B. = FFFF D.B. = FFFF

EXOR (FFFF, FFFF) = 0000

Ora nel caso in cui l’operazione che prevede la scrittura di FFFF sul bus dati porti
come risultato di lettura un valore F7FF, ne risulta che la funzione EX-OR è pari a
0800 e quindi il bit 11 è il risultato dell’anomalia.

μP
Write Operation Read Operation

Loop-Back Register #1

D.B. = FFFF D.B. = F7FF

EXOR (FFFF, F7FF) = 0800

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 24

RICONFIGURAZIONE

Supponiamo che la CPU “A” sia attiva e che la CPU “B” sia in stand-by. Se la CPU “A”
rileva, durante l’accesso in memoria, un guasto nella MEMORIA “A”, una volta

PWR PWR ‘B’


CPU CPU
‘A’ ‘B’
Out of BUS ‘AL’ BUS ‘BL’
Service
BUS ‘AR’ BUS ‘BR’

PWR ‘A’ PWR ‘B’

MEMORIA MEMORIA
‘A’ ‘B’

riconosciuto l’errore, diagnostica l’unità sospetta guasta e se l’errore è realmente


presente la pone fuori servizio. La riconfigurazione consiste nel fatto cha da questo
momento la CPU “A” lavora non più in configurazione duplex nei confronti della
memoria bensì in simplex interfacciando solo la memoria “B” tramite il bus “AR”. Se
sussisteranno le condizioni per riparare la memoria “A” e se il guasto verrà rimosso la
CPU “A”, tramite una nuova riconfigurazione, interfaccerà entrambe le memoria e
riprenderà a lavorare in duplex.

Un altro esempio di guasto può riguardare la CPU “A” attiva. In tal caso la CPU “A”
informa la CPU “B” che cerca di riprendere il controllo della situazione corrente,
sempre che la CPU “A” sia stata nella condizione di memorizzare le informazioni
correnti (indirizzi, dati, etc..) prima di essere dichiarata fuori servizio. In tal caso la
CPU “B” riprende il programma esattamente dal punto di interruzione della CPU “A”.
Se ciò non dovesse essere possibile la CPU “B” riprende dal programma di boostrap
con una perdita di dati transitoria e parziale.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 25

PWR PWR ‘B’


CPU CPU
Out of ‘A’ ‘B’
Service BUS ‘AL’ BUS ‘BL’

BUS ‘AR’ BUS ‘BR’

PWR ‘A’ PWR ‘B’

MEMORIA MEMORIA
‘A’ ‘B’

6. CONCLUSIONI 

Con l’unità di lavoro x.1 sono stati messi in evidenza gli aspetti considerati
propedeutici per trattare con la successiva unità, x.2, un progetto Hardware o
Software relativo alla diagnostica di una unità sospetta guasta.

Si è così affrontato un argomento di estremo interesse per sistemi particolarmente


critici dal punto di vista della sicurezza e della affidabilità: la necessità di continuare
in real-time ad offrire i servizi anche in presenza di guasti. Ciò viene assicurando
rendendo ridontante l’hardware e prevedendo gli adeguati processi software per
riconoscere il guasto e riconfiurare il sistema.

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 26

ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ

Qualsiasi osservazione che possa contribuire a rendere il


documento più completo è ben accolta!

c.cancelli@tiscali.it
o
claudio.cancelli1@istruzione.it

ÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖÖ

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010


Information and Communication Technology – Modulo n. 2 Pag. 27

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010