RTP Corporation - Oltre La Tolleranza Ai Guasti

Oltre la tolleranza ai guasti: la terza generazione di SIS ottimizza
l’ integrità della sicurezza e la disponibilità’ operativa.
(di RTP Corporation, pubblicato su Chemical Engineering World ,OCTOBER 2009,
traduzione di Carlo LEBRUN, Ecisgroup SpA)
I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da acquistare,
realizzare e mantenere. I SIS tradizionali possono anche raggiungere un grado di
complessità che molti impianti, con il personale oggi ridotto al minimo, non possono
permettersi di gestire. I SIS fault tolerant di terza generazione SIS forniscono
integrità della sicurezza senza eguali e disponibilità operativa, con costi ridotti per
tutto il ciclo di vita, come i gestori di processi oggi si aspettano.

Quando la Triple Modular Redundancy (TMR) venne introdotta negli anni 80 ha rappresentato una pietra
miliare per i sistemi emergency shutdown (ESD), fornendo un altissimo livello di integrità’ e riducendo l’
impegno della manutenzione allo stesso tempo. Più’ tardi si inizio a chiamare questi sistemi con la sigla SIS
(Safety Instrumented Systems). I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da
acquistare, realizzare e modificare. I SIS tradizionali possono anche raggiungere un grado di complessità che
molti impianti, con il personale oggi ridotto al minimo, non possono permettersi di gestire.
Negli ultimi anni sono stati utilizzati diversi nuovi approcci. Questi includono nuovi sistemi integrati, che
usano la stessa piattaforma per SIS e DCS (Distributed Control System). Alcuni di questi sistemi integrati
usano l’ approccio della ridondanza, ed utilizzano più’ processori montati su un unico modulo comune.
Quando progettato ed installato correttamente questo tipo di sistema può’ aiutare a ridurre il costo del
ciclo di vita, pur fornendo il livello di integrità’ di sicurezza richiesto. Pero’, senza la ridondanza modulare, i
sistemi integrati non possono lontanamente raggiungere la tolleranza ai guasti dei sistemi TMR e non
possono essere riparati o aggiornati online.
Attualmente, è disponibile una terza opzione. Questa e’ conosciuta come terza generazione dei sistemi SIS
fault tolerant. Questi sistemi combinano strategie di ridondanza ben consolidate con architetture di sistema
più’ moderne e flessibili. I SIS fault tolerant di terza generazione SIS forniscono integrità della sicurezza
senza eguali e disponibilità operativa, con costi ridotti per tutto il ciclo di vita, come i gestori di processi
oggi si aspettano.
Perché’ i gestori di processi installano Sistemi di Sicurezza
Ogni operatore cerca di mantenere il processo il più’ sicuro possibile. Quando , nonostante questo , si
raggiunge una situazione di rischio, può’ essere necessario installare un SIS. Lo scopo primario di un SIS e’
portare il processo in condizioni di sicurezza. Preferibilmente il SIS non dovrebbe avere impatto sul
processo produttivo, pur rimanendo disponibile per intervenire quando necessario. Pero’ alcuni errori
interni possono provocare blocchi di sicurezza non realmente necessari (detti “ spuri”).
I blocchi di sicurezza sono progettati per prevenire incidenti costosi e pericolosi, ma comportano quasi
sempre sulla produzione la generazione di prodotti fuori specifica, oppure la perdita di produzione, oppure
il blocco totale. Quando il SIS interviene per rispondere alle condizioni di emergenza, il blocco di sicurezza
e’ necessario e’ quindi pienamente giustificato. I blocchi spuri, dovuti ad errori di sistema, non sono invece
assolutamente giustificabili.
Questi blocchi spuri non solo sono estremamente costosi, ma possono addirittura generare di per se’
situazioni pericolose. Questo perché’ le condizioni di startup e shutdown, specialmente quando non
programmate, sono quelle in cui accadono il maggior numero di incidenti.
Disponibilità’ della sicurezza e disponibilità’ operativa
I sistemi di sicurezza operano tipicamente in maniera indipendente dal sistema di controllo di base, e
richiedono un livello maggiore di integrità’ , ovvero di disponibilità’ della sicurezza. La disponibilità’ della
sicurezza implica la capacita’ del SIS di svolgere la funzione di sicurezza appropriata , quando il processo lo
richiede. Si misura in termini di media della probabilità’ di guasto su richiesta “Probability of Failure upon
Demand” (PFDavg).
Safety Integrity Levels
Il livello di disponibilità’ della sicurezza richiesto (SIL) per ogni singola logica di protezione (SIF), dipende da
un processo formale di analisi dei rischi. Per raffinerie ed impianti chimici il valore richiesto può’
tipicamente variare tra SIL 1 e SIL 3. Ogni valore di SIL successivo corrisponde ad un ordine di grandezza
superiore nella riduzione del rischio. I valori di SIL richiesti si raggiungono con una combinazione di qualità’
dei componenti e la loro ridondanza, diagnostica interna, test periodici, stima dei tempi di riparazione,
riduzione delle cause di guasto comune, e comprovato buon utilizzo in campo. Gli attuali standard di IEC e
ISA si concentrano sulle caratteristiche necessarie per ottenere il SIL desiderato.
Il modo in cui raggiungere il SIL richiesto e’ lasciato alla scelte del progettista e dell’ utilizzatore. Negli USA
la conformità’ a questi standard e’ assolutamente opzionale, e dipende dalle filosofie operative di ciascun
utilizzatore. In Europa ed alcune altre aree la conformità’ con norme e standard di sicurezza e’ obbligatoria
per legge.
Purtroppo la frequenza di blocchi spuri , o qualunque altro aspetto che può’ influire negativamente sulla
disponibilità’ operativa, ha un impatto trascurabile o nullo sui calcoli della PFD avg. Questo avviene perché’
gli standard attuali sono interessati esclusivamente a valutare la disponibilità’ del SIS per attuare la
funzione di sicurezza quando richiesto. I blocchi spuri sono considerati solo per quanto concerne la
sicurezza nell’ effettuare il blocco.
Possiamo senz’ altro dire che la disponibilità’ operativa e’ di scarso interesse per gli enti che stabiliscono
norme e linee guida. Eppure gli utilizzatori sono interessati a mantenere il livello più’ alto possibile di
disponibilità’ operativa.
Per la conformità’ con gli standard ISA/IEC sui sistemi di sicurezza, i guasti di un sistema devono essere
identificati e riparati entro un tempo piuttosto breve. Se il modulo coinvolto non può’ essere riparato o
sostituito in linea, e’ necessario programmare immediatamente un blocco della produzione per poter
procedere alla riparazione. Modifiche, aggiornamenti, e test periodici del SIS devono anch’ essi essere
programmati durante i blocchi della produzione, aggiungendo ulteriori impegni al personale di impianto,
che già’ solitamente lavora sotto pressione, durante queste interruzioni.
Tecnologia TMR della prima generazione
L’ approccio della ridondanza per tollerare i guasti, sviluppato per l’ industria aerospaziale, ha portato all’
introduzione della prima generazione di sistemi TMR (Triple Modular Redundant). Questi sono
essenzialmente dei PLC triplicati, che usano il sistema di voting due su tre (2003) prima di decidere sulla
necessita’ di effettuare un blocco di sicurezza. Questi sistemi si considerano fault‐tolerant perché’
continuano a funzionare (seppur in modalità’ degradata) anche quando e’ stato identificato un guasto di
uno dei moduli. Naturalmente anche l’ architettura hardware dei i moduli di ingresso / uscita deve
assicurare un livello di tolleranza ai guasti adeguato per il sensore e l’ elemento finale della logica SIF di
protezione completa.
Questa architettura fault‐tolerant TMR con voting 2003 voting assicura un alto livello di disponibilità’
operativa, dato che l’ intervento di blocchi spuri dovuti a guasti di sistema e’ fortemente limitato.
La prima generazione di sistemi TMR e’ stata creata prima della definizione degli standard internazionali di
riferimento disponibili oggi. In origine era stata progettata per fornire maggiore disponibilità’ operativa,
mantenendo la funzionalità’ di sicurezza richiesta. Con l’ introduzione degli standard internazionali i sistemi
della prima generazione sono stati modificati per raggiungere la conformità’ con le norme. In qualche caso
le norme richieste non potevano essere soddisfatte, costringendo gli utilizzatori ad aggiungere dispositivi di
protezione aggiuntivi esterni al sistema stesso.
In ogni caso, le norme richiedono che qualunque guasto, anche in un sistema triplicato, venga riparato in un
intervallo di tempo definito. L’ MTTR (Mean Time To Repair o Mean Time To Restore) e’ uno dei parametri
che concorrono alla certificazione SIL di una certa configurazione del SIS. Cosi’ se il componente difettoso
non può’ essere riparato online, occorre attuare una interruzione non programmata della produzione. Di
solito questo non costituisce un problema per i sistemi TMR di prima generazione, ma la seconda
generazione non ha in realtà’ peggiorato praticamente questo aspetto. I blocchi non previsti comportano
perdite nella produzione, e questo può’ costare parecchio agli utilizzatori, fino ad abbattere il profitto
mensile. Con i sistemi di prima generazione le limitazioni imposte alle modifiche online costringevano
talvolta a programmare delle interruzioni della produzione che avrebbero potuto altrimenti essere evitate.
Sistemi SIS della seconda generazione
Con l’ avanzare della tecnologia, nuovi sistemi SIS sono apparsi sul mercato. Grazie al progresso di questi
sistemi sono cresciute significativamente le capacita’ diagnostiche. E grazie a queste capacita’ diagnostiche
aggiuntive molti prodotti smisero di offrire la ridondanza tripla TMR, considerandola come obsoleta. In
molti casi i sistemi non offrivano neppure la normale ridondanza. Questo provoco’ un problema che non
esisteva nella prima generazione: dato che il SIS e’ singolo, non può’ essere riparato in linea. La conformità’
con lo standard ISA84 implicava perciò’ che qualunque guasto richiedesse di effettuare una interruzione
della produzione.
Oltre a questo la seconda generazione ha introdotto nuove architetture ridondate con schemi 1oo2 e 2oo4.
Seppur con qualche limitazione questi sistemi funzionano piuttosto bene. Il problema di questa
generazione non e’ ne’ la diagnostica ne’ la ridondanza, o la mancanza di questa. Il problema e’ in realtà’
nell’ obiettivo. Questi sistemi sono stati progettati per migliorare quelli di prima generazione. I sistemi di
terza generazione sono stati progettati invece per fornire la massima sicurezza all’ utilizzatore, ed al tempo
stesso la massima disponibilità’.
Terza generazione di sistemi FaultTolerant
L’ ultima generazione di sistemi fault‐tolerant non ridondanti e con ridondanza doppia e tripla modulare,
combina i benefici della prima e della seconda generazione, migliorando ulteriormente la diagnostica, l’
integrità’ della sicurezza, e la disponibilità’ operativa, ed abbassando significativamente i costi del ciclo di
vita. Questo risultato e’ stato raggiunto realizzando nuovi approcci alla ridondanza, migliorando la
copertura diagnostica con migliori prestazioni di calcolo e comunicazione, e migliorando le capacita’ di
riparazione, modifica, ed aggiornamento online. L’ obiettivo di questa generazione di sistemi non e’ stato
un piccolo miglioramento delle prestazioni precedenti , ma fornire all’ utilizzatore la migliore protezione
contro il rischio di processo possibile con la minima interferenza sulla capacita’ produttiva.
Inoltre, a differenza delle precedenti generazioni di sistemi di sicurezza, i nuovi sistemi simplex, o ridondati
doppi e tripli possono raggiungere la certificazione SIL cosi’ come sono prodotti, senza richiedere
personalizzazioni, e senza restrizioni imposte dagli enti di certificazione.
Il risultato finale e’ che i sistemi di terza generazione possono fornire significativi aumenti di integrità’ e
disponibilità’ rispetto a quelli di prima o seconda. Con valori di integrità’ oltre 99.9999 % (sei nove!)
quando configurati con ridondanza tripla, i SIS di terza generazione possono eliminare buona parte dei
guasti attribuibili al sistema di controllo, portando la disponibilità’ operativa oltre i 2000 anni.
Con i sistemi di sicurezza di terza generazione ogni guasto e’ automaticamente identificato dal sistema
senza il bisogno di applicazioni sviluppate dall’ utente. Con la configurazione TMR questi sistemi potranno
continuare ad operare in sicurezza anche in presenza di un singolo guasto, ed in molti casi anche in
presenza di più’ guasti. Al contrario di precedenti soluzioni basate su PLC, i sistemi TMR di terza
generazione si portano sempre in condizioni di sicurezza, anche in presenza di guasti multipli.
Approcci più’ robusti e flessibili alla ridondanza
I sistemi TMR tradizionali sono piuttosto rigidi sulla ridondanza, dato che l’ architettura e’ imposta dal
produttore. Con i sistemi di terza generazione il livello di ridondanza può’ essere completamente definito
dall’ utilizzatore. Questa libertà’ include la possibilità’ di scegliere una ridondanza nulla, doppia o tripla per
ogni singola logica di protezione SIF. I livelli di ridondanza degli ingressi ed uscite possono essere definiti via
software punto per punto. Un ingresso o un’ uscita può’ essere collegato ad un solo ingresso su una singola
scheda, o a più’ ingressi della stessa scheda, o a schede diverse montate in chassis diversi. Questo permette
all’ utente di sintonizzare l’ esatto livello di ridondanza e tolleranza ai guasti richiesto su vari livelli all’
interno di un solo sistema. La ridondanza e’ gestita dal sistema, in maniera trasparente per l’ utilizzatore.
Nei sistemi TMR di prima generazione le tre CPU sono montate sulla stessa scheda. Questo rende possibile
un danno fisico a tutte e tre causato da un solo incidente (come quando un muletto guidato con poca cura
finisce contro l’ armadio che contiene il sistema). Nei sistemi di terza generazione le CPU doppie e triple
possono essere montate in chassis diversi o addirittura in armadi diversi, a discrezione dell’ utilizzatore. La
comunicazione ridondante tra i componenti del sistema riduce le possibilità’ che un singolo guasto
comporti la perdita di produzione.
Miglioramento della copertura diagnostica e della verifica dei guasti
I sistemi TMR di terza generazione offrono tipicamente un aumento della copertura diagnostica, rispetto
alla prima o alla seconda generazione. L’ estesa copertura diagnostica integrata identifica immediatamente
un guasto in qualunque dei componenti sostituibili in campo. La verifica diagnostica viene eseguita ad
ogni ciclo di calcolo: integrità’ della CPU; integrità’ della comunicazione; integrità’ della piastra di supporto;
integrità’ dei fili verso il/dal campo; interfaccia con le schede di input/output. L’ attuazione forzata della
diagnostica assicura che le verifiche stanno funzionando correttamente, ed il sistema può’ quindi rimanere
in esercizio.
Secondo le stringenti normative di oggi, il test funzionale del SIS e’ richiesto periodicamente, per
identificare eventuali guasti latenti, in modo da isolarli ed intervenire prima che possono compromettere la
funzionalità’ di sicurezza . Con i sistemi TMR convenzionali e’ spesso necessario sviluppare applicazioni
software aggiuntive, per poter effettuare la verifica funzionale, ed analizzare il risultato. Invece con i sistemi
di terza generazione, la verifica funzionale del SIS fa’ parte del sistema stesso e può’ essere eseguita dall’
utilizzatore nel proprio sito. In alcuni casi e’ sufficiente togliere l’ alimentazione al logic solver e quindi
fornirla di nuovo.
L’ aumentata copertura e l’ aumentata frequenza con cui i sistemi di terza generazione eseguono le
verifiche diagnostiche serve anche a ridurre la frequenza richiesta per la verifica funzionale completa
necessaria per mantenere la certificazione SIL, riducendo ulteriormente la indisponibilità’ operativa. In
alcuni casi i tempi di verifica del logic solver possono raggiungere i dieci anni, permettendo la massima
flessibilità e trasformando la prova funzionale da un grosso problema operativo ad una banale routine, per
chi si occupa di mantenere la certificazione SIL.
L’ aumentata copertura diagnostica migliora anche la disponibilità’ operativa attraverso l’ identificazione
dei guasti ed errori che potrebbero provocare un blocco spurio prima che questo di fatto avvenga. In
questo modo la diagnostica contribuisce ad evitare i blocchi spuri e migliorare la disponibilità’ operativa e
mantenere cosi’ la remunerati vita’ dell’ impianto.
Per assicurare l’ integrità’ del SIS diverse complesse applicazioni di monitoraggio degli errori sono utilizzate
continuamente per testare tutte le componenti hardware, la comunicazione, ed i calcoli. I cavi dai
trasmettitori e verso gli attuatori, i moduli di interfaccia I/O, l’ integrità’ del processore , l’ integrità’ della
scheda madre, e la comunicazione sono verificati ad ogni ciclo macchina. I dati vengono trasferiti solo dopo
che sia l’ ingresso che l’ uscita sono state verificate. Watchdog e temporizzatori hardware e software, con
basi temporali diverse, verificano la normale esecuzione del software
Migliore performance
La legge di Moore dice che la capacita’ di calcolo cresce con grande rapidità’ , da quando sono stati
introdotti i sistemi della prima generazione. I microprocessori sono diventati più’ piccoli, più’ potenti, e più’
efficienti. Progressi enormi sono stati fatti anche nel campo del calcolo parallelo, e questo permette a più’
processori di lavorare insieme per eseguire calcoli sempre più’ complessi, a velocità’ molto maggiori di
calcolatori individuali molto più’ grandi e costosi. Questa e’ la ragione per cui la ultima tendenza dei
supercomputer e’ verso il calcolo parallelo.
In contrasto con le prime due generazioni, che erano progettate per lavorare in serie, eseguendo un
processo per volta, i SIS della terza generazione possono avere cento o più’ processori che lavorano in
parallelo, migliorando drammaticamente le prestazioni di elaborazione, comunicazione, e scansione di I/O.
Il potere di calcolo disponibile oggi permette di eseguire più’ di 500 control loops ogni 10 msec, con un
tempo di reazione di 25 msec. Questo include la scansione degli I/O, l’ elaborazione della logica, e la
gestione degli allarmi, cosi’ come le funzioni di comunicazione peer‐to‐peer ed altre. Questo al confronto
del tipico tempo di reazione di un sistema di prima generazione di 200‐500 msec.
Riparazioni, modifiche ed aggiornamenti online senza limitazioni
La riparabilità’ online e’ data dalla possibilità’ di sostituire moduli difettosi con moduli funzionanti senza
interferire con il processo di produzione. Questo e’ molto importante per tutti i sistemi mission‐critical, ma
ancora di più’ per i sistemi di sicurezza. Tutti i sistemi ridondati (doppi o tripli) offrono in una certa misura
la riparabilità’ online. Pero’ non e’ chiaro come la sostituzione può’ essere effettuata in sicurezza per i
sistemi non ridondati, dato che questi non hanno nessuna unita’ di backup per effettuare l’ intervento di
una logica SIF quando il modulo difettoso e’ in sostituzione. Quindi, anche se il sistema può’ continuare ad
operare in presenza di un singolo guasto, un’ interruzione della produzione e’ necessaria per permettere la
sostituzione del modulo entro il Mean Time to Repair (MTTR) stabilito.
Per poter effettuare la riparazione online di una scheda, nei sistemi convenzionali occorre normalmente
mantenere libero uno slot ogni due, per poter inserire un modulo di ricambio. Questo fattore aumenta il
numero di rack richiesti, e quindi lo spazio necessario per il sistema. Con i sistemi di terza generazione
invece, e’ possibile usare qualunque slot libero, ed il modulo difettoso può’ essere rimosso e sostituito
sotto tensione senza interrompere la produzione. In combinazione con le capacita’ diagnostiche, la
capacita’ di sostituzione “a caldo” determina il Mean Time to Repair (MTTR) minore rispetto a qualunque
altra precedente classe di sistemi di sicurezza.
Un’ altra caratteristica dei sistemi TMR di prima generazione e’ che la quantità’ di aggiornamenti e’ limitata
dalla dimensione della memoria riservata per questo scopo. Persino alcuni sistemi della seconda
generazione utilizzano la memoria in questo modo. Una volta che la memoria e’ completamente utilizzata
occorre pianificare un blocco della produzione per poter effettuare ulteriori aggiornamenti. Con i sistemi
di terza generazione un numero illimitato di aggiornamenti può’ essere effettuato senza nessuna
interruzione dell’ esercizio.
Questi sistemi della terza generazione possono quindi permettere agli utilizzatori di raggiungere l’ integrità’
della sicurezza desiderata, e migliorare la tempo stesso la disponibilità’ operativa , riducendo il numero di
blocchi spuri della produzione. Tutto questo attraverso la maggiore flessibilità’ nella ridondanza, la minore
frequenza di test funzionali necessari, ed la capacita’ di riparazione ed aggiornamenti online illimitata.
Conclusioni
Gli utilizzatori si confrontano oggi con un enorme ventaglio di scelte possibili, quando devono selezionare
un sistema di strumentazione di sicurezza per i loro impianti. Questo orizzonte di scelte spazia tra sistemi
che non hanno nessuna sinergia o integrazione con la piattaforma utilizzata per il controllo di base, a
sistemi totalmente indistinguibili da quest’ ultima. Di solito ogni fornitore presenta il proprio sistema come
il migliore. In realtà’, anche se qualsiasi fornitore può’ vantare valide argomentazioni in supporto del
proprio prodotto, qualunque approccio implica un compromesso tra integrità’ della sicurezza, disponibilità’
operativa, e costo. Per questo motivo e’ importantissimo, prima di selezionare un prodotto, valutare le
caratteristiche attentamente ed in profondità’. Ogni utilizzatore dovrebbe analizzare le scelte di
compromesso effettuate dal produttore, per valutarne la compatibilità’ con le proprie filosofie operative.

RTP Corporation - Oltre La Tolleranza Ai Guasti

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

RTP Corporation - Oltre La Tolleranza Ai Guasti

Caricato da

Copyright:

Formati disponibili

Oltre la tolleranza ai guasti: la terza generazione di SIS ottimizza

Potrebbero piacerti anche