Sei sulla pagina 1di 6

Oltre la tolleranza ai guasti: la terza generazione di SIS ottimizza 

l’ integrità della sicurezza e la disponibilità’ operativa. 
(di RTP Corporation, pubblicato su Chemical Engineering World ,OCTOBER 2009,  

traduzione di Carlo LEBRUN, Ecisgroup SpA) 

I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da acquistare, 
realizzare e mantenere. I SIS tradizionali possono anche raggiungere un grado di 
complessità che molti impianti, con il personale oggi ridotto al minimo, non possono 
permettersi di gestire. I SIS fault tolerant di terza generazione SIS forniscono 
integrità della sicurezza senza eguali e disponibilità operativa, con costi ridotti per 
tutto il ciclo di vita, come i gestori di processi oggi si aspettano.  
  

Quando la Triple Modular Redundancy (TMR) venne introdotta negli  anni  80 ha rappresentato una pietra 
miliare per i sistemi emergency shutdown (ESD), fornendo un altissimo livello di integrità’ e riducendo l’ 
impegno della manutenzione allo stesso tempo.  Più’ tardi si inizio a chiamare  questi sistemi con la sigla SIS 
(Safety Instrumented Systems). I tradizionali sistemi di sicurezza TMR tendono ad essere costosi da 
acquistare, realizzare e modificare. I SIS tradizionali possono anche raggiungere un grado di complessità che 
molti impianti, con il personale oggi ridotto al minimo, non possono permettersi di gestire.  

Negli ultimi anni sono stati utilizzati diversi nuovi approcci. Questi includono nuovi sistemi integrati, che 
usano la stessa piattaforma per SIS e DCS (Distributed Control System). Alcuni di questi sistemi integrati 
usano l’ approccio della ridondanza, ed utilizzano più’ processori montati su un unico modulo comune. 
Quando progettato ed installato correttamente questo tipo di sistema può’ aiutare a ridurre il costo del 
ciclo di vita, pur fornendo il livello di integrità’ di sicurezza richiesto. Pero’, senza la ridondanza modulare, i 
sistemi integrati non possono lontanamente raggiungere la tolleranza ai guasti dei sistemi TMR e non 
possono essere riparati o aggiornati online. 

Attualmente, è disponibile una terza opzione. Questa e’ conosciuta come terza generazione dei sistemi SIS 
fault tolerant. Questi sistemi combinano strategie di ridondanza ben consolidate con architetture di sistema 
più’ moderne e flessibili. I SIS fault tolerant di terza generazione SIS forniscono integrità della sicurezza 
senza eguali e disponibilità operativa, con costi ridotti per tutto il ciclo di vita, come i gestori di processi 
oggi si aspettano. 

Perché’ i gestori di processi installano Sistemi di Sicurezza 
Ogni operatore cerca di mantenere il processo il più’ sicuro possibile. Quando , nonostante questo , si 
raggiunge una situazione di rischio, può’ essere necessario installare un SIS. Lo scopo primario di un SIS e’ 
portare il processo in condizioni di sicurezza. Preferibilmente il SIS non dovrebbe avere impatto sul 
processo produttivo, pur rimanendo disponibile per intervenire quando necessario. Pero’ alcuni errori 
interni possono provocare blocchi di sicurezza non realmente necessari (detti “ spuri”). 
I blocchi di sicurezza sono progettati per prevenire incidenti costosi e pericolosi, ma comportano quasi 
sempre sulla produzione la generazione di prodotti fuori specifica, oppure la perdita di produzione, oppure 
il blocco totale. Quando il SIS interviene per rispondere alle condizioni di emergenza, il blocco di sicurezza 
e’ necessario e’ quindi pienamente giustificato. I blocchi spuri, dovuti  ad errori di sistema, non sono invece 
assolutamente giustificabili. 

Questi blocchi spuri non solo sono estremamente costosi, ma possono addirittura generare di per se’ 
situazioni pericolose. Questo perché’ le condizioni di startup e shutdown, specialmente quando non 
programmate,  sono quelle in cui accadono il maggior numero di incidenti. 

Disponibilità’ della sicurezza e disponibilità’ operativa 
I sistemi di sicurezza operano tipicamente in maniera indipendente dal sistema di controllo di base, e 
richiedono un livello maggiore di integrità’ , ovvero di disponibilità’ della sicurezza.  La disponibilità’ della 
sicurezza implica la capacita’ del SIS di svolgere la funzione di sicurezza appropriata , quando il processo lo 
richiede. Si misura in termini di media della probabilità’ di guasto su richiesta “Probability of Failure upon 
Demand” (PFDavg). 

Safety Integrity Levels 
Il livello di disponibilità’ della sicurezza richiesto (SIL) per ogni singola logica di protezione (SIF), dipende da 
un processo formale di analisi dei rischi. Per raffinerie ed impianti chimici il valore richiesto può’ 
tipicamente variare tra SIL 1 e SIL 3. Ogni valore di SIL successivo corrisponde ad un ordine di grandezza 
superiore nella riduzione del rischio. I valori di SIL richiesti si raggiungono con una combinazione di qualità’ 
dei componenti e la loro ridondanza, diagnostica interna, test periodici, stima dei tempi di riparazione, 
riduzione delle cause di guasto comune, e comprovato buon utilizzo in campo. Gli attuali standard di IEC e 
ISA si concentrano sulle caratteristiche necessarie per ottenere il SIL desiderato. 

Il modo in cui raggiungere il SIL richiesto e’ lasciato alla scelte del progettista e dell’ utilizzatore. Negli USA 
la conformità’ a questi standard e’ assolutamente opzionale, e dipende dalle filosofie operative di ciascun 
utilizzatore. In Europa ed alcune altre aree la conformità’ con norme e standard di sicurezza e’ obbligatoria 
per legge. 

Purtroppo la frequenza di blocchi spuri , o qualunque altro aspetto che può’ influire negativamente sulla 
disponibilità’ operativa, ha un impatto trascurabile o nullo sui calcoli della PFD avg. Questo avviene perché’ 
gli standard attuali sono interessati esclusivamente a valutare la disponibilità’ del SIS per attuare la 
funzione di sicurezza quando richiesto. I blocchi spuri sono considerati solo per quanto concerne la 
sicurezza nell’ effettuare il blocco. 

Possiamo senz’ altro dire che la disponibilità’ operativa e’ di scarso interesse per gli enti che stabiliscono 
norme e linee guida. Eppure gli utilizzatori sono interessati a mantenere il livello più’ alto possibile di 
disponibilità’ operativa. 

Per la conformità’ con gli standard  ISA/IEC  sui sistemi di sicurezza, i guasti di un sistema devono essere 
identificati e riparati entro un tempo piuttosto breve. Se il modulo coinvolto non può’ essere riparato o 
sostituito in linea, e’ necessario programmare immediatamente un blocco della produzione per poter 
procedere alla riparazione.  Modifiche, aggiornamenti, e test periodici  del SIS devono anch’ essi essere 
programmati durante i blocchi della produzione, aggiungendo  ulteriori impegni al personale di impianto, 
che già’ solitamente lavora sotto pressione, durante queste interruzioni. 

Tecnologia TMR della prima generazione 
L’ approccio della ridondanza per tollerare i guasti, sviluppato per l’ industria aerospaziale, ha portato all’ 
introduzione della prima generazione di sistemi TMR (Triple Modular Redundant). Questi sono 
essenzialmente dei PLC triplicati, che usano il sistema di voting due su tre (2003) prima di decidere sulla 
necessita’ di effettuare un blocco di sicurezza.  Questi sistemi si considerano fault‐tolerant perché’ 
continuano a funzionare  (seppur in modalità’  degradata) anche quando e’ stato identificato un guasto di 
uno dei moduli. Naturalmente anche l’ architettura hardware dei i moduli di ingresso / uscita deve  
assicurare un livello di tolleranza ai guasti  adeguato per il sensore e l’ elemento finale della logica SIF di 
protezione completa. 

Questa architettura fault‐tolerant TMR con voting  2003 voting assicura un alto livello di disponibilità’ 
operativa, dato che l’ intervento di blocchi spuri dovuti a guasti di sistema e’ fortemente limitato. 

La prima generazione di sistemi TMR e’ stata creata prima della definizione degli standard internazionali di 
riferimento disponibili oggi. In origine era stata progettata per fornire maggiore disponibilità’ operativa, 
mantenendo la funzionalità’ di sicurezza richiesta. Con l’ introduzione degli standard internazionali i sistemi 
della prima generazione sono stati modificati per raggiungere la conformità’ con le norme. In qualche caso 
le norme richieste non potevano essere soddisfatte, costringendo gli utilizzatori  ad aggiungere dispositivi di 
protezione aggiuntivi esterni al sistema stesso. 

In ogni caso, le norme richiedono che qualunque guasto, anche in un sistema triplicato, venga riparato in un 
intervallo di tempo definito. L’ MTTR (Mean Time To Repair o Mean Time To Restore) e’ uno dei parametri 
che concorrono alla certificazione SIL di una certa configurazione del SIS. Cosi’ se il componente difettoso 
non può’ essere riparato online, occorre attuare una interruzione non programmata della produzione. Di 
solito questo non costituisce un problema per i sistemi TMR di prima generazione, ma la seconda 
generazione non ha in realtà’ peggiorato praticamente questo aspetto. I blocchi non previsti comportano 
perdite nella produzione, e questo può’ costare parecchio agli utilizzatori, fino ad abbattere il profitto 
mensile. Con i sistemi di prima generazione le limitazioni imposte alle modifiche online costringevano 
talvolta a programmare delle interruzioni della produzione che avrebbero potuto altrimenti essere evitate. 

Sistemi SIS della seconda generazione 
Con l’ avanzare della tecnologia, nuovi sistemi SIS sono apparsi sul mercato. Grazie al progresso di questi 
sistemi sono cresciute significativamente le capacita’ diagnostiche. E grazie a queste capacita’ diagnostiche  
aggiuntive molti prodotti smisero di offrire la ridondanza tripla TMR, considerandola come obsoleta.  In 
molti casi i sistemi non offrivano neppure la normale ridondanza.  Questo provoco’ un problema  che non 
esisteva nella prima generazione:  dato che il SIS e’ singolo, non può’ essere riparato in linea. La conformità’ 
con lo standard ISA84 implicava perciò’ che qualunque guasto richiedesse di effettuare una interruzione 
della produzione. 

Oltre a questo la seconda generazione ha introdotto nuove architetture ridondate con schemi 1oo2 e 2oo4. 
Seppur con qualche limitazione questi sistemi funzionano piuttosto bene. Il problema di questa 
generazione non e’ ne’ la diagnostica ne’ la  ridondanza, o la mancanza di questa. Il problema e’ in realtà’ 
nell’ obiettivo. Questi  sistemi sono stati progettati per migliorare quelli di prima generazione. I sistemi di 
terza generazione sono stati progettati invece per fornire la massima sicurezza all’ utilizzatore, ed al tempo 
stesso la massima disponibilità’.  

Terza generazione di sistemi Fault­Tolerant 
L’ ultima generazione di sistemi fault‐tolerant non ridondanti e con ridondanza doppia e tripla modulare, 
combina i benefici della prima e della seconda generazione, migliorando ulteriormente la diagnostica, l’ 
integrità’ della sicurezza, e la disponibilità’ operativa, ed abbassando significativamente i costi del ciclo di 
vita. Questo risultato e’ stato raggiunto realizzando nuovi approcci alla ridondanza, migliorando  la 
copertura diagnostica con migliori prestazioni di calcolo e comunicazione, e migliorando le capacita’ di 
riparazione, modifica, ed aggiornamento online. L’ obiettivo di questa generazione di sistemi non e’ stato 
un piccolo miglioramento delle prestazioni precedenti , ma fornire all’ utilizzatore  la migliore protezione  
contro il rischio di processo possibile con la minima interferenza sulla capacita’ produttiva. 

Inoltre, a differenza delle precedenti generazioni di sistemi di sicurezza, i nuovi sistemi simplex, o ridondati 
doppi e tripli possono raggiungere la certificazione SIL cosi’ come sono prodotti, senza richiedere 
personalizzazioni, e senza restrizioni  imposte dagli enti di certificazione. 

Il risultato finale e’ che i  sistemi di terza generazione possono fornire significativi aumenti di integrità’ e 
disponibilità’ rispetto a quelli di prima o seconda. Con valori di integrità’ oltre  99.9999 % (sei nove!) 
quando configurati con ridondanza tripla, i SIS di terza generazione possono eliminare buona parte dei 
guasti attribuibili al sistema di controllo, portando la disponibilità’ operativa oltre i 2000 anni. 

Con i sistemi di sicurezza di terza generazione ogni guasto e’ automaticamente identificato dal sistema 
senza il bisogno di applicazioni sviluppate dall’ utente. Con la configurazione TMR questi sistemi potranno 
continuare ad operare in sicurezza anche in presenza di un singolo guasto, ed in molti casi anche in 
presenza di più’ guasti. Al contrario di precedenti soluzioni basate su PLC, i sistemi TMR di terza 
generazione si portano sempre in condizioni di sicurezza, anche in presenza di guasti multipli. 

Approcci più’ robusti e flessibili alla ridondanza 
I sistemi TMR tradizionali sono piuttosto rigidi sulla ridondanza, dato che l’ architettura e’ imposta dal 
produttore. Con i sistemi di terza generazione il livello di ridondanza  può’ essere completamente definito 
dall’ utilizzatore. Questa libertà’ include la possibilità’ di scegliere una ridondanza nulla, doppia o tripla per 
ogni singola logica di protezione SIF. I livelli di ridondanza degli ingressi ed uscite possono essere definiti via 
software punto per punto. Un ingresso o un’ uscita può’ essere collegato ad un solo ingresso su una singola 
scheda, o a più’ ingressi della stessa scheda, o a schede diverse montate in chassis diversi. Questo permette 
all’ utente di sintonizzare l’ esatto livello di ridondanza e tolleranza ai guasti richiesto su vari livelli all’ 
interno di un solo sistema. La ridondanza e’ gestita dal sistema, in maniera trasparente per l’ utilizzatore. 

Nei sistemi TMR di prima generazione le tre CPU sono montate sulla stessa scheda. Questo rende possibile 
un danno fisico a tutte e tre causato da un solo incidente (come quando un muletto  guidato con poca cura 
finisce contro  l’ armadio che contiene il sistema). Nei sistemi di terza generazione le CPU doppie e triple 
possono essere montate in chassis diversi o addirittura in armadi diversi, a discrezione dell’ utilizzatore. La 
comunicazione ridondante tra i componenti del sistema riduce le possibilità’ che un singolo guasto 
comporti la perdita di produzione. 
Miglioramento della copertura diagnostica e della verifica dei guasti 
I sistemi TMR di terza generazione offrono tipicamente un aumento della copertura diagnostica, rispetto 
alla prima o alla seconda generazione. L’ estesa copertura diagnostica integrata identifica immediatamente 
un guasto in qualunque dei  componenti  sostituibili in campo. La verifica diagnostica viene eseguita  ad 
ogni ciclo di calcolo: integrità’ della CPU; integrità’ della comunicazione; integrità’ della piastra di supporto; 
integrità’  dei fili verso il/dal campo; interfaccia con le schede di input/output. L’ attuazione  forzata della 
diagnostica assicura che le verifiche stanno funzionando correttamente, ed il sistema può’ quindi rimanere 
in esercizio. 

Secondo le stringenti  normative di oggi, il test funzionale del SIS e’ richiesto periodicamente, per 
identificare eventuali guasti latenti, in modo da isolarli ed intervenire prima che possono compromettere la 
funzionalità’ di sicurezza . Con i sistemi TMR convenzionali  e’ spesso necessario sviluppare applicazioni 
software aggiuntive, per poter effettuare la verifica funzionale, ed analizzare il risultato. Invece con i sistemi 
di terza generazione, la verifica funzionale del SIS fa’ parte del sistema stesso e può’ essere eseguita dall’ 
utilizzatore nel proprio sito. In alcuni casi e’ sufficiente togliere l’ alimentazione al logic solver e quindi 
fornirla di nuovo. 

L’ aumentata copertura e l’ aumentata frequenza con cui i sistemi di terza generazione eseguono le 
verifiche diagnostiche serve anche a ridurre la frequenza richiesta per la verifica funzionale completa 
necessaria per mantenere la certificazione SIL, riducendo ulteriormente la indisponibilità’ operativa. In 
alcuni casi i tempi di verifica del logic solver possono raggiungere i dieci anni, permettendo la massima 
flessibilità e trasformando la prova funzionale da un grosso problema operativo ad una banale routine, per 
chi si occupa di mantenere la certificazione SIL. 

L’ aumentata copertura diagnostica migliora anche la disponibilità’ operativa attraverso l’ identificazione 
dei guasti ed errori che potrebbero provocare un blocco spurio prima che questo di fatto avvenga. In 
questo  modo  la diagnostica contribuisce ad evitare i blocchi spuri e migliorare la disponibilità’ operativa e 
mantenere cosi’ la remunerati vita’ dell’ impianto. 

Per assicurare l’ integrità’ del SIS diverse complesse applicazioni di monitoraggio degli errori sono utilizzate 
continuamente per testare tutte le componenti hardware, la comunicazione, ed i calcoli. I cavi dai 
trasmettitori e verso gli attuatori, i moduli di interfaccia I/O, l’ integrità’ del processore , l’ integrità’ della 
scheda madre, e la comunicazione sono verificati ad ogni ciclo macchina. I dati vengono trasferiti solo dopo 
che sia l’ ingresso che l’ uscita sono state verificate. Watchdog  e temporizzatori hardware e software, con 
basi temporali diverse, verificano la normale esecuzione del software 

Migliore performance 
La legge di Moore dice che la capacita’ di calcolo cresce con grande rapidità’ , da quando sono stati 
introdotti i sistemi della prima generazione. I microprocessori sono diventati più’ piccoli, più’ potenti, e più’ 
efficienti. Progressi enormi sono stati fatti anche nel campo del calcolo parallelo, e questo permette a più’ 
processori  di lavorare insieme per eseguire calcoli sempre più’ complessi, a velocità’ molto maggiori di 
calcolatori individuali molto più’ grandi e costosi. Questa e’ la ragione per cui la ultima tendenza dei 
supercomputer e’ verso il calcolo parallelo. 

In contrasto con le prime due generazioni, che erano progettate per lavorare in serie, eseguendo un 
processo per volta, i SIS della terza generazione possono avere cento o più’ processori che lavorano in 
parallelo, migliorando drammaticamente le prestazioni di elaborazione, comunicazione, e scansione di I/O. 
Il potere di calcolo disponibile oggi permette di eseguire più’ di 500 control loops ogni 10 msec, con un 
tempo di reazione di 25 msec. Questo include la scansione degli  I/O, l’ elaborazione della logica, e la 
gestione degli allarmi, cosi’ come le funzioni di comunicazione peer‐to‐peer ed altre. Questo al confronto 
del tipico tempo di reazione di un sistema di prima generazione di 200‐500 msec. 

Riparazioni, modifiche ed aggiornamenti online senza limitazioni 
La riparabilità’ online  e’ data dalla possibilità’ di sostituire moduli difettosi con moduli funzionanti senza 
interferire con il processo di produzione. Questo e’ molto importante per tutti i sistemi mission‐critical, ma 
ancora di più’ per i sistemi di sicurezza. Tutti i sistemi ridondati (doppi  o tripli) offrono in una certa misura 
la riparabilità’ online. Pero’ non e’ chiaro come la sostituzione può’ essere effettuata in sicurezza per i 
sistemi non ridondati, dato che questi  non hanno nessuna unita’ di backup per effettuare l’ intervento di 
una logica SIF quando il modulo difettoso e’ in sostituzione. Quindi,  anche se il sistema può’ continuare ad 
operare in presenza di un singolo guasto, un’ interruzione della produzione e’ necessaria  per permettere la 
sostituzione del modulo entro il Mean Time to Repair (MTTR) stabilito. 

Per poter effettuare la riparazione online di una scheda, nei sistemi convenzionali occorre normalmente 
mantenere libero uno slot ogni due, per poter inserire un modulo di ricambio. Questo fattore aumenta il 
numero di rack richiesti, e quindi lo spazio necessario per il sistema. Con i sistemi di terza generazione 
invece, e’ possibile usare qualunque slot libero, ed il modulo difettoso può’ essere rimosso e sostituito 
sotto tensione senza interrompere la produzione. In combinazione con le capacita’ diagnostiche, la 
capacita’ di sostituzione “a caldo” determina il Mean Time to Repair (MTTR) minore rispetto a qualunque 
altra precedente classe di sistemi di sicurezza. 

Un’ altra caratteristica dei sistemi TMR di prima generazione e’ che la quantità’ di aggiornamenti  e’ limitata 
dalla dimensione della memoria riservata per questo scopo. Persino alcuni sistemi della seconda 
generazione utilizzano la memoria in questo modo. Una volta che la memoria e’ completamente utilizzata 
occorre pianificare  un blocco della produzione per poter effettuare ulteriori aggiornamenti.  Con i sistemi 
di terza generazione un numero illimitato di aggiornamenti può’ essere effettuato senza nessuna 
interruzione dell’ esercizio. 

Questi sistemi della terza generazione possono quindi permettere agli utilizzatori di raggiungere l’ integrità’ 
della sicurezza desiderata, e migliorare la tempo stesso la disponibilità’ operativa , riducendo il numero di 
blocchi spuri della produzione. Tutto questo attraverso la maggiore flessibilità’ nella ridondanza, la minore 
frequenza di test funzionali necessari,  ed la capacita’ di riparazione ed aggiornamenti online illimitata. 

Conclusioni 
Gli utilizzatori si confrontano oggi con un enorme ventaglio di scelte possibili, quando devono selezionare 
un sistema di strumentazione di sicurezza per i loro impianti. Questo orizzonte di scelte spazia tra sistemi 
che non hanno nessuna sinergia o integrazione con la piattaforma utilizzata per il controllo di base, a 
sistemi  totalmente indistinguibili da quest’ ultima. Di solito ogni fornitore presenta il proprio sistema come 
il migliore.  In realtà’, anche se qualsiasi fornitore può’ vantare valide argomentazioni in supporto del 
proprio prodotto, qualunque approccio implica un compromesso tra integrità’ della sicurezza, disponibilità’ 
operativa, e costo. Per questo motivo e’ importantissimo, prima di selezionare un prodotto, valutare le 
caratteristiche  attentamente ed in profondità’.  Ogni utilizzatore dovrebbe analizzare le scelte di 
compromesso  effettuate dal produttore, per valutarne la compatibilità’ con le proprie filosofie operative.