introduzione alle funzioni di manutenzione

Information and Communication Technology – Modulo n. 2 Pag. 1

C. Cancelli – Introduzione alle Funzioni di Manutenzione Ed. 1.0 - Dicembre 2010

Claudio CANCELLI (www.claudiocancelli.it)



INDICE

IINNDDIICCEE DDEEII CCOONNTTEENNUUTTII

DOCUMENTO DI PROGRAMMAZIONE MODULARE ………………………………………. PPAAGG.. 33

1. SVILUPPO DELL’UNITA’ DI LAVORO X.1 X.1.1 - Conoscere il concetto di guasto, di errore e di servizio offerto …….. PPAAGG.. 5 X.1.2 - Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore …………………………………………………………………………………………… PPAAGG.. 0088

X.1.3 - Comprendere la rilevazione degli errori ed il trattamento del guasto PPAAGG.. 1155 2. CONCLUSIONI ……………………………………………………………………………………………………….. PPAAGG.. 25



Modulo x: Le funzioni di Manutenzione Modulo x.1: Introduzione alle funzioni di Manutenzione

Obiettivi di competenza finali attesi 1 – Saper comprendere la necessità e le funzionalità dell’HW e del SW necessari ad interpretare le funzioni di diagnostica nei sistemi di elaborazione con controllo a microprocessore (Esercizi da definire con l’Unità di Lavoro x.2) 2 – Saper impostare i criteri di analisi e di progettazione per la diagnosi di unità hardware duplicate (Esercizi da definire con l’Unità di Lavoro x.2). Progettare l’hardware ed il software necessari per il controllo del data bus di un sistema duplicato. Modalità di verifica, recupero ed approfondimento Verifica in itenere (di tipo formativo), sommativa scritta alla fine del modulo. Eventuale rivisitazione dei contenuti e completamento. Eventuale approfondimento mirato ad ulteriori esempi di analisi o di progetto. Verifica orale e scritta. Recupero pomeridiano.

Cn = OBIETTIVI RELATIVI ALLE CONOSCENZE (sapere nel senso di possedere conoscenze descrittive di tipo formale/astratto) Ab= OBIETTIVI RELATIVI ALLE ABILITA’ (saper fare, nel senso di saper utilizzare in concreto date conoscenze)

T => TEORIA -- P => PRATICA

Unità di Lavoro x.1 – Introduzione alle funzioni di manutenzione

Prerequisiti – Ottima conoscenza dei circuiti combinatori (Modulo B) e dei circuiti sequenziali (Modulo D)

Obiettivi di Teoria Fondamentali CnT1-x.1.1 – Conoscere il concetto di servizio offerto da un sistema CnT2-X.1.2 – Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore CnT3-X.1.3 – Comprendere le modalità di rilevazione degli errori e di trattamento del guasto CnT4-X.1.4 – Introdurre il concetto di manutenzione Corrispondenze tra obiettivi e verifiche Da definire Problemi Da definire

Obiettivi di Teoria Opzionali Non previsti

Modalità di verifica, recupero ed approfondimento Verifica formativa in itenere con esercizi mirati alla valutazione delle conoscenze e delle abilità, eventuale rivisitazione dei contenuti; verifica scritta alla fine dell’unità. L’eventuale approfondimento mirato avverrà in itinere. L’eventuale recupero sarà successivo alla verifica scritta prevista con J.2. e comunque

Obiettivi di Laboratorio Fondamentali Non previsti Obiettivi di Laboratorio Opzionali Non previsti



previsto con n.ro 4 ore pomeridiane.

Unità di Lavoro x.2 – La simulazione e la realizzazione

Prerequisiti – Unità di Lavoro x.1 – – Introduzione alle funzioni di manutenzione

Obiettivi di Teoria Fondamentali AbT1–x.2.1 – saper progettare l’hardware di controllo degli errori sul bus dati AbT2–x.2.2 – saper implementare una routine scritta con un linguaggio di alto livello

Obiettivi di Teoria Opzionali CnT3-X.2.3 - Programmare un microcontrollore con la routine scritta in x.2.2

Corrispondenze tra obiettivi e verifiche Da definire Modalità di verifica, recupero ed approfondimento Da definire

Obiettivi di Laboratorio Fondamentali AbL1–x.2.3 – progetto HW e verifica AbL2–x.2.4 – progetto SW e verifica Obiettivi di Laboratorio Opzionali Non previsti



SVILUPPO DELL’UNITA’ DI LAVORO x.1

CnT1 – x.1.1 Comprendere il concetto di servizio offerto da un sistema Introduzione

Poniamoci le seguenti domande e cerchiamo di fornire risposte inerenti gli aspetti legati alla sicurezza, all’affidabilità ed alla necessità di disporre dei servizi offerti dall’apparato/sistema/gestore.

Evitiamo la fatica di ricercare la definizione di sistema e cerchiamo di dare un significato al termine richiamando i concetti che ci saranno utili per la nostra trattazione. Esempio 1) Cosa succede il PC con il quale

lavoriamo/giochiamo/comunichiamo tutti i giorni si guasta? E se a guastarsi è il chip di memoria del PC presente nell’ufficio dell’amministratore delegato di una multinazionale, quali sarebbero le conseguenze?

RISPOSTE ……………………………………………………………………………………………………………

………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………

Esempio 2) Pensiamo ad un guasto nei sistemi di comunicazione presenti in un

sottomarino (fino a 50 anni senza fare rifornimento) o su un aereo supersonico (~ 100 CPU). Lo potremmo tollerare?

RISPOSTE

………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

A

B

C



………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

Esempio 3) E cosa succede se una centrale telefonica urbana va completamente

fuori servizio? RISPOSTE ……………………………………………………………………………………………

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… Esempio 4) E cosa dire di un satellite che viene progettato per una vita media di 8-

10 anni? E’ così grave che si renda inutilizzabile dopo un anno di vita per la presenza di condizioni non previste nell’orbita geostazionaria?

RISPOSTE ……………………………………………………………………………………………………………………………………………………………

………………………………………………………………………………………………………………………………

……………………………………..…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

………………………………………………………………

E

D



Esempio 5) Non è finita: è così grave se durante il relax con la fase di decompressione, l’applicazione domotica del tele-wc va fuori servizio?

RISPOSTE …………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………..…………… Es. x.1.1) Ed ora come esercizio, in quali dei sistemi riportati in figura spendereste

dei quattrini per garantire l’eccellente funzionalità dell’elettronica presente in ciascuno di essi?

G H

M

L

I

F



CnT1 – x.1.2 Conoscere e comprendere il significato di affidabilità, disponibilità, guasto ed errore Definizioni e concetti Prima di procedere è necessario che vengano chiariti alcuni significati di termini abbastanza ricorrenti.

E’ la probabilità che un componente/apparato/sistema esegua correttamente una

funzione per un dato periodo di tempo e in condizioni di funzionamento specificate senza evidenziare alcun malfunzionamento.

L’affidabilità (reliability) assicura quindi il corretto funzionamento del prodotto

durante il suo utilizzo. Es. x.1.2) Una rete dati è composta da 5 router; l’affidabilità R(t) di ciascun

apparato è uguale a 0,99 in un anno. Vuol dire che ciascun apparato funziona correttamente per il 99% del tempo.

Possiamo introdurre il concetto di:

come F(t) = 1- R(t). Per l’esempio risulta uguale a 1- 0,99 = 0,01. Ossia l’1% è la percentuale di fuori servizio di ciascun apparato. Se in un anno risultano 60*24*365 = 525.600 minuti, risulta accettabile un fuori servizio pari all’1%, ossia uguale a 14,4 minuti/giorno.



La disponibilità è una funzione definita come la probabilità che il sistema non mostri malfunzionamenti nell'istante in cui gli è richiesto di operare.

La disponibilità (Availability) si differenzia dall'affidabilità poiché quest'ultima è una misura di corretto funzionamento in un intervallo, mentre la disponibilità è una misura di corretto funzionamento ad un dato istante temporale.

Dopo aver analizzato gli esempi, possiamo pervenire ad una

considerazione: se il sistema è così fondamentale da dover garantire criteri economici, di sicurezza e di affidabilità

dobbiamo prevedere che la presenza di un guasto non incida sul funzionamento complessivo dell’apparato o del sistema.

Per guasto si intende l’interruzione di una o più prestazioni funzionali offerte da un

dispositivo/apparato/sistema. Il servizio e le prestazioni di molti sistema devono essere garantiti anche in presenza di un guasto, tenendo comunque presente che i calcolatori impiegati nei Sistemi di Elaborazione e di Controllo delle Informazioni e dei dati, non potranno mai essere in nessun caso considerati assolutamente affidabili.

I calcolatori sono spesso alternativi all’uomo ed in molti casi lo supportano con funzioni fondamentali per l’importanza economica e la sicurezza fisica delle persone. Una situazione di guasto può provocare danni notevoli in termini economici e di vite umane se non si da la giusta importanza al trattamento ed alla loro prevenzione.

Al concetto di guasto è normalmente associato il

TTAASSSSOO DDII GGUUAASSTTOO λ

definito come il numero di guasti nell’unità di tempo. Uno schema tipico

TEMPO

TASS

O D

I GU

AST

O

MORTALITA’INFANTILE

VITAUTILE USURA



del tasso di guasto in funzione dell’età del componente è riportato in figura. La relazione che esiste tra tasso di guasto ed affidabilità risulta:

Es. x.1.3) Calcolare l’affidabilità di un componente a 3000 ore se il tasso di guasto è pari a: λ = 8*10-5 h -1 R(t) = 0,787 equivale alla probabilità del 78,7% che il componente funzioni in tale arco di tempo. Verificare a quanto ammonta la probabilità che il componente funzioni a 10.000 ore.

Ora introduciamo: MMeeaann TTiimmee BBeettwweeeenn FFaaiilluurree – Ossia l’intervallo di tempo (medio) tra due guasti consecutivi, e si calcola come MMMTTTBBBFFF === 111///λλλ Per l’esempio I.1.2 risulta un MTBF uguale a 12.500 ore. MMeeaann TTiimmee TToo RReeppaaiirr – Ossia l’intervallo di tempo medio necessario a riparare o sostituire l’unità guasta. Se μ è il tasso di riparabilità, risulta: MMMTTTTTTRRR === 111///μμμ Ad esempio per μ = 0,03, risulta un MTTR uguale a 30 secondi. MMeeaann TTiimmee TToo FFaaiilluurree – E’ il tempo atteso (valore medio) per la manifestazione del 1° guasto. Si può calcolare come tempo cumulativo di funzionamento di tutto il campione diviso il n.ro di guasti.

Concludiamo l’argomento sull’affidabilità e sui guasti richiamando l’attenzione sull’affidabilità di sistemi complessi che può essere calcolata individuando i sottosistemi che li costituiscono e come sono collegati.

I due modelli utilizzati per valutare l’affidabilità di tali sistemi risultano i seguenti: L’affidabilità totale del sistema è uguale al prodotto delle affidabilità dei singoli componenti:

MTBF

Sistemi in Serie

R(t) = e -λt

MTTR

MTTF



L’affidabilità totale del sistema è uguale a:

Per concludere l’argomento solo un cenno all’ ooorrriiigggiiinnneee dddeeeiii ggguuuaaassstttiii che consente di suddividerli nel modo seguente: – Le ccaauussee ffeennoommeennoollooggiicchhee che implicano…

– …Guasti fisici (phisical faults ), dovuti a fenomeni fisici avversi; – …Guasti causati dall’uomo (human–made faults ), dovuti all’imperfezione

umana;

RRSS((tt)) == RR11((tt)) ** RR22((tt)) ** RR33((tt)) **……....

e per n elementi uguali:

RS(t) = e –nλt

All’aumentare dei componenti, cala l’affidabilità del sistema, per cui, se il valore ottenuto non soddisfa, dobbiamo usare componenti di migliore qualità o trovare una soluzione che richieda meno componenti. Richiamando l’esempio I.1.2, se la comunicazione coinvolge i 5 dispositivi, l’affidabilità complessiva del sistema risulta pari a:

RS(t) = 0,99*0,99*0,99*0,99*0,99 = 0,9509

Sistemi in Parallelo RRSS((tt)) == 11 -- [[((11--RR11((tt))))]] ** [[((11--RR22((tt))))]] ** ............

Per rendere il sistema non funzionante si devono guastare tutti i componenti. È una soluzione che prevede costi elevati perché ogni componente deve garantire al sistema le prestazioni richieste necessarie alla corretta funzionalità. All’aumentare dei componenti, aumenta l’affidabilità del sistema; se il valore ottenuto non soddisfa, si devono usare componenti di migliore qualità oppure aumentare il numero dei componenti in parallelo.

Il sistema composto da due CPU con affidabilità pari a 0,999 comporta una affidabilità totale pari a 0,999999.



– I ccoonnffiinnii ddeell ssiisstteemmaa che implicano… – …Guasti interni (internal faults ), che sono parti dello stato del sistema che,

quando richiamate dall’attività di elaborazione, produrranno un errore; – …Guasti esterni (external faults ), che derivano dall’interferenza

dell’ambiente fisico nel sistema (perturbazioni elettromagnetiche, radiazioni, temperatura, vibrazioni, etc.) o dall’interazione con l’ambiente umano;

– La ffaassee ddii ccrreeaazziioonnee rispetto alla vita del sistema che implica… – …Guasti di progetto (design faults ), che derivano da imperfezioni che si

verificano durante lo sviluppo del sistema o per modifiche successive; – …Guasti operativi (operational faults ), che si verificano durante l’uso del

sistema.

… ed alla pppaaatttooolllooogggiiiaaa: – Un guasto è aattttiivvoo (active ) quando produce un errore. Un guasto attivo è o un

guasto interno che era in precedenza iinnaattttiivvoo (dormant ) e che è stato attivato dal processo di elaborazione, o un guasto esterno.

Es. x.1.4) Per quale motivo il sistema operativo di un processore presente in una centrale di commutazione telefonica dovrebbe schedulare un programma di diagnostica nei confronti della periferica che consente il load della cassetta di back-up (programmi + data base), e non prevedere la schedulazione del programma che diagnostica le linee d’abbonato. ……..………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………



E poi l’altro problema: è giusto affidarsi completamente alle risposte fornite dal calcolatore?

Gli errori nei sistemi di calcolo si verificano e possono derivare da specifiche ambigue o incomplete, da errori di progetto, da errori di programmazione, da errori hardware, da errori di immissione dati o di interpretazione dei risultati

I progettisti hardware e software devono prevedere circostanze atipiche ed

ammettere/contenere l’errore dell’utente; occorre pianificare correttamente la fase di testing : esistono software di supporto al debugging (correzione degli errori) Nei confronti degli errori si usano le tecniche di

Tecniche di rilevamento dell’errore — eeerrrrrrooorrr dddeeettteeeccctttiiiooonnn Una delle tecniche HW abbastanza diffuse consiste nel generare un bit di parità,

normalmente associato ad un byte, e rilevarlo a valle rilevando la correttezza o meno.

Tecniche di correzione dell'errore — eeerrrrrrooorrr cccooorrrrrreeeccctttiiiooonnn Una tecnica abbastanza utilizzata durante la trasmissione di informazioni consiste

nell’avere un meccanismo di rilevamento dell'errore che abbia capacità di diagnosi, cioè che sappia indicare il punto in cui si è verificato un errore ed intervenire predicendo il risultato. Relazione tra guasti, errori e malfunzioni

ERRORE (ERROR)

MALFUNZIONE (FAILURE)

È la manifestazione del guasto nel sistema

È la manifestazione dell’errore sul servizio

È la causa dell’errore GUASTO (FAULT)



Le problematiche che si pongono quando bisogna garantire il funzionamento del sistema secondo specifiche atte a garantire la corretta funzionalità risultano le seguenti:

– Prevenzione dai guasti ((ffaauulltt ppprrreeevvveeennntttiiiooonnn)): come possono essere prevenute le occorrenze di guasti;

– Tolleranza ai guasti ((ffaauulltt ttoolleerraannccee)): come garantire un servizio che

si mantenga conforme alle specifiche, nonostante i guasti;

– Eliminazione del guasto ((ffaauulltt rreemmoovvaall)): come ridurre l'occorrenza (numero, gravità) dei guasti;

guasti ((ffaauulltt – Predizione di ffoorreeccaassttiinngg)): come stimare il numero, la frequenza di incidenza, presente e futura, e le conseguenze dei guasti.

In definitiva:

Se un guasto lo possiamo prevedere

.. lo possiamo rimuovere e gestire

Testing Qualità

Sovradimensionamento Diagnostica

Debugging HW e SW

Valutazione dei guasti inevitabili



Es. x.1.5) Facciamo riferimento all’esercizio precedente per introdurre il concetto di Errore Latente ed Errore Rilevato.

Un errore è lllaaattteeennnttteee (latent) quando non è stato riconosciuto dal μP

un errore è rrriiillleeevvvaaatttooo (detected), quando un algoritmo o meccanismo di rilevamento lo riconosce.

Come può un microprocessore non riconoscere un errore latente o rilevarlo? (…… Interrupt mascherabili ……)

Es. x.1.6) Una domanda per voi. Tutti i guasti che possono capitare in un sistema controllato da un microprocessore, si possono prevedere? In un sistema controllato da un μp quali sono i guasti secondo te che non si possono prevedere?

………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… ………………………………………………………………………………………………………………………………………………… …………………………………………………………………………………………………………………………………………………

CnT1 – x.1.3 Comprendere le modalità di rilevazione degli errori e di trattamento del guasto

In riferimento alla Tolleranza ai guasti ((ffaauulltt ttoolleerraannccee)) valuteremo prima il sovradimensionamento e quindi analizzeremo il trattamento e recupero dell’errore ed il trattamento del guasto con casi concreti.

Esempio 6) Consideriamo lo schema seguente. Cosa capita se si verifica un guasto in memoria, oppure un guasto alla CPU? Oppure su uno dei bus di interconnessione tra memoria e CPU?

……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

…………………… Se c’è bisogno che il sistema garantisca una indisponibilità max di 2 minuti, vi sembra che questa soluzione possa

MEMORIA

CPU



soddisfare tale specifica? Poiché quindi non possiamo permetterci la situazione di guasto né della CPU né della memoria , in quanto essendo UUNNIITTAA’’ SSIIMMPPLLEEXX, mi impedirebbero l’erogazione del servizio per un tempo superiore a 2 minuti, dobbiamo pensare ad una struttura alternativa. Dieci minuti di tempo per pensare. Soluzioni…………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… Analizziamo la soluzione seguente:

Con la memoria in configurazione DDUUPPLLEEXX. Se durante l’accesso della CPU in memoria, verrà rilevato un guasto nel blocco di MEMORIA ‘B’, si può fare in modo che tale unità venga isolata così che la CPU possa continuare a lavorare con la MEMORIA ‘A’ e garantire così la corretta funzionalità di tutto il sistema. I due blocchi di memoria vengono alimentate da due fonti di alimentazione differente Es. x.1.7) Dettagliare l’architettura esposta con la soluzione dell’esempio 1, mettendo in evidenza l’Address Bus, il Data Bus ed il Control Bus. Pensa a

MEMORIA ‘A’ MEMORIA ‘B’

PWR ‘A’ PWR ‘B’

CPU

BUS ‘A’ BUS ‘B’



cosa deve avvenire durante l’operazione di lettura? E durante l’operazione di scrittura?

A.B

MEMORIA ‘A’ MEMORIA ‘B’


CPU

D.B. C.B


?

Buffer


BUS ‘B’ BUS ‘A’

Buffer

TO μP

MUX

FROM μP

OOppeerraazziioonnee ddii SSCCRRIITTTTUURRAA

OOppeerraazziioonnee ddii LLEETTTTUURRAA



Es. x.1.8) Fate riferimento all’alimentazione della CPU. Con l’architettura precedente c’è un grosso problema. Riguarda l’alimentazione. Come potrebbe essere superato? La soluzione, in questo caso ve la fornisco io e la discutiamo assieme.

In assenza di guasti una CPU è attiva e l’altra è in stand-by. Le due memorie vengono contemporaneamente sia scritte sia lette. TRATTAMENTO DELL’ERRORE

Il trattamento dell’errore può essere eseguito per:

RRiilleevvaarree ll’’eerrrroorree ee rreeccuuppeerraarrlloo con cui uno stato esente da errore viene sostituito allo stato erroneo. la sostituzione può avvenire con:

• Recupero indietro, in cui la trasformazione dello stato erroneo consiste nel riportare il sistema in uno stato precedente al verificarsi dell’errore Þ occorre determinare un punto di recupero;

• Recupero in avanti, in cui la trasformazione dello stato erroneo consiste nell’evolvere in un nuovo stato dal quale il sistema possa operare, eventualmente in modo degradato.

oo ccoommppeennssaarrlloo

BUS ‘AR’

MEMORIA ‘A’


BUS ‘BL’

MEMORIA ‘B’

BUS ‘AL’

PWR ‘A’ PWR ‘B’CPU ‘B’

CPU ‘A’

BUS ‘BR’



consentendo per la presenza di ridondanza, di continuare a fornire un servizio esente da errore a partire dallo stato erroneo.

Esempio x.1.9) Supponiamo che per un’operazione di scrittura la CPU ‘A’ acceda IN memoria con il valore F0F4 sul bus dati. Unitamente a tale dato un ODD parity generator sul byte basso (DPL) presente all’interno della CPU genera il valore 1 ed un ODD parity generator sul byte alto (DPH) genera il valore 0. Il controllore di parità presente nella scheda di memoria rileva 1 piuttosto che 0 sul bit DPH e genera un interrrupt diretto al microprocessore tramite il Programmable Interrupt Controller.

Es. x.1.9) Si riporti lo schema hardware che consenta la generazione di parità ed il controllo di parità sul byte basso del Bus Dati. Si utilizzi il data sheet per il dettaglio dei componenti che si intende utilizzare ……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

DPH= 0

DPL= 1 D.B. = F0F4

PWR ‘A’

CPU ‘A’

MEMORIA ‘A’

DPH ER

μP

P.I.C.

INT

Alarm Register

INTMA



………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………. GESTIONE DEGLI INTERRUPT Si riporta il diagramma che consente di comprendere il riconoscimento dell’errore affidato alla priorità che il S.O. assegna ai vari programmi.

TRATTAMENTO DEL GUASTO

Il primo passo nel trattamento del guasto è la ddiiaaggnnoossii ddeell gguuaassttoo che consiste nel determinare le cause degli errori, sia in termini di locazione che di natura. del guasto. I programmi di diagnostica utilizzano normalmente registri di I/O non mappati in memoria.

L’esempio precedente evidenzia il richiamo del programma di diagnostica che consente di individuare l’unità minima guasta sulla quale si può intervenire con operazioni di MMAANNUUTTEENNZZIIOONNEE CCOORRRREETTTTIIVVAA.

i

i + 1

Il S.O. consente il riconoscimento dell’Interrupt

Istante in cui il guasto provoca

l’errore DPH-ER

USER PROGRAM

INTERRUPT HANDLER

Guasto Mask INTMA

Task 1 Task 2

Mask INT Remove mask INT

Remove mask INTMA

Interrupt routine Task 3



Si tenga presente che lo stesso programma può essere attivato dall’operatore od anche schedulato per le operazioni di MMAANNUUTTEENNZZIIOONNEE PPRREEVVEENNTTIIVVAA, ed evitare così che errori latenti considerati gravi non vengano subito riconosciuti per la loro reale importanza.

Seguono poi le azioni tese a prevenire che il guasto sia nuovamente attivato, tendendo a renderlo passivo mediante il processo di ddiissaattttiivvaazziioonnee ddeell gguuaassttoo. Ciò consiste nel mettere FUORI SERVIZIO l’unità identificata guasta e non richiamata più dagli User Program.

Infine se il sistema non è più in grado di fornire il servizio precedentemente offerto, viene attivato il processo di rriiccoonnffiigguurraazziioonnee. Può essere ad esempio che una copia da Stand-By diventi attiva.

L’ultimo tipologia è la MMAANNUUTTEENNZZIIOONNEE PPRREEDDIITTTTIIVVAA ((oo ssuu ccoonnddiizziioonnee)).. Gli interventi di manutenzione sono subordinati al rilievo, tramite misure dirette o indirette (misure d'usura, di potenza assorbita, rumore, ...), del raggiungimento di una soglia di probabilità del verificarsi di un guasto o malfunzionamento.

Con la manutenzione predittiva è possibile:

rispetto alla manutenzione correttiva, evitare gli interventi di urgenza seguendo l'evoluzione delle anomalie in modo da intervenire nelle condizioni più favorevoli;

rispetto alla manutenzione preventiva, evitare interventi anche quando potrebbero non rivelarsi necessari in quanto potenziali fonti di ulteriori avarie.

Dovevamo intervenire sul concetto di Manutenzione all’inizio di tale Unità Didattica,

ma nessuno di voi è intervenuto per chiederne il significato, vorrà dire che l’argomento lo completeremo adesso, prima di farci gli auguri per le vacanze. LLAA MMAANNUUTTEENNZZIIOONNEE - L'insieme di azioni che permette di mantenere o di

ristabilire un apparato/sistema/dispositivo in uno stato tale da assicurare il servizio specificato.

Teniamo presente che la manutenzione ha normalmente impatto sulle aree:

Tecnica per la conoscenza necessaria dei sistemi da controllare, ...;

Economica: per le previsioni di investimenti, per i budget di spesa, ...;

Organizzativa: per la gestione lavoro, per la definizione dell’organigramma, ….



DIAGNOSI DEL GUASTO Una volta riconosciuto l’errore attraverso l’interrrupt, il microprocessore attiva

il programma di diagnosi per comprendere, possibilmente in modo più accurato, la motivazione del guasto. Il primo test riguarda la verifica del Bus Dati. Avviene scrivendo dei pattern (solitamente prima zero e poi uno) e verificando che non si verifichi né un Ready Time Out e che il pattern letto corrisponda a quello scritto. Ciò e realizzato tramite i Registri di Loop-Back. Un primo registro di Loop-Back è posto nelle immediate vicinanze del microprocessore, l’ultimo in prossimità dell’unità indirizzabile (Memoria o registro di I/O inerente una periferica).

Esempio x.1.11) Proviamo a scrivere sul DB il valore 0000 indirizzando il Loop-Back Register #1. Supponiamo che il valore letto sia 0000. La funzione EX-OR con tutti 0 non evidenzia alcuna anomalia.

Ora con una seconda operazione sempre nei confronti dello stesso registro scriviamo

FFFF; se in lettura il dato è ancora FFFF, possiamo concludere che la parte tra il microprocessore e la zona circoscritta da tale registro è PERFETTAMENTE FUNZIONALE.

D.B. = 0000

μP Write Operation Read Operation

D.B. = 0000

EXOR (0000, 0000) = 0000

Loop-Back Register #1



Ora nel caso in cui l’operazione che prevede la scrittura di FFFF sul bus dati porti come risultato di lettura un valore F7FF, ne risulta che la funzione EX-OR è pari a 0800 e quindi il bit 11 è il risultato dell’anomalia.

μP

Read Operation

D.B. = F7FF

EXOR (FFFF, F7FF) = 0800


D.B. = FFFF

Write Operation

D.B. = FFFF

μP Write Operation Read Operation

D.B. = FFFF

EXOR (FFFF, FFFF) = 0000




RICONFIGURAZIONE

Supponiamo che la CPU “A” sia attiva e che la CPU “B” sia in stand-by. Se la CPU “A” rileva, durante l’accesso in memoria, un guasto nella MEMORIA “A”, una volta

riconosciuto l’errore, diagnostica l’unità sospetta guasta e se l’errore è realmente presente la pone fuori servizio. La riconfigurazione consiste nel fatto cha da questo momento la CPU “A” lavora non più in configurazione duplex nei confronti della memoria bensì in simplex interfacciando solo la memoria “B” tramite il bus “AR”. Se sussisteranno le condizioni per riparare la memoria “A” e se il guasto verrà rimosso la CPU “A”, tramite una nuova riconfigurazione, interfaccerà entrambe le memoria e riprenderà a lavorare in duplex. Un altro esempio di guasto può riguardare la CPU “A” attiva. In tal caso la CPU “A” informa la CPU “B” che cerca di riprendere il controllo della situazione corrente, sempre che la CPU “A” sia stata nella condizione di memorizzare le informazioni correnti (indirizzi, dati, etc..) prima di essere dichiarata fuori servizio. In tal caso la CPU “B” riprende il programma esattamente dal punto di interruzione della CPU “A”. Se ciò non dovesse essere possibile la CPU “B” riprende dal programma di boostrap con una perdita di dati transitoria e parziale.

PWR

BUS ‘AR’

PWR ‘B’

MEMORIA ‘B’

PWR ‘A’

BUS ‘AL’

CPU ‘A’

MEMORIA ‘A’

BUS ‘BL’

PWR ‘B’CPU ‘B’

BUS ‘BR’

Out of Service



6. CONCLUSIONI

Con l’unità di lavoro x.1 sono stati messi in evidenza gli aspetti considerati propedeutici per trattare con la successiva unità, x.2, un progetto Hardware o Software relativo alla diagnostica di una unità sospetta guasta.

Si è così affrontato un argomento di estremo interesse per sistemi particolarmente

critici dal punto di vista della sicurezza e della affidabilità: la necessità di continuare in real-time ad offrire i servizi anche in presenza di guasti. Ciò viene assicurando rendendo ridontante l’hardware e prevedendo gli adeguati processi software per riconoscere il guasto e riconfiurare il sistema.

BUS ‘AR’

PWR ‘B’

MEMORIA ‘B’

PWR ‘A’

BUS ‘AL’

PWR CPU ‘A’

MEMORIA ‘A’

MEMORIA ‘A’

BUS ‘BL’

PWR ‘B’CPU ‘B’

BUS ‘BR’

Out of Service



Qualsiasi osservazione che possa contribuire a rendere il documento più completo è ben accolta!

[email protected]

o

[email protected]

introduzione alle funzioni di manutenzione

Education