DL Saldature Aerospaziali

Machine Translated by Google
Saldatura nel mondo (2022) 66:643–671

https://doi.org/10.1007/s40194-022-01257-w
DOCUMENTO DI RICERCA
Rilevamento automatizzato dei difetti nella radiografia digitale delle saldature

aerospaziali utilizzando il deep learning
¨
Topias Tyystjärvi 1,2 · Iikka Virkkunen1 · Peter Fridolf3 · Anders Rosell3 · Zuheir Barsoum4
Ricevuto: 16 luglio 2021 / Accettato: 10 gennaio 2022 / Pubblicato online: 24 febbraio 2022
© L'autore(i) 2022
Astratto
Le saldature aerospaziali vengono valutate in modo non distruttivo (NDE) durante la produzione per identificare le parti difettose che
potrebbero comportare rischi strutturali, spesso utilizzando la radiografia digitale. L'analisi di queste radiografie digitali richiede tempo e denaro.
I tentativi di automatizzare l'analisi utilizzando metodi convenzionali di visione artificiale o di apprendimento automatico superficiale non hanno
finora fornito prestazioni equivalenti a quelle degli ispettori umani a causa degli elevati requisiti di affidabilità e del basso rapporto contrasto/
rumore dei difetti. Gli approcci moderni basati sul deep learning hanno compiuto notevoli progressi verso un’analisi automatizzata affidabile.
Tuttavia, i set di dati limitati rendono le attuali soluzioni di apprendimento automatico insufficienti per l’uso industriale. Inoltre, l’accettazione
industriale richiederebbe la dimostrazione delle prestazioni utilizzando parametri standard nella valutazione non distruttiva, come la probabilità
di rilevamento (POD), che non sono comunemente utilizzati negli studi precedenti. In questo studio, il data augmentation con difetti virtuali è
stato utilizzato per superare la scarsità di dati e confrontato con il data augmentation convenzionale. Una rete di segmentazione semantica è
stata addestrata per individuare difetti dai dati radiografici computerizzati delle saldature aerospaziali. Per il confronto sono state adottate
metriche standard di valutazione nelle prove non distruttive. Infine, la rete è stata utilizzata come ausilio all'ispettore in un ambiente realistico
per prevedere i difetti dalle radiografie di produzione. La rete ha raggiunto un'elevata affidabilità di rilevamento e prestazioni di dimensionamento
dei difetti, nonché un tasso di chiamate false accettabile. È stato riscontrato che l'aumento dei difetti virtuali migliora significativamente le
prestazioni, in particolare per dimensioni limitate di set di dati e per tipi di difetti sottorappresentati anche in set di dati di grandi dimensioni. Il
prototipo distribuito si è rivelato facile da usare, indicando la disponibilità per l'adozione da parte dell'industria.
Parole chiave Deep learning · Valutazione non distruttiva · Saldatura · Aumento dei dati · Probabilità di rilevamento
1. Introduzione particolarmente severi nei componenti critici per la sicurezza, come quelli utilizzati
nel settore aerospaziale.
La radiografia è ampiamente utilizzata nelle ispezioni di fusioni e Nelle NDE delle saldature, i dati radiografici vengono più
saldature nei settori aerospaziale, nucleare e automobilistico. Il comunemente analizzati da ispettori umani esperti. Questo
compito principale è trovare discontinuità che non possono essere processo manuale richiede molto tempo, dipende dall'operatore
viste tramite ispezione visiva, come pori di gas e crepe incastonate ed è costoso. I componenti spesso presentano grandi quantità di
o difetti di rottura superficiale invisibili a occhio nudo. Jonsson et difetti accettabili e pochissimi difetti inaccettabili. La rarità dei
al. [24] forniscono linee guida su come le imperfezioni della difetti critici e la monotonia dei dati di ispezione rischiano di
´
saldatura influiscono sulla resistenza alla fatica. Poiché le causare errori legati a fattori umani. Bertovic [ 4] riassume la
discontinuità riducono le proprietà strutturali e possono portare a ricerca sui fattori umani nelle NDE. Tradizionalmente, l'abilità
guasti imprevedibili, la valutazione non distruttiva (NDE) ha elevati individuale dell'ispettore e aspetti psicologici come la stanchezza
requisiti di affidabilità. I requisiti sono o lo stress sono stati considerati i principali fattori umani che
influenzano la qualità della NDE. Gli effetti delle procedure di
ispezione, delle interazioni uomo-macchina e dell'influenza del
Consigliato per la pubblicazione da parte della Commissione
gruppo sull'affidabilità dell'ispezione sono sempre più presi in
V - NDT e Garanzia di qualità dei prodotti saldati
considerazione. Lo sviluppo di strumenti automatici altamente
Topias Tyystjarvi ¨ capaci che funzionino bene con gli operatori umani è un passo
topias@trueflaw.com
fondamentale per migliorare l’affidabilità delle NDE [5].
Il carico di lavoro dell'analisi manuale nelle ispezioni costituisce
Informazioni estese sull'autore disponibili nell'ultima pagina dell'articolo. un fattore limitante in termini di robustezza e capacità.
644 Saldatura nel mondo (2022) 66: 643–671
I criteri di accettazione dei difetti possono essere correlati alla dimensione, insiemi di dati contenenti migliaia o milioni di esempi.
alla forma, alla posizione e alla vicinanza tra i difetti [20]. Criteri complessi Le risorse di dati di addestramento annotati sono limitate per molte
con definizioni precise delle dimensioni comportano il rischio che la applicazioni NDE [11, 13] e, pertanto, il potenziale dell'apprendimento
soggettività dell'operatore influisca sul risultato, portando a risultati profondo potrebbe non essere pienamente utilizzato. Recenti metodi di
incoerenti. Inoltre, a causa delle analisi costose, le risorse per la segmentazione basati sul deep learning, come la U-net proposta da
radiografia sono spesso destinate solo al rilevamento e alla classificazione Ronneberger et al. [42], consentono di sviluppare modelli ben performanti
di difetti critici che richiedono la riparazione o lo scarto del pezzo. La utilizzando set di dati più piccoli. I metodi di aumento dei dati o di
raccolta di statistiche sui difetti accettabili, come la quantità media di simulazione vengono spesso utilizzati per compensare la mancanza di
porosità nelle saldature, potrebbe essere inesplorata, indipendentemente esempi di allenamento naturale con risultati promettenti [11, 13, 26, 33].
dal potenziale vantaggio di un controllo di qualità più approfondito. Con Anche con il miglioramento della metodologia, l’adozione da parte del
un’analisi più economica e accurata, si potrebbero ottenere miglioramenti settore potrebbe essere ritardata a causa delle differenze tra i parametri
nella produzione semplicemente analizzando i dati di ispezione esistenti, di valutazione standard nelle NDE e nel deep learning, che rendono
il che alimenta ulteriormente l’interesse per l’automazione. difficile dimostrare che sono state raggiunte prestazioni sufficienti.
Sono state sviluppate diverse tecniche di automazione nel tentativo di

alleviare le difficoltà dell'analisi manuale, parzialmente o completamente. 1.1 Difetti di saldatura
L’analisi automatizzata basata sulla visione artificiale convenzionale o
sull’apprendimento automatico superficiale [34, 36, 45] ha visto un certo I processi di saldatura possono causare diversi tipi di difetti, la cui
utilizzo, soprattutto nelle ispezioni delle fusioni. Non sono stati ampiamente classificazione è standardizzata, ad esempio, nella norma ISO
adottati nelle applicazioni di saldatura a causa di sfide quali la geometria 6520-1:2007 [19]. Sono elencate sei categorie di imperfezioni: crepe,
variabile dei componenti, contrasto e luminosità bassi o incoerenti e cavità, inclusioni solide, mancanza di fusione e penetrazione, forma e
anomalie simili a difetti o geometria che producono eccessive false dimensione imperfette e imperfezioni varie. Alcuni processi di saldatura
chiamate. La Figura 1 mostra esempi di difetti e potenziali false indicazioni rischiano solo il verificarsi di alcune di queste categorie.
nei dati radiografici del materiale utilizzato nel presente lavoro.
Questo studio riguarda un processo di saldatura in cui i difetti di interesse
sono crepe e cavità. Le crepe sono imperfezioni lineari nelle saldature
Recentemente, un aumento di interesse ha centrato l’apprendimento comunemente causate dalla solidificazione o da tensioni residue. In molte
automatico e il deep learning in particolare per l’analisi delle immagini. I applicazioni, le crepe sono un evento raro ma estremamente critico in
modelli di deep learning sono sviluppati attraverso l’apprendimento massivo termini strutturali
Fig. 1 Caratteristiche dei dati

radiografici della saldatura. (a)
Anomalia simile a una crepa
non difettosa (freccia bianca). (b)
Piccolo poro in una saldatura
(freccia bianca) e lettere in
piombo con fori che ricordano i pori
(freccia nera). (c) Una coppia di
pori con dimensioni combinate
inaccettabili (cerchi bianchi uniti) e
pori più piccoli e accettabili
(cerchi neri). (d) Un'area non
difettosa sul bordo di una lastra di
imaging, simile a una grande
cavità (freccia bianca). (e) Una catena di piccoli pori (frecce bianche)
Saldatura nel mondo (2022) 66: 643–671 645
rischio. Le cavità sono causate da gas intrappolato o ritiro. I più comuni o la superficie direttamente sotto l'oggetto, contribuendo alla sfocatura
sono i pori da gas, caratterizzati da forma rotonda. La norma ISO e causando un notevole rumore di fondo. Piccoli difetti possono essere
5817:2014 [20] fornisce un esempio di livelli di accettazione per difetti difficili da distinguere da questo rumore, esibendo un piccolo rapporto
di saldatura, spesso utilizzati nel settore come base per criteri di contrasto-rumore (CNR).
accettazione più specifici per il caso. Per catturare con precisione piccole differenze di spessore, le
immagini radiografiche vengono catturate in un intervallo dinamico elevato.
1.2 Radiografia industriale Dodici bit (4096 valori di grigio) o 14 bit (16384 valori di grigio) sono i
più comuni, mentre le immagini utilizzate nei grandi set di dati di deep
La radiografia è un metodo di ispezione comune nei processi di learning come ImageNet [10] hanno una profondità di 8 bit (256 valori
produzione, in particolare nelle fusioni e nelle saldature. Una panoramica per canale). Tuttavia, la gamma dinamica teorica spesso non viene
della tecnica è fornita nel manuale ASM di Greene et al. [14]. I tre utilizzata completamente per evitare tempi di esposizione eccessivamente
metodi più importanti per acquisire l'immagine sono la pellicola, la lunghi. Aree al di fuori della regione di interesse (ROI) come una lastra
radiografia computerizzata (CR) e l'array di rilevatori digitali (DDA). La di imaging nuda (intensità massima) o scritte in piombo (intensità
radiografia su pellicola funziona in modo simile alla normale fotografia minima) occupano le estremità estreme della gamma dinamica, mentre
su pellicola: le immagini vengono sviluppate in una camera oscura e le caratteristiche interessanti sono spesso piccole deviazioni nei valori
visualizzate su un dispositivo di illuminazione con retroilluminazione di grigio. In componenti con spessore variabile, come saldature o
regolabile o digitalizzate. La CR si basa sulla memorizzazione geometria non planare, indicazioni di difetti potrebbero essere presenti
dell'immagine su una lastra di imaging riutilizzabile contenente fosforo, su intervalli di intensità molto diversi. Ciò aumenta la sfida per
che viene poi digitalizzata mediante scansione con un laser [43]. l'operatore, poiché l'intensità assoluta non può essere utilizzata per
I DDA producono direttamente un output digitale dalla radiografia. determinare la gravità dell'imperfezione rilevata. I monitor dei computer
Nonostante alcune differenze nell'utilizzo e nella qualità dell'immagine, possono visualizzare 8 bit (256 valori di grigio). I monitor radiologi di
le tecniche su pellicola, CR e DDA producono dati abbastanza simili, fascia alta possono visualizzare 10 bit (1024 valori di grigio) o anche di
pertanto per tutte è possibile utilizzare metodi di visione artificiale simili. più, tuttavia, Kimpe e Tuytschaever [25] stimano che l'occhio umano
Questo studio è condotto per un'ispezione basata su CR. possa distinguere solo tra circa 900 valori di grigio. Per utilizzare una
La norma ISO 10675-1:2017 [21] descrive alcune limitazioni della gamma dinamica più ampia di quella che l'occhio umano o il display
radiografia per il rilevamento dei difetti. Potrebbe non essere possibile possono differenziare, gli operatori regolano ripetutamente i livelli di
valutare imperfezioni superficiali come sottosquadri o schizzi di luminosità e contrasto per concentrarsi su piccole sezioni dell'intera
saldatura a causa della geometria. Inoltre, poiché la radiografia produce gamma alla volta.
un’immagine 2D sull’intero spessore della parte studiata, le aree più
spesse con densità di imperfezioni volumetriche simili sembrano più La velocità e la qualità della radiografia industriale sono in questo senso
gravi. Anche le crepe che si aprono orizzontalmente (parallele rispetto limitate dalla fisiologia umana.
alla lastra o alla pellicola) non sono rilevabili a causa dello spessore
minimo della fessura 1.3 Automazione nella radiografia digitale NDE
non producendo una differenza di intensità sufficiente. Questi effetti
rendono l’ispezione più impegnativa. NASA-STD-5009B [37] fornisce i Gli algoritmi di visione artificiale e, più recentemente, il deep learning,
valori delle dimensioni minime delle crepe rilevabili per le NDE sono stati ampiamente studiati per automatizzare l'analisi nella
radiografiche, a seconda dello spessore del componente. radiografia industriale. Gli obiettivi più comuni dei metodi proposti sono
La lunghezza minima della fessura rilevabile per componenti di 2,72 il miglioramento dell'immagine, la segmentazione (contrassegnare le
mm di spessore è 3,8 mm, che è un valore di riferimento approssimativo aree con difetti) e la classificazione tra diversi tipi di difetti. Rispetto ad
adeguato per l'area di applicazione in questo lavoro. altri campi delle NDE come gli ultrasuoni o le correnti parassite, la
Greene et al. [14] riassumono il modo in cui il processo di imaging radiografia può sfruttare più facilmente gli sviluppi in campi più generali
radiografico produce artefatti che riducono la qualità dei dati. dell'analisi automatica delle immagini, poiché le radiografie digitali sono
Le ombre si formano a causa della sorgente puntiforme di radiazione: essenzialmente immagini con alcune differenze, come descritto nella
la geometria spessa proietta un'ombra lontano dalla sorgente perché Sezione 1.2.
una quantità minore di raggio viene assorbita dal mezzo di conversione Per compensare le limitazioni nella qualità dell’immagine radiografica,
dell'immagine. Qualsiasi geometria inclinata rispetto alla lastra ai fosfori sono stati sviluppati diversi algoritmi di miglioramento e segmentazione
produce una visione distorta. Esistono molte fonti di sfocatura (effetti di prima dei recenti progressi nel deep learning. I rilevatori di bordi e i filtri
sfocatura), la più significativa delle quali è solitamente l'attenuazione di nitidezza vengono utilizzati abitualmente nell'industria. Nacereddine
geometrica, cioè l'ombra parziale proiettata a causa della larghezza et al. [36] hanno proposto il miglioramento dell'immagine per le
della sorgente di radiazione. radiografie digitalizzate delle saldature prendendo una ROI definita
Gli effetti di contrasto limitano la risoluzione effettiva, rendendo invisibili dall'utente e applicando il filtraggio mediano per la rimozione del rumore
le piccole imperfezioni al di sotto di una certa soglia. e il miglioramento del contrasto mediante la trasformazione della tabella
La radiazione si disperde quando si interagisce con l'oggetto di prova di ricerca. Hanno studiato diverse soglie
approcci per la segmentazione dei difetti, con dilatazione dell'immagine deep learning e altri metodi. Hanno anche estratto un voluminoso set di
e post-elaborazione dell'erosione. Schwartz [45] ha utilizzato un dati di patch di immagini difettose e non difettose (32 × 32 pixel) dal
penetrametro del tipo a cuneo a gradini per collegare la luminosità di database GDXray [35].
un'immagine radiografica su pellicola digitalizzata allo spessore del Lavorare con piccole patch fornisce un modo per aumentare il volume di
materiale. Hanno segmentato i difetti utilizzando il rilevamento dei bordi dati apparente per il set di addestramento, ma limita anche
Canny [7] e una soglia derivata dalle informazioni sullo spessore del necessariamente la rete dal fare previsioni basate su caratteristiche su
materiale e hanno riportato un'elevata precisione di rilevamento sulle scala più ampia che possono fornire un contesto importante, come l'area
immagini a raggi X delle saldature e su un oggetto di prova con difetti in cui si trova il difetto. Riportano prestazioni elevate (precisione del
artificiali forati. Questo tipo di approccio richiede uno spessore uniforme 95,2%) con funzionalità estratte ottimizzate manualmente e un
e l'utilizzo di attrezzature specifiche. In termini di uso industriale, la classificatore SVM. Hanno anche notato che il semplice utilizzo di
segmentazione basata sulla visione artificiale tradizionale è limitata ai funzionalità estratte da reti neurali convoluzionali (CNN) pre-addestrate
casi in cui le immagini acquisite non mostrano una grande variabilità. in ImageNet (VGG, Simonyan e Zisserman [46]; AlexNet, Krizhevsky et
Sviluppi chiave nella classificazione e segmentazione basata al. [28]; e GoogleNet, Szegedy et al. [47] ) non ha funzionato bene per
sull'apprendimento profondo da parte, ad esempio, di Krizhevsky et al. queste immagini a raggi X, nonostante fosse uno strumento efficace per
[28] e Long et al. [31] hanno portato l’apprendimento automatico a il riconoscimento nelle immagini naturali. Più recentemente, Du et al.
raggiungere l’uso mainstream nelle applicazioni di analisi delle immagini [11] hanno utilizzato un approccio FPN (Feature Pyramid Network) [30]
come le auto a guida autonoma [3]. Esistono alcune differenze tra la per rilevare vari difetti nei componenti fusi. Come in molti casi, i dati per
radiografia e le comuni applicazioni di analisi delle immagini. Nelle NDE, l'addestramento di un sistema di rilevamento a raggi X erano limitati ed
il rilevamento degli oggetti di interesse è l'obiettivo principale e la è stato utilizzato l'aumento dei dati (rotazione, ritaglio ed equalizzazione
successiva classificazione è più semplice, perché gli oggetti sono più dell'istogramma) per utilizzare i dati disponibili in modo più efficiente. Gli
semplici e sono presenti solo poche categorie. In molti casi, la autori hanno inoltre dimostrato che questo convenzionale aumento dei
classificazione binaria dello sfondo rispetto al difetto è sufficiente e dati ha una portata limitata e che un ulteriore aumento dei dati offre
un'ulteriore divisione può essere ottenuta osservando la forma rendimenti decrescenti.
(proporzioni) e la dimensione dei difetti tramite la visione artificiale
convenzionale. Ciò è in contrasto con la classificazione generica delle Jiang et al. [23] hanno proposto una nuova strategia di pooling per le
immagini, in cui la sfida principale è dare un senso alle immagini con CNN per rappresentare meglio i difetti scuri e chiari come l'inclusione di
spesso una gamma diversificata di caratteristiche. Le principali sfide scorie e tungsteno, e hanno classificato i difetti in sei categorie: fessura,
dell'analisi radiografica basata sull'apprendimento profondo sono legate mancanza di fusione, mancanza di penetrazione, inclusione di scorie,
alle piccole dimensioni e al CNR dei difetti, ai limiti della qualità porosità e non difetto. Per la formazione hanno utilizzato una serie di
dell'immagine descritti nella Sezione 1.2 e ad altre caratteristiche che 3486 immagini da 32 × 32 pixel divise in sei categorie.
sono difficili da distinguere dagli oggetti di interesse (come mostrato in Difetti simulati e difetti fisici artificiali sono stati utilizzati per generare
Fig. .1 ). dati di addestramento con risultati promettenti.
Gli approcci di deep learning si basano su una distribuzione Recentemente, Gamdha et al. [13] hanno utilizzato una combinazione di
rappresentativa e ampia di esempi al fine di ottenere una conoscenza immagini radiografiche sintetiche reali e simulate per addestrare una
generale su input mai visti prima. Come in molti altri campi, l’uso rete di segmentazione R-CNN [17] con maschera . I difetti sono stati
dell’apprendimento automatico per il rilevamento automatizzato dei difetti introdotti simulando immagini a raggi X da modelli CAD (computer-aided
è limitato dai dati di addestramento etichettati disponibili. Soprattutto design) generati con forme che raffigurano difetti caratteristici, come pori
alcuni tipi di difetti critici, come le crepe, sono relativamente rari. e vuoti. L'aggiunta di immagini sintetiche ha migliorato le prestazioni
L'etichettatura manuale diretta diventa sempre più problematica con della rete ed è stata segnalata una precisione dell'87%. Konnik et al.
l'aumento del volume dei dati, perché richiede molto lavoro ed è [26] hanno proposto di affrontare lo stesso problema creando difetti fisici
suscettibile di errori o incoerenze tra le etichette. Mery et al. [35] hanno artificiali per la tomografia computerizzata (CT). I difetti artificiali sono
pubblicato il database GDXray che contiene circa 20000 immagini a stati prodotti strato per strato mediante lavorazione laser e quindi impilati
raggi X in varie categorie. Notevoli per la radiografia industriale sono per la scansione TC, ottenendo così una rappresentazione 3D dei difetti
2727 immagini di fusioni e 88 immagini di saldature. Al momento, è accuratamente etichettata. Mery [33] ha addestrato diversi moderni
l'unico database disponibile pubblicamente in questo dominio. classificatori di deep learning sul set di dati dei getti GDXray [35]
utilizzando difetti ellissoidali simulati sovrapposti ad aree prive di difetti,
Questo set di dati è stato utilizzato sia per le ricerche iniziali che per ottenendo un'elevata precisione sui dati reali.
quelle più recenti sul rilevamento dei difetti [32, 33, 44]. Il set di getti è
adatto per la marcatura di benchmark con deep learning, ma la
dimensione del set di dati sulle saldature è ancora limitata. 1.4 Valutazione radiografica automatica in altri campi
Mery e Arteta [34] forniscono un buon riassunto sulla prima
classificazione automatizzata dei dati radiografici utilizzando In campo medico, l’analisi automatica dei raggi X che utilizza il deep
rappresentazioni sparse, classificatori Support Vector Machine (SVM), learning ha suscitato un ampio interesse. Rajpurkar et al. [38]
ha rilevato la polmonite dalle immagini radiografiche del torace R-CNN (basato su Faster R-CNN di Ren et al. [41]), che produce la
utilizzando un DenseNet proposto da Huang et al. [18], insieme alla segmentazione delle istanze dalle proposte regionali generate da
mappatura di attivazione delle classi sviluppata da Zhou et al. [54] una CNN.
per ottenere una localizzazione grossolana. Hanno riportato punteggi Jiang et al. [23] hanno utilizzato una CNN con output di
di previsione superiori al punteggio medio di radiologi esperti su una classificazione per il rilevamento dei difetti di saldatura. La
serie di test di circa 400 immagini. Allo stesso modo, Li et al. [29] È segmentazione offre vantaggi rispetto alla classificazione nelle
stata utilizzata una combinazione di Resnet da He et al. [16], YOLO applicazioni NDE: i difetti possono essere misurati e contati e la loro
di Redmon et al. [40] e una rete completamente convoluzionale forma può essere determinata, il che è importante per l'accettazione
(FCN) di Long et al. [31] per annotare le malattie nel set di dati dei difetti come discusso nella Sezione 1.1. Inoltre, i modelli di
Chestx-ray8 [51] . I successi ottenuti nella radiografia medica segmentazione forniscono per impostazione predefinita una
suggeriscono che è possibile ottenere buone prestazioni anche nelle applicazioni industriali.
previsione più spiegabile. Con i modelli di classificazione, c’è il
Le applicazioni mediche dei raggi X si concentrano su argomenti rischio di fare previsioni apparentemente corrette basate su
per i quali sono disponibili set di dati pubblici di centinaia di migliaia caratteristiche irrilevanti, come un graffio accanto a una crepa. Con
di immagini, come CheXpert [22] con 224.316 radiografie del torace. un modello di segmentazione, questo verrebbe esposto poiché
Di conseguenza, i metodi di simulazione o di aumento non sono verrebbero indicati solo i pixel appartenenti al graffio. Anche le
ampiamente utilizzati. Nella NDE, i set di dati disponibili sono architetture di rilevamento degli oggetti e di segmentazione delle
generalmente molto più piccoli. Il più grande set di dati NDE pubblici istanze sono state utilizzate in NDE. Mery [33] ha utilizzato le reti
sui raggi X, GDXray [35], contiene solo 88 immagini di saldature. YOLO [6, 39] per produrre riquadri di delimitazione e Gamdha et al.
Tuttavia, il compito di rilevamento può anche essere di natura più [13] hanno utilizzato la maschera R-CNN [17] per esempio la segmentazione.
semplice, poiché i difetti possono essere caratterizzati più
chiaramente dalla forma e variano principalmente in dimensioni e 1.6 Aumento dei dati per attività di segmentazione
proporzioni. Poiché i dati sulle NDE sono scarsi ma relativamente
semplici, la ricerca si è concentrata sui metodi di simulazione e sulla Ronneberger et al. [42] hanno sviluppato la rete U per la
produzione di difetti artificiali [13, 26, 32] . segmentazione di immagini biomediche: cellule nella microscopia a
contrasto di interferenza differenziale e contrasto di fase e strutture
1.5 Architetture di deep learning per la segmentazione neuronali nelle registrazioni al microscopio elettronico. I compiti che
mostrano sono simili a quelli della radiografia NDE in quanto i dati
Le attività di analisi delle immagini possono essere suddivise in sono bidimensionali (possono essere descritti da un'immagine in
attività di classificazione, in cui un'etichetta viene assegnata a scala di grigi) e le caratteristiche di interesse sono meno varie
un'intera immagine senza localizzazione, e attività di localizzazione rispetto ai compiti generali di segmentazione delle immagini. Inoltre,
per le quali utilizziamo gli stessi termini di He et al. [17]: rilevamento le caratteristiche si differenziano debolmente dallo sfondo o hanno
di oggetti, dove gli oggetti sono contrassegnati da un riquadro di confini poco chiari e sfumati. Quando si utilizzavano piccoli set di
delimitazione; segmentazione semantica, in cui ogni pixel è dati, hanno scoperto che l'aumento dei dati mediante deformazioni
classificato per produrre una separazione a grana fine tra le classi; elastiche casuali migliorava significativamente l'accuratezza della
e la segmentazione delle istanze, in cui gli oggetti (possibilmente segmentazione. Gli aumenti sono stati effettuati generando campi di
sovrapposti) vengono rilevati individualmente oltre alla classificazione in termini di pixel. tramite interpolazione da vettori di spostamento
deformazione
Le architetture comunemente utilizzate per la classificazione casuale e applicandoli alle immagini di addestramento.
includono Resnet di He et al. [16] e Densenet di Huang et al. [18], Le radiografie delle saldature differiscono dalle immagini al
che sono caratterizzati da stack molto profondi di strati convoluzionali microscopio cellulare poiché hanno uno sfondo più vario con oggetti
e da un vettore di output che descrive le probabilità di classe previste. di sfondo come geometria, segni, graffi e artefatti di imaging che
Zhao et al. [53] riassumono i recenti sviluppi nei modelli di rilevamento assomigliano alle caratteristiche di interesse (difetti). Inoltre, le linee
degli oggetti: ad esempio, le reti YOLO di Redmon e Farhadi [39] e rette come le crepe o la mancanza di fusione hanno un significato
Bochkovskiy et al. [6] sono comunemente usati. Lungo et al. [31] rendendo gli spostamenti casuali meno rappresentativi.
hanno introdotto gli FCN per la segmentazione semantica e hanno
notevolmente migliorato i risultati in diversi compiti, tra cui PASCAL
VOC [12]. La rete è costituita da stadi di codifica e decodifica 1.6.1 Aumento dei dati sui difetti virtuali
convoluzionali con connessioni skip tra di loro. Ronneberger et al.
[42] hanno sviluppato la U-net per compiti di segmentazione su Di solito, l'aumento consiste in operazioni geometriche come
immagini biomediche. Si basa sull'FCN con l'aggiunta di livelli di capovolgimenti, rotazioni, taglio, ritagli e ridimensionamenti casuali
sovracampionamento più apprendibili e una funzione di perdita e altre manipolazioni dell'immagine come rumore casuale e
ponderata per il bilanciamento delle classi e la separazione delle luminosità. Nel contesto della NDE, l'aumento convenzionale non
istanze. Lui et al. [17] propose la Maschera fornisce alcuna variazione per la localizzazione del difetto. Le
tecniche di simulazione, proposte da Gamdha et al. [13] e Mery [33],
ottenere variazioni di forme e posizioni. La simulazione, tuttavia, si basa rispetto alla dimensione del difetto. Un valore di prestazione standard
sull’idealizzazione dei veri difetti, portando potenzialmente alla perdita di ottenuto dalla curva POD è a90/95, ovvero la dimensione del difetto che ha
alcune variabilità naturali. una probabilità di rilevamento del 90% con limiti di confidenza del 95%.
Inoltre, imperfezioni con forme più complicate, come crepe, mancanza di Questa misura viene utilizzata per determinare il difetto più piccolo che può
penetrazione nelle saldature o crepe derivanti dai pori, richiedono uno essere riscontrato in modo affidabile. In particolare, il POD hit/miss non
sforzo crescente per essere catturate con precisione. tiene conto delle false chiamate e presuppone un rilevamento sempre più
difficile con dimensioni dell'imperfezione inferiori. Altri approcci per la
Virkkunen et al. [49] hanno introdotto un metodo per creare difetti virtuali determinazione del POD includono aˆ vs. a, descritto in ASTM E3023-21 [2]
per i dati UT da utilizzare nella qualificazione NDE come alternative ai difetti e POD assistito da modello [8, 9].
nei modelli fisici. Il principio del difetto virtuale è quello di estrarre i segnali
del difetto reale dai dati di ispezione, aumentare il segnale del difetto Il tasso di chiamate false viene analizzato separatamente dall'affidabilità.
separatamente e reintrodurlo in un'altra posizione. Hanno generato un Nella norma MIL-HDBK-1823A [1], il tasso di chiamate false è definito come
ampio insieme di dati da difetti reali limitati per misurare in modo più accurato falsi positivi divisi per il numero di opportunità. La definizione delle opportunità
le prestazioni degli ispettori. Virkkunen et al. [50] hanno utilizzato la è specifica al caso e dovrebbe essere effettuata in modo da riflettere bene
tecnologia dei difetti virtuali come aumento dei dati per un classificatore di l'ispezione.
deep learning per i dati dei test a ultrasuoni (UT). Koskinen et al. [27] hanno Le prestazioni di segmentazione del deep learning sono spesso
confrontato diversi tipi di difetti virtuali e difetti simulati come dati di misurate dall'intersezione sull'unione (IoU), ovvero la sovrapposizione delle
addestramento per UT, scoprendo che i difetti virtuali hanno sovraperformato aree reali e previste divise dalle unioni delle aree reali e previste. A differenza
i dati puramente simulati e che i dati simulati da soli erano insufficienti per dei parametri NDE, IoU combina il rilevamento e le false chiamate in un
la generalizzazione. Il vantaggio del difetto virtuale è che genera variabilità unico valore e non collega la dimensione dell'oggetto al tasso di rilevamento
sia nei segnali di fondo che in quelli di difetto, pur avendo sia i difetti che il come POD. L'IoU può anche essere calcolato separatamente tra ciascun
fondo ricavati da dati reali. Xu et al. [52] hanno utilizzato una tecnica in difetto di verità fondamentale e previsione sovrapposta. Spesso viene
qualche modo simile per addestrare una rete per l'opacizzazione delle impostata una soglia per determinare la quantità minima di sovrapposizione
immagini, estraendo manualmente gli oggetti in primo piano da immagini richiesta per accettare una segmentazione corretta. Come discusso da Mery
con sfondi semplici e componendoli su nuovi sfondi, riportando buone [33], i difetti nelle radiografie possono essere molto piccoli, estendendosi
prestazioni su immagini naturali. solo su una manciata di pixel, il che rende la soglia IoU più difficile da
raggiungere rispetto alla maggior parte delle applicazioni in cui le
caratteristiche di interesse sono più grandi. Un altro caso è quello dei cluster
di difetti, in cui una previsione può coprire correttamente due difetti molto
Un altro vantaggio chiave del difetto virtuale è la capacità di combinare vicini, ma produrre un punteggio IoU basso perché non fornisce due
difetti provenienti da diverse fonti. Ad esempio, le crepe sono importanti da indicazioni separate. Il POD hit/miss non richiede la misurazione corretta
trovare ma molto rare nei dati reali: utilizzando difetti virtuali, è possibile delle dimensioni, ma solo il rilevamento.
estrarre crepe da altri componenti o crepe prodotte artificialmente in campioni

di validazione e trasferirle sullo sfondo specifico del caso.
1.8 Obiettivi del lavoro presentato
1.7 Convalida Identifichiamo che le questioni chiave nello sviluppo di sistemi automatizzati
e basati sul deep learning per la radiografia industriale sono la scarsità di
La valutazione della qualità dell'ispezione è parte integrante della NDE. dati annotati, le sfide specifiche relative ai dati radiografici che differiscono
Sopravvalutare le capacità rappresenta un evidente rischio per la sicurezza, dalle immagini comuni e la necessità di adottare metriche di deep learning
mentre sottostimarle comporta un aumento dei costi. Le misurazioni comuni per seguire gli standard di settore in Convalida NDE.
sono affidabilità, precisione e tasso di chiamate false. L'affidabilità, la metrica
più importante, è la capacità di rilevare i difetti, mentre l'accuratezza è la I contributi di questo articolo sono i seguenti. Innanzitutto, mostriamo
qualità con cui si determinano le dimensioni dei difetti. Il tasso di chiamate che le moderne reti di segmentazione semantica possono essere utilizzate
false misura la frequenza con cui vengono fornite false indicazioni. per trovare difetti di saldatura in un caso di ispezione reale, utilizzando i dati
CR delle saldature nei componenti aerospaziali. In secondo luogo,
Una curva di probabilità di rilevamento (POD) colpita/persa è una misura esploriamo il vantaggio aggiuntivo dell’aumento dei difetti virtuali a diverse
di affidabilità standard nelle NDE. Una descrizione completa è disponibile in dimensioni di set di dati, raccogliendo e annotando prima un set di dati di
MIL-HDBK-1823A [1]. In una valutazione POD hit/miss, vengono esaminati grandi dimensioni e testando progressivamente le prestazioni su sottoinsiemi
i dati di ispezione con posizioni e dimensioni dei difetti note, documentando più piccoli del materiale originale. In terzo luogo, prendiamo i parametri dalle
i difetti rilevati e non rilevati. Un modello lineare generalizzato viene quindi pratiche standard nelle NDE e li adattiamo a un contesto di deep learning
adattato ai dati hit/miss che denotano la probabilità di rilevamento per facilitare l’implementazione nelle applicazioni industriali. Infine, valutiamo
l’efficacia
del sistema come strumento di assistenza nell'ispezione radiografica su campioni di materiale simile. Per rendere rappresentativi i dati
conducendo un esperimento sul campo. Consideriamo il processo di aggiunti, i campioni fratturati sono stati scansionati con la stessa
imaging come dato, ovvero non vengono apportate modifiche apparecchiatura radiografica.
all'acquisizione dei dati. Le prestazioni vengono confrontate con le Il processo di annotazione è delineato in Fig. 2. I difetti sono stati
valutazioni effettuate da ispettori umani e non, ad esempio, con i risultati annotati manualmente per ciascuna immagine, ottenendo 3500
della valutazione metallografica. indicazioni separate, di cui 4 erano crepe trovate nelle immagini originali
e 5 erano crepe da fatica termica prodotte. Oltre ad annotare i difetti, su
ciascuna immagine sono stati contrassegnati manualmente due tipi di
2. Materiali e metodi maschere. Le aree di saldatura sono state mascherate per un uso
successivo nella fase di aumento e valutazione dei dati sui difetti virtuali.
L’esperimento è stato suddiviso nelle seguenti fasi. Innanzitutto, i dati I fori praticati negli indicatori di qualità dell'immagine (IQI) sembravano
grezzi sono stati raccolti da un'ispezione radiografica reale delle saldature molto simili ai pori e riducevano leggermente le prestazioni se inclusi
aerospaziali e annotati manualmente. Inoltre, le piastre campione con come esempi non difettosi. Pertanto, sono stati mascherati per
crepe da fatica termica sono state riprese con la stessa unità radiografica consentire loro di essere esclusi dai dati di addestramento.
e annotate. In secondo luogo, è stato utilizzato l'aumento dei difetti
convenzionale e virtuale per generare set di dati di addestramento da Per la fase di sviluppo iniziale, le immagini grezze sono state divise
sottoinsiemi progressivamente più piccoli dell'intero dato. Un terzo set di casualmente in set di dati di training (60%), validazione (20%) e test
dati combinato è stato creato campionando equamente i due set di dati (20%). Il numero di crepe originali era insufficiente sia per l'addestramento
aumentati. Successivamente, un modello U-net modificato [42] è stato che per la validazione, quindi tutte le immagini con crepe originali sono
addestrato utilizzando diversi set di dati per generare maschere di state inserite nei set di validazione o di test e il set di addestramento
segmentazione semantica dei difetti rispetto allo sfondo. Le prestazioni conteneva tutte le crepe prodotte, ovvero solo i difetti virtuali sono stati
del modello sono state confrontate utilizzando le metriche NDE pertinenti utilizzati in caso di crepe . I set di training e validazione sono stati
di POD, precisione del dimensionamento e tasso di chiamate false. Dopo successivamente combinati per essere utilizzati nella validazione
la convalida, il modello di deep learning per il rilevamento dei difetti è incrociata per confrontare i tre diversi metodi di potenziamento. Il set di
stato distribuito su un dispositivo autonomo con un'unità di elaborazione test è stato riservato per una valutazione finale.
grafica (GPU).
Abbiamo creato visualizzazioni dalle maschere di segmentazione
generate applicando criteri di dimensione, forma e prossimità per 2.3 Valutare il significato dell'aumento dei dati sui
separare i difetti accettabili da quelli inaccettabili. Il sistema è stato difetti virtuali
testato da ispettori esperti per valutare qualitativamente la sua
disponibilità per l'uso industriale. Abbiamo confrontato 3 diverse strategie di aumento dei dati: standard
(utilizzando taglio casuale, rotazione, ritaglio e ridimensionamento,
2.1 Caso di ispezione inversioni, rumore, luminosità e contrasto), virtuale puro, utilizzando solo
difetti virtuali e combinato, un campionamento uniforme dei primi due
L'applicazione studiata in questo lavoro è l'ispezione delle saldature nei con il 50% di ciascun. Le pipeline di elaborazione risultanti nei tre set di
componenti aerospaziali basata su immagini digitali a raggi X. I difetti dati aumentati sono presentate in Fig. 2.
nelle saldature ispezionate sono principalmente piccoli pori. Pori più
grandi e ammassi di pori sono le imperfezioni inaccettabili più comuni Per l'aumento standard, patch da 512 × 512 pixel sono state estratte
riscontrate. L'ispezione a raggi X è impostata con CR e impiega energie casualmente dalle immagini originali, metà contenenti difetti e metà
di sorgente di circa 150 kV e superiori. Il CNR delle falle può essere pulite. Poiché la linearità delle caratteristiche, come i bordi di saldatura o
molto piccolo, talvolta prossimo all’unità. Le immagini hanno un'elevata le cricche, hanno un significato nel nostro caso, abbiamo utilizzato
gamma dinamica che rende il processo di ispezione arduo, poiché gli trasformazioni affini che preservano le linee rette in contrasto con le
operatori potrebbero dover navigare tra le immagini ingrandendo e deformazioni elastiche casuali utilizzate da Ronneberger et al. [42].
regolando manualmente la luminosità e il contrasto per diversi parametri.
Per l'aumento virtuale dei difetti, abbiamo utilizzato un metodo simile
le zone. a Virkkunen et al. [50], modificato per i dati radiografici.
I difetti annotati sono stati estratti dallo sfondo. I difetti estratti sono stati
2.2 Dati grezzi, annotazioni e fessure prodotte aumentati con trasformazioni affini, rumore casuale e inversioni, e
quindi reintrodotti su aree non difettose sulle saldature utilizzando le
È stato raccolto un set di dati composto da 223 immagini CR, ciascuna maschere di saldatura contrassegnate manualmente. Anche in questo
contenente diverse aree saldate. I difetti nel set di dati erano caso, patch di immagini di dimensione 512 × 512 pixel sono stati
principalmente pori. Per espandere il set di addestramento con i dati campionati casualmente dalle immagini di training, con il 50% di esempi
sulle cricche, sono state prodotte 5 fessure per fatica termica difettosi e il 50% non difettosi. A
Radiografie di
Saldare radiografie piastre con termico
crepe da fatica
Dati grezzi
Annotazione manuale Annotazione manuale Annotazione manuale Annotazione manuale
Realtà di base Realtà di base

Maschere IQI Maschere di saldatura Annotazioni
maschere maschere
Estrarre
le crepe
Escludi dalle patch Estrai

patch
Estrarre i difetti
Segnali di difetto
Difetto Determinare
aumento le posizioni dei
difetti virtuali
Difetti virtuali
Elaborazione delle immagini
Impiantare
Virtuale difettoso
Patch difettose Patch pulite
cerotti
Toppa
Toppa
aumento
aumento
Ingresso Campione Ingresso Campione Puro virtuale

standard combinato ingresso Aumentato
dati in ingresso
Modello del treno
Fig. 2 Fasi di elaborazione dei dati che danno come risultato tre diversi input aumentati: standard, virtuale puro e combinato. La lavorazione è composta da quattro
fasi: raccolta di dati grezzi, creazione di annotazioni, elaborazione di immagini e campionamento di set di dati virtuali standard e puri per un input combinato
rappresentano difetti raggruppati comunemente presenti nelle saldature, fino a Precedenti studi di Virkkunen et al. [50] e Koskinen
cinque difetti virtuali sono stati impiantati casualmente in ciascun difetto et al. [27] utilizzando l'aumento dei difetti virtuali sui dati UT
esempio, ma meno (1–2) sono i più comuni. avevano un numero limitato di difetti reali nei loro set di dati,
Sono stati aggiunti i segnali estratti di cricche da fatica termica quindi è stato utilizzato un approccio basato su difetti virtuali puri. comunque, il
l'aumento del difetto virtuale. Per compensare il piccolo il materiale in questo studio fornisce una rappresentazione più ampia di
numero di crepe, i segnali di crack erano sovrarappresentati posizioni dei difetti nella sua forma originale, senza possibilità
rispetto al loro numero nel set di dati originale, per artefatti o distribuzione distorta che potrebbero essere presenti
in modo che costituissero il 5% di tutti i difetti impiantati. IL il processo del difetto virtuale. Pertanto, abbiamo studiato se combinare
le fessure impiantate risultanti presentano una variazione naturale inferiore rispetto a l'aumento standard e l'aumento dei difetti virtuali possono
i pori, ma le trasformazioni affini ne costituiscono un equo migliorare i risultati creando un set di dati campionati 50/50 da
distribuzione rappresentativa dei difetti per il compito, in modo simile a l'aumento virtuale standard e puro. Esempi di
i difetti in un approccio simulativo di Mery [33]. l'aumento del difetto standard e virtuale è mostrato in Fig. 3.
Fig. 3 Patch di dati di addestramento e relative etichette per difetto virtuale Aumento standard. (e) Patch non modificata. (f) Maschera di verità
e aumento standard. Prima riga: difetto virtuale. (a) Dopo l'impianto del corrispondente. (g) Dopo l'aumento. (h) Maschera di verità corrispondente
difetto. (b) Maschera di verità corrispondente. (c) Dopo ulteriore aumento.
(d) Maschera di verità corrispondente. Seconda fila:
2.4 Architettura del modello immagini in batch sottraendo la media e dividendo per la deviazione
standard.
Abbiamo scelto un approccio di segmentazione semantica basato Una rete a U modificata da Ronneberger et al. [42] è stato scelto
sulle seguenti considerazioni. I difetti che si intersecano o sono vicini per le prestazioni promettenti in compiti di segmentazione simili, per
tra loro vengono solitamente trattati come un'unica grande indicazione l'implementazione semplice e per la sua velocità nel momento
in termini di accettazione dell'ispezione, quindi non è necessario dell'inferenza. Uno schema dell'architettura utilizzata in questo lavoro è
separare accuratamente i difetti. In casi come questo, è possibile mostrato in Fig. 4. Si tratta di un'architettura codificatore-decodificatore
utilizzare architetture di segmentazione semantica invece della completamente convoluzionale con connessioni skip tra gli stadi
segmentazione di istanze senza perdita di benefici per il caso d'uso. codificatore e decodificatore corrispondenti. Gli input sono patch di
Ciò semplifica il processo di annotazione, poiché le indicazioni immagini di dimensioni 256 × 256 pixel e l'output è una maschera di
sovrapposte o adiacenti non devono essere separate. Le reti di classificazione in termini di pixel con pixel con valore 0 che indicano
rilevamento degli oggetti (che emettono riquadri di delimitazione), lo sfondo e pixel con valore 1 che indicano il difetto. L'architettura del
d'altro canto, forniscono meno informazioni sulla forma del difetto, il modello è mostrata in Fig. 4. Le differenze rispetto alla U-net originale
che può essere problematico, ad esempio, nel caso di una fessura sono le seguenti. Abbiamo utilizzato meno filtri per velocizzare
posizionata diagonalmente, che produrrebbe un riquadro di l'addestramento e l'inferenza, poiché non è stata rilevata alcuna
delimitazione approssimativamente quadrato. Successivamente perdita di precisione derivante dalla riduzione delle dimensioni del
abbiamo utilizzato passaggi di post-elaborazione dipendenti dalla modello. Abbiamo modificato la convoluzione verso l'alto in
linearità del difetto, quindi è stata necessaria l'annotazione per pixel. upsampling + convoluzione per compatibilità con una versione
Abbiamo preelaborato i dati mediante mascheramento di contrasto TensorRT ottimizzata del modello utilizzato nella distribuzione.
per evidenziare i difetti, in modo simile a quanto utilizzato dagli Abbiamo utilizzato il riempimento nelle convoluzioni per mantenere
ispettori umani, e concatenato le immagini sfocate e nitide in l'altezza e la larghezza costanti tra gli strati di pooling. Infine, abbiamo
un'immagine di input a 2 canali per preservare le informazioni utilizzato un'attivazione sigmoidea per produrre una classificazione
originali. Abbiamo sottocampionato l'input da 512 × 512 a 256 × 256 binaria (difetto rispetto a sfondo) anziché un output di 3 classi (primo
pixel per ridurre i costi computazionali sulle immagini di input ad piano, sfondo, bordo) poiché non richiedevamo una segmentazione
altissima risoluzione. Ciò è stato fatto innanzitutto invertendo le consapevole dell'istanza (separazione dei difetti sovrapposti).
immagini, in modo che i difetti fossero leggeri (valori grandi), e quindi Per tenere conto dello squilibrio tra il numero di pixel di sfondo e
massimizzando il pooling. Infine, abbiamo normalizzato il di pixel difettosi, abbiamo utilizzato un sistema binario ponderato
1 Sfocatura, maschera di contrasto, concatena

2 Normalizzazione
1 2 2 2 32 32 64 321 1
3 2x2 pooling massimo 4
Conv. 3x3, ReLU 5
Upsampling del vicino più vicino
+ Conv. 3x3, ReLU 6
Concatenare
Conv 1x1, sigmoideo
7 8Upsampling del vicino più vicino
3 4 4 4 7 8
6
652x652
652x652
652x652
652x652
652x652
652x652
1 2
3 64 64 128 5
4 4 4
6
821x821
821x821
821x821
821x821
821x821
32 3 5 64
128 128 256
4 4 4
46x46
46x46
6
46x46
46x46
46x46
215x215
215x215
215x215
215x215
64 3 5 128
256
4 4
23x23
23x23
23x23
128 256
Fig. 4 Uno schema dell'architettura del modello U-net modificato utilizzato per rilevare ogni. Il blocco del pool massimo e delle due convoluzioni viene ripetuto due volte,
difetti nelle radiografie. I rettangoli rappresentano un singolo esempio mentre si raddoppiando ogni volta i filtri. Vengono eseguite due convoluzioni 3×3 tra gli stadi
propaga attraverso la rete. Le loro dimensioni riflettono le dimensioni dei dati. Il valore codificatore e decodificatore, come mostrato nella sezione centrale in basso.
nella parte superiore o inferiore di ciascun rettangolo mostra la profondità del tensore Questo è seguito da 3 blocchi di sovracampionamento: sovracampionamento,
elaborato (o dell'immagine), mentre i valori all'interno di ciascun rettangolo sono la convoluzione, concatenazione dallo stadio codificatore di uguali dimensioni e un'altra
larghezza e l'altezza. L'immagine in input, a sinistra, è un'immagine monocromatica convoluzione. Infine, una convoluzione 1×1 con attivazione sigmoidea produce le
da 512×512 pixel. L'immagine viene prima preelaborata mediante mascheramento maschere di segmentazione binaria, che vengono sovracampionate alla dimensione originale.
di contrasto, normalizzazione e raggruppamento massimo a metà dimensioni, seguito In totale, il modello ha 1,7 milioni di parametri addestrabili
da due serie di convoluzioni 3×3 con 32 filtri
entropia incrociata che pesa le perdite nei pixel difettosi superiori rispetto ai nei bordi dell'immagine. Dopo l'inferenza, le maschere risultanti vengono
pixel di sfondo in modo simile a Ronneberger et al. [42]. Il peso era un riunite in una maschera di annotazione a grandezza naturale.
iperparametro ottimizzato, ne abbiamo trovati 3 che funzionavano meglio. Il Le regioni sovrapposte vengono unite mediante un'operazione OR, ovvero
modello è stato addestrato utilizzando l'ottimizzatore Adam con una un'indicazione in uno dei patch sovrapposti viene aggiunta alla maschera a
dimensione batch di 32. Il tasso di apprendimento è stato dimezzato ogni grandezza naturale.
2500 passaggi se non si è verificato alcun miglioramento nella perdita di Dopo aver generato maschere a grandezza naturale per le immagini di
convalida. Sono stati salvati i pesi che hanno prodotto la minore perdita di input, è stata eseguita un'ulteriore post-elaborazione per applicare regole di
validazione durante l'addestramento. accettazione basate su dimensione, forma e prossimità. Le maschere di
classificazione sono state postelaborate come segue. Le singole aree
2.5 Inferenza e post-elaborazione dell'output del modello indicate sono state misurate inserendo un cerchio attorno a ciascuna area
mascherata. Le informazioni sulla scalatura pixel-millimetro dell'immagine
Per facilitare i calcoli ad alta intensità di memoria, il modello accetta come sono state utilizzate per fornire il diametro di ciascuna indicazione in
input patch di immagini molto più piccole rispetto a quelle delle radiografie millimetri. Le indicazioni molto vicine tra loro sono state unite, secondo le
originali. Per fare deduzione su queste immagini di grandi dimensioni, è regole di accettazione secondo cui i difetti abbastanza vicini tra loro vengono
stata inizialmente utilizzata una finestra scorrevole per dividere ciascuna interpretati come un unico grande difetto. I difetti di forma lineare sono stati
immagine in patch con una certa sovrapposizione per aumentare la classificati inserendo un rettangolo attorno a ciascuna indicazione e
robustezza. Come nell'approccio inferenziale di Ronneberger et al. [42], i contrassegnando quelli con proporzioni strette. Sono stati rilevati cluster di
confini vengono rispecchiati per individuare meglio i difetti difetti
per vicinanza e porosità sono state rilevate catene da segmentare le aree di saldatura per escludere indicazioni esterne
cluster utilizzando lo stesso test di linearità utilizzato per i singoli ROI.
difetti. Abbiamo misurato le prestazioni di dimensionamento, o l'accuratezza, del
Dopo aver applicato le regole di accettazione, le annotazioni risultanti sistema come segue. Per ogni colpo, abbiamo utilizzato un cerchio che lo racchiude
erano visualizzati da cerchi. Difetti e cluster che erano idoneo a misurare il raggio dell'indicazione vera e prevista.
classificati come critici, a causa delle dimensioni o simili a crepe Se più di una previsione si sovrapponeva al vero difetto,
morfologia, erano contrassegnati da cerchi bianchi. Accettabile abbiamo scelto quello con la IoU più grande. Abbiamo calcolato il
i difetti erano contrassegnati da cerchi neri. Il più piccolo errore assoluto medio in millimetri.
indicazioni individuali sotto un dato limite di rilevabilità da Utilizzando le metriche di cui sopra, è stata eseguita una convalida incrociata
l'ispezione non è stata contrassegnata. quintuplicata con sette sottoinsiemi di dati
segue. Per ciascuna delle cinque esecuzioni nella convalida incrociata,
2.6 Valutazione un set di controllo di un quinto dei dati è stato riservato e il
il resto è stato utilizzato per la formazione e la convalida. All'interno di ogni corsa,
Le metriche di convalida standard nel deep learning e NDE erano sette sottoinsiemi di dati di addestramento con dimensioni decrescenti
enfatizzare aree leggermente diverse. Per ricevere l'accettazione utilizzato: 100%, 75%, 50%, 25%, 10%, 5% e infine 1,5%.
nelle applicazioni industriali, la validazione di un sistema automatizzato Le dimensioni dei set di dati sono presentate nella Tabella 1. Il
il sistema dovrebbe adattarsi alle pratiche di NDE. Spesso si usa un POD il set di dati più piccolo conteneva circa 225 512 × 512 unici
misurare la capacità dell'intero sistema NDE, incluso patch di pixel di dati e 14 difetti in media, che rappresentano
attrezzature e analisi. La valutazione POD in questo articolo un materiale estremamente limitato. I set di controllo consistevano
riguarda il rilevamento dalle radiografie disponibili. di 35 immagini raw, suddivise come descritto nella Sezione 2.5 a
Seguendo le considerazioni nella Sezione 1.7, abbiamo interpretato formano circa 35000 patch (senza sovrapposizione, circa 7875
qualsiasi sovrapposizione come un successo nel calcolo del POD. Abbiamo usato il patch unici di dimensioni 512 × 512 pixel). Il set formativo
POD e limiti di confidenza al 95% per determinare l' a90/95 è stato campionato in modo casuale dai dati di addestramento disponibili
dimensione del difetto, ovvero la dimensione del difetto rilevato in base alla dimensione di ciascun sottoinsieme. Un set di dati di convalida con
Probabilità del 90% con confidenza del 95%. Se significativamente grande Il 20% dei restanti dati di allenamento è stato utilizzato per salvare i migliori
fossero presenti difetti nel materiale, un'altra metrica lo farebbe modello performante durante l'allenamento. Le pieghe erano leggermente
essere richiesto, tuttavia, tutti i difetti nel set di dati erano piccoli. quantità variabili di difetti, perché i dati sono stati campionati come
Abbiamo definito il tasso di chiamate false come il numero di chiamate false per immagini intere, ciascuna con un diverso numero di difetti. IL
lunghezza unitaria della saldatura. Sono state stimate le lunghezze delle saldature i metodi di aumento confrontati utilizzavano gli stessi sottoinsiemi di
scheletralizzando le maschere delle saldature etichettate manualmente con dati grezzi.
l'algoritmo di assottigliamento di Guo e Hall [15]. Il numero Ogni set di addestramento è stato utilizzato per addestrare 3 modelli: The
di false chiamate è il numero di regioni previste con n il primo utilizzando l'aumento standard, il secondo utilizzando puramente
verità fondamentale sovrapposta. Abbiamo osservato che un significativo difetti virtuali e il terzo utilizzando un campionamento uniforme di
parte delle false chiamate si sono verificate al di fuori dell'area di saldatura. aumento dei difetti standard e virtuali. Ogni modello era
Se utilizzato come ausilio per l'ispettore, l'utente si limita ad andare addestrato per 15.000 passi con batch size 32, utilizzando Adam
per considerare le risposte che appaiono sulla saldatura. Per riflettere ottimizzatore con tasso di apprendimento iniziale 0,0005. Il tasso di apprendimento
prestazioni in questo caso d'uso primario, abbiamo anche misurato il veniva dimezzato ogni 2500 passi se non si verificava alcun miglioramento
tasso di chiamate false limitato all'area di saldatura per la quale viene utilizzato sul set di validazione. La formazione è stata effettuata su
le maschere di saldatura annotate manualmente per filtrare le false chiamate una GPU Nvidia RTX 3090 e ha impiegato circa 1 ora per
fuori dalle ROI. In uno studio successivo, pianificheremo di farlo automaticamente modello.
Tabella 1 La dimensione del treno,

validazione e dati di test per ciascuno Sottoinsieme immagini Patch uniche Difetti (piega più piccola)
eseguire la convalida incrociata per
Treno Validazione Treno Validazione Treno Validazione Test
diminuzione delle dimensioni del set di dati,
compreso tra il 100 e l'1,5%.

dati utilizzati: il numero di 100% 112 28 25200 6300 1711 399 497
immagini di formazione e convalida 75% 84 21 18900 4725 1276 285 516

dimensioni 7750 × 7750 pixel su 5% 56 14 12600 3150 783 178 499
media per piega, il
25% 28 7 6300 1575 347 69 491
numero approssimativo di univoci
Patch da 512 × 512 pixel nel file 10% 11 3 2475 675 173 48 472
immagini e il minor numero di 5% 6 1 1350 225 73 9 476
difetti fuori dalle pieghe in ciascuno
1,5% 1 1 225 225 7 3 432
frazione
2.7 Valutazione sul campo
Dopo la valutazione quantitativa (Sezione 2.6), un modello addestrato

utilizzando l'aumento combinato è stato implementato in un ambiente di
test come parte di una pipeline di ispezione. Per facilitare l'utilizzo in un
ambiente ad alta sicurezza è stata utilizzata un'unità edge computing
autonoma senza connessione Internet. Il modello è stato convertito in
TensorRT e integrato in un software che ha generato annotazioni dall'input
radiografico. I formati dei dati di input e output sono stati impostati per
funzionare con il software di visualizzazione degli utenti. Le visualizzazioni
basate sulle regole di segmentazione e accettazione sono state valutate
dal personale addetto all'ispezione radiografica confrontando la loro analisi
con le annotazioni fornite dal modello. I risultati qualitativi sono stati raccolti
discutendo con gli utenti. Agli utenti è stato chiesto di descrivere
l'affidabilità, la trasparenza, la facilità d'uso del sistema e i vantaggi
Fig. 5 Curve POD per un modello di deep learning addestrato utilizzando
derivanti dalla procedura di ispezione. L'hardware del prototipo era meno
l'aumento combinato (standard e difetto virtuale) e il 100% dei dati di
potente dell'unità prevista per l'implementazione e il sistema presentava
addestramento disponibili. Come risultato di una convalida incrociata di 5 volte,
alcune incompatibilità con il software degli utenti. Lo studio sul campo ha vengono disegnate 5 curve POD separate, ciascuna per un modello addestrato
avuto un numero limitato di partecipanti (tre) ed era quindi indicativo. In e convalidato separatamente. I successi sono contrassegnati da punti neri nella
parte superiore della trama e i mancati nella parte inferiore. La curva tratteggiata
futuro prevediamo di affrontare i problemi hardware e software per
viene calcolata prendendo il minimo dei limiti di confidenza inferiori del 95% di ciascuna curva POD
condurre test sul campo più completi. L'intersezione del limite inferiore di confidenza con POD = 0,9, contrassegnato
dalle linee orizzontali e verticali tratteggiate, è il caso peggiore
a90/95
con differenze significative rispetto all'aumento virtuale standard e puro

3. Risultati con set di dati di piccole dimensioni. Per l'aumento combinato, l' a90/95 è
rimasto piccolo anche in sottoinsiemi molto piccoli.
3.1 Prestazioni e POD L'aumento dei difetti virtuali e l'aumento convenzionale hanno funzionato
più o meno altrettanto bene con i set di dati più grandi, indicando che il
I modelli hanno raggiunto una buona velocità di inferenza. Un'immagine di materiale era sufficiente per catturare in gran parte le caratteristiche
dimensioni 7900 × 8300 pixel, divisa in 960 patch, impiega circa 6 secondi importanti nell'ispezione indipendentemente dal metodo di aumento: le
(6,3 ms per patch) per annotare su una scheda grafica Nvidia GTX 3090 prestazioni erano probabilmente più limitate dalla linea oscura tra difetto e
o 15 secondi su una Nvidia Jetson AGX Xavier che esegue un modello non difettoso con indicazioni di piccole dimensioni. Con la diminuzione
convertito in TensorRT. delle dimensioni del set di dati, entrambi i metodi con l'aumento dei difetti
Le curve POD per il modello di aumento combinato addestrato sul virtuali hanno sovraperformato significativamente l'aumento normale. Ciò
100% dei dati di addestramento disponibili sono mostrate nella Fig. 5. è probabilmente dovuto all’insufficiente variabilità nella posizione e nelle
Vengono tracciate cinque curve, una per ciascun modello addestrato e dimensioni dei difetti con il metodo convenzionale.
convalidato nella convalida incrociata. Tutte le curve POD sono mostrate
nell'Appendice A. A causa delle grandi dimensioni del set di test, il limite La Figura 6b presenta i risultati dell'errore di dimensionamento. Le
inferiore di confidenza del 95% (linea tratteggiata) è molto vicino alle curve. differenze sono piuttosto piccole, con l'aumento standard e l'aumento
L' a90/95 risultante è piccolo, indicando che il modello è sufficientemente combinato che danno risultati complessivamente migliori. Le differenze tra
sensibile. i metodi erano minori rispetto a quelle dell’a90/95 e gli errori di
dimensionamento erano generalmente piccoli, indicando che una volta
3.2 Confronto tra metodi di data augmentation che un segnale viene correttamente classificato come difetto, la sua
segmentazione accurata è un compito più semplice per il modello di deep
Sono stati utilizzati quattro parametri per confrontare l'aumento standard, learning.
virtuale puro e combinato. Per ciascuno sono stati presentati i risultati dei I risultati per il tasso di chiamate false sull'area di saldatura sono
casi peggiori della convalida incrociata: a90/95, errore di dimensionamento, mostrati in Fig. 6c. I tassi erano abbastanza vicini tra loro, circa 1-2 false
tasso di chiamate false sull'area di saldatura e tasso di chiamate false chiamate per 10 cm di saldatura, senza alcun aumento significativo fino a
sull'intera immagine. quando non veniva utilizzato il 5% o meno dei dati di addestramento.
La Figura 6a mostra i risultati per a90/95. L'aumento combinato ha Al 5%, il metodo combinato è rimasto allo stesso livello mentre il puro
ottenuto i migliori risultati per tutte le frazioni di dati, aumento virtuale e standard ha fatto molto
Fig. 6 Quattro metriche di

valutazione NDE rispetto alla frazione
di dati per i tre metodi di aumento:
standard, virtuale puro e
aumento combinato. Vengono
visualizzati i risultati del caso
peggiore derivanti da una convalida incrociata quintupla.
Un valore inferiore è migliore per tutte le metriche.
(a) a90/95. (b) Errore di dimensionamento.

(c) Tasso di chiamate false sull'area di saldatura.
(d) Tasso di chiamate false sull'immagine
altre false chiamate. All'1,5%, il metodo combinato ha iniziato a mostrare un I tassi di chiamate false su intere immagini (anche al di fuori dell'area di
numero eccessivo di chiamate false mentre l'aumento virtuale e standard ha saldatura) sono mostrati in Fig. 6d. I tassi erano significativamente più alti
fatto meno. rispetto alle aree di saldatura, rivelando che la maggior parte delle chiamate false
Fig. 7 Maschere di segmentazione per

un campione di dati di test su modelli
addestrati con il 5% del set di dati, che
illustrano le differenze di
prestazioni nella segmentazione dei
cluster di pori. (a) Un'immagine di input
con porosità raggruppata sopra e
accanto alla saldatura. (b)
Verità fondamentale annotata
manualmente. (c) Aumento standard.
La segmentazione prevista
manca di alcuni pori più grandi e ne
trova altri in modo
apparentemente casuale. (d)
Aumento dei difetti virtuali. La maschera
è molto vicina alla realtà, con una
piccola mancanza al centro.
(e) Aumento combinato con una
previsione quasi identica alla
verità fondamentale

un campione di dati di test su modelli
prestazioni nella segmentazione di
cavità di grandi dimensioni. (a)
Un'immagine in input con una
cavità insolitamente grande. (b) Verità
fondamentale annotata manualmente. (c) Aumento standard.
Si trovano i pori piccoli e insignificanti,
mentre manca la cavità grande. (d)
Aumento virtuale del difetto,
mancante anche la cavità grande. (e)
Aumento combinato. La grande
cavità è correttamente segmentata
si è verificato al di fuori delle ROI. Il puro aumento dei difetti virtuali 3.3 Risultati qualitativi
ha avuto risultati peggiori rispetto ai metodi standard e combinati.
L'aumento standard ha effettuato nel complesso meno chiamate Esempi di segmentazione dei modelli sono presentati nelle Figg.
false, mentre l'aumento combinato ha ottenuto risultati corrispondenti 7, 8, 9, 10 e 11. Per evidenziare le differenze tra i metodi,
per il 75% dei dati e risultati migliori per il 5%. mostriamo le annotazioni previste generate da

una patch di dati di test su modelli
prestazioni nel
dimensionamento. (a)
Un'immagine di input
con un poro di medie dimensioni. (b)
Verità fondamentale
annotata manualmente. (c)
Aumento standard. Il difetto è
riscontrato, ma di dimensioni troppo
piccole. (d) Aumento virtuale
del difetto, fornendo un
dimensionamento accurato. (e) Aumento combinato, che fornisce un dimensionamento accurato
Fig. 10 Maschere di segmentazione

per una patch di dati di test su
modelli addestrati con il 5% del set
di dati, che illustrano le
differenze di prestazioni nelle
false chiamate. (a) Un'immagine
di input con due pori. (b) Verità
fondamentale annotata
manualmente. (c) Aumento
standard. I difetti vengono
riscontrati, ma vengono effettuate due
false chiamate senza una spiegazione chiara. (d) Aumento dei difetti virtuali.
I difetti vengono riscontrati senza
false chiamate. (e) Aumento
combinato. I difetti vengono
riscontrati senza false chiamate
modelli addestrati su una frazione del 5% dei dati di addestramento, La Figura 7 mostra i risultati per un'immagine di input con
dove le prestazioni sono chiaramente divergenti. Un campione porosità raggruppata. L'aumento standard ha avuto risultati scarsi
casuale di previsioni con diverse dimensioni di set di dati è fornito nella segmentazione di un cluster di pori. La Figura 8 mostra le
nell'Appendice C. previsioni per un input con un poro insolitamente grande. Il combinato

modelli addestrati con il 5% del set
di dati, che illustrano le
differenze di prestazioni nelle
false chiamate. (a) Un'immagine in
input con pori piccoli e una
particella estranea, non importante
per l'ispezione. (b) Verità fondamentale
annotata manualmente.
Sono incluse tre indicazioni
molto piccole. (c) Aumento standard,
nessuna chiamata falsa. (d)
Aumento dei difetti virtuali. La
particella viene falsamente
segmentata come un
grande difetto. (e) Aumento combinato. Nessuna falsa chiamata

modelli addestrati con il 100% del
set di dati, che illustrano le
differenze di prestazioni nella
ricerca di difetti lineari. I set di dati di
aumento virtuale e standard
contenevano crepe virtuali estratte
da dati esterni al caso di ispezione.
(a) Un'immagine in input con una
grande crepa. (b) Verità fondamentale
annotata manualmente. (c) Aumento
standard. La crepa è mancata.
(d) Aumento dei difetti virtuali.
La fessura è segmentata
correttamente. (e) Aumento
combinato.
La fessura è segmentata correttamente
l'aumento ha segmentato con successo il difetto, mentre i metodi virtuali in tutte le frazioni. Entrambi i metodi che coinvolgono difetti virtuali hanno
puri e standard lo hanno mancato. La Figura 9 illustra le differenze dei segmentato correttamente la fessura, mentre il metodo standard l'ha
metodi in termini di dimensioni mancata.
capacità. I metodi che coinvolgono difetti virtuali hanno mantenuto la loro

capacità di dimensionamento con piccoli dati di addestramento, mentre 3.4 Risultati degli esperimenti sul campo
l’aumento standard ha sottostimato significativamente la dimensione dei
pori. Le figure 10 e 11 mostrano due casi di false chiamate. Nella Fig. 10, Il prototipo del modello è stato implementato con successo in un ambiente
alcune false chiamate inspiegabili sono state effettuate dall'aumento ad alta sicurezza. Un esempio delle visualizzazioni utilizzate nell'esperimento
standard. Nella Fig. 11, una particella estranea ha causato una falsa sul campo è mostrato nella Fig. 13. È stato riscontrato che le indicazioni
chiamata per il metodo del difetto virtuale puro. corrispondono abbastanza bene alle aspettative. Sono stati riscontrati difetti
Infine, mostriamo un esempio di capacità di trovare difetti lineari in Fig. all'estremità inferiore accettabile della dimensione del difetto; alcuni di
12, questa volta per modelli addestrati sul 100% dei dati disponibili, poiché questi erano indicazioni lasciate non contrassegnate a causa dei criteri di
le differenze sono chiare accettazione. Gli utenti hanno trovato le false chiamate all'esterno della saldatura
Fig. 13 Visualizzazioni utilizzate nel

sistema distribuito. (a) Due pori
accettabili (cerchi neri). (b) Un gruppo
di pori inaccettabile (cerchi bianchi
uniti), con un'annotazione (0,3/2) che
indica un gruppo di due pori con
diametro maggiore di 0,3 mm
l'area non influisce direttamente sull'ispezione, ma ho pensato che dati, potrebbero andare persi. In secondo luogo, utilizzare il difetto
potessero potenzialmente distrarre per un periodo di utilizzo più lungo. virtuale per estrarre segnali di difetto adeguati da componenti diversi da
Le annotazioni fornite dal modello sono state ritenute di facile quelli da ispezionare è stata una strategia di successo per coprire un
comprensione. Quando le indicazioni non erano presenti, a causa di tipo di difetto che era scarso nei dati primari. Questo è un approccio più
errori o potature di piccole indicazioni, il comportamento risultava più semplice rispetto ai metodi di simulazione [13, 33] che richiedono che
difficile da spiegare. In generale, per gli utenti era importante ciascun tipo di difetto sia modellato in modo rappresentativo. Koskinen
comprendere il modo in cui funzionava il modello. L'unità di edge et al. [27] hanno anche riscontrato che la simulazione produce una
computing e le visualizzazioni generate si sono rivelate facili da usare. generalizzazione limitata. Nel caso delle crepe, il metodo combinato
La velocità di inferenza ha fortemente influenzato l'esperienza dell'utente. non differiva dal metodo virtuale puro, poiché nel set di dati di
Nel complesso, gli utenti hanno visto il potenziale per l'utilizzo del addestramento non erano presenti crepe del materiale originale, ma
sistema come ausilio agli ispettori. venivano piuttosto utilizzate per la validazione.
Il puro aumento virtuale ha dimensionato i difetti in modo meno
accurato rispetto agli altri due metodi. Le maschere di verità per i difetti
4. Discussione virtuali, generate durante l'impianto, probabilmente hanno causato una
piccola discrepanza rispetto alle annotazioni regolari. Ancora una volta,
L' a90/95 di 0,6 mm per l'aumento combinato (Fig. 5) indica un'elevata il problema è stato risolto combinando l'aumento dei difetti normale e
affidabilità per il caso di ispezione. È più sensibile del valore di virtuale. Con set di dati di dimensioni inferiori, l'aumento convenzionale
riferimento NASA-STD-5009B [37] per le dimensioni minime delle crepe ha iniziato a funzionare significativamente peggio, in correlazione con i
rilevabili, sebbene ciò sia indicativo poiché il materiale è costituito valori a90/95 molto più alti , indicando che il modello non è riuscito a
principalmente da pori. MIL-HDBK-1823A [1] raccomanda un minimo trovare un adattamento ragionevole. Un esempio di prestazioni di
di 60 difetti per una curva POD hit/miss, il che si traduce in differenze dimensionamento deteriorate per il modello di aumento convenzionale
significative tra la curva POD e i limiti di confidenza. A causa di è mostrato in Fig. 9, dove un poro di medie dimensioni era
significativamente sottodimensionato.
Poiché in questo studio la dimensione del campione del set di test è Le annotazioni manuali per i difetti di saldatura più piccoli e accettabili
molto più ampia (circa 500 in media), il limite di confidenza inferiore al presentano alcune differenze. Esiste una regione di incertezza dove
95% (linea tratteggiata) è vicino alle curve POD. Considerando la non esiste una linea chiara tra difetto e non-difetto come il rumore o la
dimensione della patch (512 × 512 pixel), il materiale era grande rispetto geometria, anche per un ispettore umano.
ad altri set di dati di saldatura [23, 35]. Questo è il caso della maggior parte delle applicazioni NDE: decidere
L'aggiunta di difetti virtuali ha migliorato il rilevamento su set di dati se un segnale è un'imperfezione diventa sempre più difficile vicino ai
più piccoli. La Figura 7 mostra come l'aumento standard abbia limiti di ciò che è rilevabile dal metodo di imaging.
segmentato in modo inadeguato un cluster, probabilmente a causa La Figura 9, ad esempio, mostra un poro molto piccolo annotato nella
della mancanza di gruppi di difetti nei dati di addestramento. L'aggiunta verità fondamentale, ma non indicato da nessuno dei modelli di
di diversi difetti virtuali ad alcuni esempi ha rappresentato bene i cluster. apprendimento automatico. Non è chiaro se sia più corretto il modello o
l'annotazione manuale, poiché un'indicazione piccola potrebbe anche
In termini di a90/95, l'aumento combinato ha dato risultati migliori su tutte le frazioni.
Anche utilizzando una sola immagine per generare patch di essere solo rumore o geometria. Un effetto simile è stato osservato da
addestramento, l'incremento combinato dei dati ha ottenuto un buon Mery [33]. Questo rumore nell'etichettatura fa sì che i modelli mostrino
risultato (90/95) . Con il puro aumento virtuale dei difetti, utilizzato da una scarsa separazione ai casi limite nell'intervallo di piccoli difetti (che
Koskinen et al. [27], può esserci una perdita di alcune caratteristiche non è interessante per l'ispezione), ma in particolare ciò non ostacola
sottili legate alla combinazione di posizione e segnale, non perfettamente le prestazioni sui difetti più grandi e inaccettabili. Con difetti di piccole
catturate dal difetto virtuale, che viene quindi alleviata mescolando i dimensioni, il rumore dell'etichettatura limita anche la precisione del
difetti nelle loro posizioni originali e in nuove posizioni. Inoltre, la POD calcolato. Nei set di dati della radiografia medica, come CheXpert
distribuzione delle dimensioni e delle forme dei difetti è leggermente [22], sono stati utilizzati comitati di esperti per migliorare l’etichettatura
distorta rispetto all'originale, il cui effetto è ridotto facendo in modo che dei dati di fatto, nonché etichette di incertezza per riflettere casi difficili
metà del set di dati segua la distribuzione originale. Nella Fig. 8, ad da giudicare. Questo richiede più risorse, ma potenzialmente
esempio, il modello di aumento del difetto virtuale puro mancava una interessante per studi futuri. Nel contesto delle NDE, la convalida
grande cavità, che è stata rilevata dal modello di aumento combinato. tramite test distruttivi come la macrografia potrebbe fornire verità
L' a90/95 è rimasto basso per quantità di dati sorprendentemente fondamentali più accurate, ma è irrealizzabile a causa del gran numero
piccole, indicando che il sistema proposto può essere adattato ad altri e delle piccole dimensioni dei difetti.
casi di ispezione con una quantità moderata di annotazioni manuali.
Osservando simultaneamente un tasso di chiamate false di 90/95 ,
Le differenze di prestazione nella ricerca dei difetti lineari (Fig. 12) si può vedere che i metodi hanno risposto in modo diverso a dati
indicano in primo luogo che i difetti lineari sono abbastanza diversi dai insufficienti: mentre l'aumento standard ha iniziato a perdere più difetti,
pori, che se non inclusi nell'addestramento il metodo combinato ha reso eccessivi falsi
chiamate. Il puro difetto virtuale era nel mezzo per entrambi questi L'approccio combinato di aumento dei difetti virtuali e aumento dei dati
parametri. L' a90/95 è il parametro più cruciale tra questi due, indicando standard ha dato un aumento significativo delle prestazioni nella metrica
che si è verificata una modalità di errore più sicura per i metodi che più importante, l' a90/95, soprattutto nei sottoinsiemi di dati più piccoli. Il
utilizzano difetti virtuali. Gran parte del tasso di false chiamate sull'area di metodo combinato ha funzionato sufficientemente bene anche nel
saldatura può essere attribuito all'incertezza dell'annotazione alle piccole dimensionamento e nelle false chiamate, rendendolo il metodo
dimensioni accettabili. complessivamente migliore tra i tre, un miglioramento rispetto al puro
L'utilizzo di difetti impiantati virtuali puri ha causato una maggiore aumento dei difetti virtuali.
tendenza alle false chiamate al di fuori del ROI. L'aumento combinato lo Buone prestazioni sulle crepe sono state ottenute utilizzando difetti virtuali,
ha ridotto significativamente, anche se non completamente. Un numero che è una strategia più semplice rispetto ai metodi di simulazione per tipi
eccessivo di false chiamate al di fuori delle aree di saldatura non costituisce di difetti molto diversi.
un problema per l’uso come strumento di aiuto umano, ma l’utilizzo di Confrontando i risultati qualitativi, si è scoperto che i parametri NDE
sistemi più automatici o la raccolta di statistiche richiederebbe che fossero adottati rappresentano bene le prestazioni e ne facilitano l’uso nell’industria.
ridotti a livelli inferiori. In futuro prevediamo di risolvere questo problema L'esperimento sul campo ha fornito indicazioni positive per il futuro impiego
segmentando automaticamente le saldature per eliminare le indicazioni al come strumento di assistenza per gli ispettori.
di fuori delle regioni di interesse.
I risultati sono stati riportati in parametri NDE standard.
Altre ricerche nell'area applicativa [11, 13, 33] riportano metriche orientate
al deep learning come la precisione media media (mAP) o le curve 5. conclusione
caratteristiche operative del ricevitore (ROC) utilizzando una soglia IoU,
che rende più difficile l'adozione da parte del settore e il confronto delle Abbiamo sviluppato un sistema basato sul deep learning per rilevare,
prestazioni NDE . Il POD fornisce informazioni sulla dimensione del difetto segmentare e valutare automaticamente la gravità dei difetti nelle saldature
rispetto al rilevamento, che è importante per la NDE. Inoltre, il POD e il nei componenti aerospaziali. Sono state adottate metriche standard nelle
tasso di chiamate false nelle NDE separano l'analisi del rilevamento e NDE per un approccio di deep learning e sono stati confrontati tre metodi
delle chiamate false, mentre le metriche di segmentazione comuni le di aumento: standard (utilizzando taglio casuale, rotazione, ritaglio e
combinano. ridimensionamento, capovolgimenti, rumore, luminosità e contrasto), puro
L'architettura U-net di Ronneberger et al. [42] si è rivelato flessibile per difetto virtuale e un combinazione dei due. È stato condotto un esperimento
piccole modifiche. Prestazione sul campo in un contesto industriale reale.
si è scoperto che è fortemente guidato dalle qualità del set di dati come Il metodo migliore che utilizza l'aumento combinato ha raggiunto un'elevata
numero e tipo di difetti, etichettatura del rumore e metodi di aumento, il sensibilità, un dimensionamento accurato e un tasso di chiamate false
che indica che altre architetture come FPN di Lin et al. [30] o maschera R- accettabile, sufficiente per i rigorosi requisiti di saldatura aerospaziale. È
CNN di He et al. [17] non sono in grado di apportare miglioramenti stato scoperto che l'uso dei difetti virtuali aumenta la capacità di
significativi alle prestazioni. rilevamento del modello e la combinazione dei dati dei difetti originali e
Un confronto tra più architetture simile a Mery e Arteta [34] o Mery [33] è virtuali ha ampiamente alleviato i possibili problemi legati all'impianto,
di interesse per la ricerca futura. come artefatti, rumore di annotazione o distribuzione distorta dei difetti.
Difetti piccoli e accettabili presentavano incoerenze nelle annotazioni
L'esperimento sul campo ha dato indicazioni di un accordo abbastanza quando erano quasi non rilevabili, contribuendo al tasso di chiamate false
buono con gli operatori umani, con alcuni problemi legati a piccoli difetti e piccoli errori, ma senza incidere negativamente sulle prestazioni sui
limite e false chiamate al di fuori della ROI. Il metodo di distribuzione e difetti più critici e di grandi dimensioni. L’adozione di metriche standard
l'interfaccia utente proposti si sono rivelati facili da usare e adatti del settore ha avanzato i metodi di automazione basati sul deep learning
all'applicazione, e la compatibilità con il software di settore esistente ha verso l’uso commerciale nelle NDE di saldatura. Noi demoni-
reso la distribuzione semplice. È stata evidenziata l’importanza della ha affermato che il rilevamento dei difetti di saldatura basato sul deep
trasparenza del sistema: ad esempio, lasciare i difetti più piccoli non learning può raggiungere prestazioni elevate ed essere implementato in
contrassegnati probabilmente riduceva la robustezza percepita del modello, ambienti industriali reali.
poiché l’informazione se i difetti erano stati persi o solo lasciati non

contrassegnati a causa delle piccole dimensioni non era facilmente
disponibile. Appendice A. Curve POD
Per riassumere, la segmentazione basata sul deep learning è un Le curve POD di tutti i modelli addestrati negli esperimenti sono mostrate
approccio fattibile per automatizzare le ispezioni radiografiche industriali nelle Figg. 14, 15 e 16. Le curve sono organizzate nel modo seguente. Per
per un caso di saldatura impegnativo, in grado di soddisfare severi requisiti ciascun sottoinsieme di dati, che vanno da 100 fino all'1,5%, vengono
nel campo aerospaziale. Il modello proposto ha indicato una buona presentate tre cifre: rispettivamente una per l'aumento standard, l'aumento
sensibilità rispetto al valore di riferimento NASA-STD-5009B [37] . Abbiamo del difetto virtuale e l'aumento combinato.
trovato un
Le curve diventano più superficiali a frazioni inferiori di Le curve, calcolate seguendo l'approccio POD standard, non mostrano
dati, con conseguenti valori a90/95 più elevati e quindi prestazioni inferiori. una probabilità di rilevamento dello 0% per difetti di dimensione zero.
La diffusione delle curve aumenta anche per frazioni più piccole, indicando Questa è una limitazione nota in
che i singoli risultati della convalida incrociata iniziano a differire in modo attuali metodi di analisi POD, che derivano da un'insufficiente separazione
significativo a seconda del campione casuale di dati utilizzato per dei risultati positivi e negativi nella gamma di difetti molto piccoli. Il
l'addestramento, la convalida e il test. Le curve di aumento standard problema a volte viene alleviato aggiungendo artificialmente un numero
(prima riga nelle Fig. 14, 15 e 16) hanno la maggiore diffusione, mentre le di errori vicino allo zero nelle trame per forzare il comportamento
curve di aumento combinate (terza riga) hanno la minore. desiderato. Vedere Virkkunen [48] per ulteriori discussioni su questo
problema e sui potenziali rimedi.
Ciò suggerisce che l’aggiunta di difetti virtuali ha aumentato la robustezza.
Fig. 14 Curve POD per i tre metodi di aumento per ridurre la dimensione del parte superiore della trama e manca la parte inferiore. La curva tratteggiata
set di dati. Come risultato di una convalida incrociata di 5 volte, in ciascuna figura viene calcolata prendendo il minimo dei limiti di confidenza inferiori del 95% di
vengono disegnate 5 curve POD separate, ciascuna indicante un modello ciascuna curva POD. L'intersezione del limite inferiore di confidenza con POD =
addestrato e convalidato separatamente. Il numero di difetti utilizzati per testare 0,9, contrassegnato dalle linee orizzontali e verticali tratteggiate, è il caso
ciascun modello è mostrato nella Tabella 2. I risultati sono contrassegnati da punti neri peggiore
sul a90/95
Fig. 15 Curve POD per i tre

metodi di aumento per ridurre la
dimensione del set di dati. Come
risultato di una convalida incrociata di
5 volte, in ciascuna figura
vengono disegnate 5 curve
POD separate, ciascuna indicante
un modello addestrato e
convalidato separatamente. Il
numero di difetti utilizzati per testare
ciascun modello è mostrato nella
Tabella 3. I successi sono
contrassegnati da punti neri nella
parte superiore del grafico e i
mancati nella parte inferiore. La curva
tratteggiata viene calcolata prendendo
il minimo dei limiti di confidenza
inferiori del 95% di ciascuna curva
POD. L'intersezione del limite
inferiore di confidenza con POD = 0,9, contrassegnato dai tratti orizzontali e verticali
linee, è il caso peggiore a90 /95
Fig. 16 Curve POD per i tre

metodi di aumento per ridurre la
dimensione del set di dati. Come
risultato di una convalida incrociata di
5 volte, in ciascuna figura
vengono disegnate 5 curve
POD separate, ciascuna indicante
un modello addestrato e
convalidato separatamente. Il
numero di difetti utilizzati per testare
ciascun modello è mostrato nella
Tabella 4. I successi sono
contrassegnati da punti neri nella
parte superiore del grafico e i
mancati nella parte inferiore. La curva
tratteggiata viene calcolata prendendo
il minimo dei limiti di confidenza
inferiori del 95% di ciascuna curva
POD. L'intersezione del limite
inferiore di confidenza con POD = 0,9, contrassegnato dai tratti orizzontali e verticali
linee, è il caso peggiore a90/95
Appendice B. Risultati completi della convalida incrociata Le immagini grezze presentavano quantità variabili di difetti, quindi il
numero di difetti disponibili per l'addestramento varia tra le pieghe. Per
I risultati della convalida incrociata sono presentati nelle tabelle 2, 3 e 4. insiemi di dati di grandi dimensioni, questo effetto è piccolo (1711 contro
Sono stati confrontati tre metodi di aumento: standard, virtuale puro e 1825) come mostrato nella seconda colonna della Tabella 2.
aumento combinato. Sono state registrate quattro metriche per ciascun La tabella 4, tuttavia, mostra differenze relative significative nel numero
modello addestrato: a90/95, errore di dimensionamento, tasso di di difetti con set di dati di piccole dimensioni. Anche a
chiamate false sulle aree di saldatura e tasso di chiamate false su intere piccoli set di dati, la varianza tra le pieghe non è direttamente correlata
immagini. Le metriche sono definite nella Sezione 2.6. al conteggio dei difetti: ad esempio con l'1,5% dei dati, l'aumento
La tabella 2 mostra i risultati per i set di dati di addestramento utilizzando standard nella piega 1 con 8 difetti ha ottenuto un a90/95 migliore (0,60
il 100%, 75% e 50% dei dati disponibili. La Tabella 3 mostra i risultati mm) rispetto alla piega 4 con 26 difetti (0,90 millimetri).
per il 25% e il 10% dei dati e la Tabella 4 per il 5% e l'1,5% dei dati.
Tabella 2 Convalida incrociata

Trenino elettrico
a90/95 Errore di FCR, FCR, immagine
risultati per a90/95, errore di dimensionamento,
tasso di chiamate false (denominato FCR) difetti (mm) dimensionamento (mm) saldatura (1/cm) (1/cm)
sulla saldatura e FCR sull'immagine per
tre metodi di aumento: 100% dei dati di allenamento
standard, virtuale puro e Norma 1 1815 0,63 0,10 0,05 0,22
aumento combinato. Norma 2 1825 0,81 0,11 0,08 0,29
Risultati per 100%, 75% e
Norma 3 1753 0,48 0,11 0,05 0,28
50% dei dati di allenamento disponibili
usato Norma 4 1775 0,54 0,09 0,04 0,38
Norma 5 1711 0,57 0,10 0,04 0,13
Puro virtuale 1 1815 0,60 0,09 0,05 0,28

Puro virtuale 2 1825 0,63 0,12 0,03 0,62
Puro virtuale 3 1753 0,57 0,10 0,05 0,39
Puro virtuale 4 1775 0,54 0,13 0,09 0,58
Puro virtuale 5 1711 0,54 0,10 0,05 0,26
Combinato 1 1815 0,60 0,10 0,06 0,23

Combinato 2 1825 0,42 0,13 0,12 0,46
Combinato 3 1753 0,51 0,09 0,03 0,29
Combinato 4 1775 0,48 0,11 0,08 0,36
Combinato 5 1711 0,51 0,11 0,10 0,30
75% dei dati di allenamento

Norma 1 1276 0,48 0,11 0,06 0,28
Norma 2 1364 0,48 0,11 0,16 0,44
Norma 3 1284 0,66 0,09 0,04 0,18
Norma 4 1297 0,45 0,11 0,09 0,39
Norma 5 1331 0,57 0,12 0,10 0,59
Puro virtuale 1 1276 0,51 0,10 0,04 0,43

Puro virtuale 2 1364 0,57 0,10 0,10 0,28
Puro virtuale 3 1284 0,60 0,17 0,08 1.00
Puro virtuale 4 1297 0,63 0,13 0,02 0,26
Puro virtuale 5 1331 0,57 0,12 0,06 0,84
Combinato 1 1276 0,48 0,10 0,12 0,59

Combinato 2 1364 0,57 0,10 0,05 0,17
Combinato 3 1284 0,54 0,10 0,05 0,22
Combinato 4 1297 0,45 0,10 0,05 0,29
Combinato 5 1331 0,51 0,12 0,07 0,38

Norma 1 866 0,81 0,11 0,08 0,25
Norma 2 783 0,57 0,11 0,04 0,21
Norma 3 921 0,57 0,08 0,03 0,25
Norma 4 864 0,60 0,15 0,07 0,39
Norma 5 950 0,45 0,13 0,07 0,40
Puro virtuale 1 866 0,81 0,16 0,02 0,83

Puro virtuale 2 783 0,51 0,12 0,06 0,34
Puro virtuale 3 921 0,60 0,12 0,03 0,94
Puro virtuale 4 864 0,57 0,10 0,04 0,29
Puro virtuale 5 950 0,48 0,10 0,04 0,31
Combinato 1 866 0,63 0,12 0,06 0,70

Combinato 2 783 0,48 0,12 0,07 0,68
Combinato 3 921 0,54 0,10 0,05 0,34
Combinato 4 864 0,57 0,11 0,08 0,38
Combinato 5 950 0,48 0,10 0,07 0,57

Trenino elettrico
aumento combinato.
Norma 2 473 0,54 0,10 0,05 0,21
Risultati per il 25% e il 10% di
dati di allenamento disponibili utilizzati Norma 3 512 0,75 0,11 0,03 0,40
Norma 4 488 0,78 0,10 0,06 0,30
Norma 5 347 0,66 0,10 0,05 0,18
Puro virtuale 1 446 0,51 0,11 0,17 0,66

Puro virtuale 2 473 0,48 0,10 0,05 0,31
Puro virtuale 3 512 0,54 0,10 0,08 0,51
Puro virtuale 4 488 0,57 0,13 0,04 0,28
Puro virtuale 5 347 0,69 0,10 0,12 0,92
Combinato 1 446 0,57 0,09 0,05 0,30

Combinato 2 473 0,51 0,11 0,06 0,86
Combinato 3 512 0,51 0,12 0,16 0,53
Combinato 4 488 0,54 0,12 0,05 0,31
Combinato 5 347 0,60 0,12 0,05 0,44

Norma 1 183 0,69 0,12 0,06 0,39
Norma 2 210 0,48 0,10 0,10 0,37
Norma 3 183 0,54 0,09 0,07 0,46
Norma 4 175 0,60 0,14 0,08 0,29
Norma 5 173 0,81 0,11 0,05 0,40
Puro virtuale 1 183 0,51 0,12 0,11 0,76

Puro virtuale 2 210 0,63 0,14 0,07 1.28
Puro virtuale 3 183 0,51 0,10 0,07 0,25
Puro virtuale 4 175 0,63 0,12 0,08 0,53
Puro virtuale 5 173 0,48 0,11 0,05 0,46
Combinato 1 183 0,57 0,13 0,07 0,39

Combinato 2 210 0,51 0,10 0,07 0,44
Combinato 3 183 0,51 0,10 0,08 0,33
Combinato 4 175 0,57 0,11 0,07 0,56
Combinato 5 173 0,48 0,11 0,11 0,45

Trenino elettrico
aumento combinato.
Norma 2 119 0,66 0,10 0,07 0,21
Risultati per il 5% e l'1,5%.
dati di allenamento disponibili utilizzati Norma 3 159 1.83 0,14 0,15 0,63
Norma 4 73 0,63 0,11 0,13 0,40
Norma 5 91 0,63 0,20 0,04 0,57
Puro virtuale 1 121 0,48 0,12 0,10 0,70

Puro virtuale 2 119 0,54 0,12 0,06 0,69
Puro virtuale 3 159 1.11 0,13 0,07 0,45
Puro virtuale 4 73 0,51 0,08 0,09 0,69
Puro virtuale 5 91 0,51 0,18 0,30 1.34
Combinato 1 121 0,48 0,11 0,07 0,30

Combinato 2 119 0,60 0,13 0,06 0,36
Combinato 3 159 0,72 0,12 0,03 0,32
Combinato 4 73 0,48 0,09 0,10 0,90
Combinato 5 91 0,51 0,14 0,07 0,44
1,5% dei dati di allenamento

Norma 1 8 0,60 0,16 0,02 1.02
Norma 2 7 0,81 0,14 0,05 0,24
Norma 3 17 1.44 0,26 0,01 0,21
Norma 4 26 0,81 0,13 0,06 1.08
Norma 5 13 0,54 0,15 0,12 0,97
Puro virtuale 1 8 0,60 0,11 0,04 1.31

Puro virtuale 2 7 0,60 0,13 0,11 0,31
Puro virtuale 3 17 0,87 0,17 0,23 0,45
Puro virtuale 4 26 0,90 0,14 0,02 2.01
Puro virtuale 5 13 0,48 0,12 0,26 2,55
Combinato 1 8 0,54 0,13 0,10 2.38

Combinato 2 7 0,57 0,19 0,12 0,60
Combinato 3 17 0,72 0,11 0,14 0,56
Combinato 4 26 0,75 0,12 0,03 0,86
Combinato 5 13 0,39 0,18 0,65 3.15
Appendice C. Maschere di previsione Ciascuno di essi presenta i risultati per sette immagini di input: una
per ogni frazione di dati disponibili utilizzati per l'addestramento, che vanno
Un campionamento casuale di patch di immagini, verità fondamentali e dal 100 all'1,5%.
le maschere di segmentazione previste sono mostrate nelle Figg. 17 e 18.

Fig. 17 Patch estratte casualmente dai risultati dell'inferenza dei diversi metodi di rispettivamente la prima e la seconda colonna. Le mascherine previste da
aumento per l'addestramento delle dimensioni dei set di dati che vanno da sono mostrati gli aumenti standard, virtuali puri e combinati
100-1,5%. Vengono visualizzate le immagini di input e le maschere di verità sul terreno colonne 3, 4 e 5
Fig. 18 Patch estratte casualmente dai risultati dell'inferenza dei diversi metodi di rispettivamente la prima e la seconda colonna. Le mascherine previste da
aumento per l'addestramento delle dimensioni dei set di dati che vanno da sono mostrati gli aumenti standard, virtuali puri e combinati
100-1,5%. Vengono visualizzate le immagini di input e le maschere di verità sul terreno colonne 3, 4 e 5
Ringraziamenti Ringraziamo Mika Sampio (Trueflaw) per le annotazioni e 11. Du W, Shen H, Fu J, Zhang G, He Q (2019) Approcci per il miglioramento
Oskar Siljama (Trueflaw) per l'assistenza con l'implementazione del codice. del rilevamento dei difetti dell'immagine a raggi X delle parti in alluminio
fuso di automobili basate sull'apprendimento profondo. NDT & E
International 107:102,144. https://doi.org/10.1016/j.ndteint.2019.102144
12. Everingham M, Van Gool L, Williams CKI, Winn J, Zisserman A (2011)
Finanziamento Finanziamento ad accesso aperto fornito dall'Università di Aalto. Le classi di oggetti visivi PASCAL sfidano i risultati del 2011 (VOC2011).
http://www.pascal-network.org/challenges/VOC/voc2011/workshop/
index.html _
Dichiarazioni 13. Gamdha D, Unnikrishnakurup S, Rose KJ, Surekha M, Purushothaman
P, Ghose B, Balasubramaniam K (2021) Riconoscimento automatico
Conflitto di interessi Gli autori non dichiarano interessi concorrenti. dei difetti su radiografie a raggi X di propellente solido utilizzando
l'apprendimento profondo basato su reti neurali convoluzionali.
J Nondistruggere Valutazione 40(1):1–13. https://doi.org/10.1007/
Accesso aperto Questo articolo è concesso in licenza con una licenza
internazionale Creative Commons Attribution 4.0, che consente l'uso, la s10921-021-00750-4 _ 14. Greene A, Michael M, JJM III, Betz R, Barry R,
condivisione, l'adattamento, la distribuzione e la riproduzione in qualsiasi Nightingale G, Siewert TA, Anderson CE, Luga TF, Folland WH, Surma
mezzo o formato, a condizione che si dia il giusto credito all'autore originale G, McCullough R, Thams RW, Apgar B, Becker G, McKinney WE, Wenk
e alla fonte, fornire un collegamento alla licenza Creative Commons e SA, manuale ASM 1992. Volume 17, Valutazione non distruttiva e
indicare se sono state apportate modifiche. Le immagini o altro materiale di controllo di qualità. Ispezione radiografica. ASM Internazionale. https://
terze parti in questo articolo sono inclusi nella licenza Creative Commons doi.org/10.31399/asm.hb.v17.9781627081900 15. Guo Z, Hall RW
dell'articolo, se non diversamente indicato in una linea di credito al materiale. (1992) Algoritmi di assottigliamento veloci completamente paralleli.
Se il materiale non è incluso nella licenza Creative Commons dell'articolo e CVGIP: Comprensione dell'immagine 55(3):317–328. https://doi.org/10.
l'uso previsto non è consentito dalle norme di legge o supera l'uso consentito, 1016/1049-9660(92)90029-3
dovrai ottenere l'autorizzazione direttamente dal detentore del copyright. Per 16. He K, Zhang X, Ren S, Sun J (2016) Apprendimento residuo profondo
visualizzare una copia di questa licenza, visitare http://creativecommons. org/ per il riconoscimento delle immagini. In: Atti della conferenza IEEE sulla
licenses/by/4.0/. visione artificiale e il riconoscimento di modelli, pp 770–778. https://doi.
org/10.1109/CVPR.2016.90´
17. He K, Gkioxari G, Dollar P, Girshick R (2017) Mask r-cnn. In: Atti della
conferenza internazionale IEEE sulla visione artificiale, pp 2961–2969.
Riferimenti https://doi.org/10.1109/ICCV.2017.322 18. Huang G, Liu Z, Van Der
Maaten L, Weinberger KQ (2017)
Reti convoluzionali densamente connesse. In: Atti della conferenza IEEE
1. Annis C (2009) Mil-hdbk-1823a, valutazione dell'affidabilità del sistema
sulla visione artificiale e il riconoscimento di modelli, pp 4700–4708.
di valutazione non distruttiva 2.
https://doi.org/10.1109/CVPR.2017.243 19. Organizzazione
ASTM International (2021) Pratica standard per l'analisi della probabilità di internazionale per la standardizzazione (2007) Processi di saldatura e affini
ˆ
rilevamento per dati a rispetto a (astm e3023-21). https://doi.org/10.1520/ – classificazione delle imperfezioni geometriche nei materiali metallici
E3023-21 _ 3. Badue C, – parte 1: saldatura per fusione (iso 6520-1:2007)
Guidolini R, Carneiro RV, Azevedo P, Cardoso VB, Forechi A, Jesus L,
Berriel R, Paixao TM, Mutz F et al (2020) 20. Organizzazione Internazionale per la Standardizzazione (2014) Saldatura
Auto a guida autonoma: un sondaggio. Applicazione sistema Expert: – giunti saldati per fusione in acciaio, nichel, titanio e loro leghe (esclusa
113816. https://doi. org/10.1016/ la saldatura a trave) – livelli di qualità per le imperfezioni (iso 5817:2014)
´
j.eswa.2020.113816 4. Bertovic M (2016) Fattori umani nelle prove non
distruttive (ndt): rischi e sfide dell'NDT meccanizzato. Tesi di dottorato, 21. Organizzazione internazionale per la standardizzazione (2016) Prove
Technische Universitaet Berlin (Germania), https://doi.org/10.14279/ non distruttive delle saldature – livelli di accettazione per i test radiografici
deposi tonce-4685
– parte 1: acciaio, nichel, titanio e loro leghe (iso 10675-1:2016)
5. Bertovic M, Virkkunen I (2021) NDE 4.0: nuovo paradigma per il personale
ispettivo NDE, pp 1–31. Pubblicazione internazionale di Springer. https:// 22. Irvin J, Rajpurkar P, Ko M, Yu Y, Ciurea-Ilcus S, Chute C, Mark-lund H,
doi.org/10.1007/978-3-030-48200-8 6. Bochkovskiy A, Wang Haghgoo B, Ball R, Shpanskaya K et al (2019) Chexpert: un ampio set
CY, Liao HYM (2020) Yolov4: velocità e precisione ottimali del rilevamento di dati radiografici del torace con etichette di incertezza e confronto tra
degli oggetti. arXiv:200410934 7. Canny J (1986) Un approccio esperti. In: Atti della conferenza AAAI sull'intelligenza artificiale, vol 33,
computazionale al rilevamento dei bordi. Transazioni IEEE sull'analisi dei pp 590–597. https://doi.org/10.1609/aaai.v33i01.3301590 _
modelli e sull'intelligenza artificiale PAMI 8 (6): 679–698. https://doi.org/
10.1109/TPAMI.1986.4767851 8. Chapuis B, Jenson F, Calmon 23. Jiang H, Hu Q, Zhi Z, Gao J, Gao Z, Wang R, He S, Li H (2021) Modello
P, DiCrisci G, Hamilton J, Pomie L´ (2014) Curve pod supportate dalla di rete neurale di convoluzione con strategia di pooling migliorata e
simulazione per test ultrasonici automatizzati delle saldature selezione delle caratteristiche per il riconoscimento dei difetti di
circonferenziali della tubazione. Saldatura nel mondo 58(4):433– 441. saldatura. Saldatura nel mondo 65(4):731–744. https://doi.org/10.1007/
https://doi.org/10.1007/s40194-014-0125-z 9. s40194-020-01027-6 _
Chapuis B, Calmon P, Jenson F et al (2016) Migliori pratiche per l'uso della 24. Jonsson B, Dobmann G, Hobbacher A, Kassner M, Marquis G (2016)
simulazione nella stima delle curve pod. Collezione IIW https://doi.org/ Linee guida IIW sulla qualità della saldatura in relazione alla resistenza
10.1007/978-3-319-62659-8 10. Deng J, Dong alla fatica. Springer. https://doi.org/10.1007/978-3-319-19198-0 25.
W, Socher R, Li LJ, Li K, Fei-Fei L (2009) Kimpe T, Tuytschaever T (2007) Aumentare il numero di sfumature di grigio
Imagenet: un database di immagini gerarchico su larga scala. In: nei sistemi di visualizzazione medicali: quanto è sufficiente?
conferenza IEEE del 2009 sulla visione artificiale e il riconoscimento di modelli. Imaging delle cifre J 20(4):422–432. https://doi.org/10.1007/
IEEE, pagine 248–255. https://doi.org/10.1109/CVPR.2009.5206848 s10278-006-1052-3 _
26. Konnik M, Ahmadi B, May N, Favata J, Shahbazi Z, Shahbazmo-hamadi 41. Ren S, He K, Girshick R, Sun J (2015) Faster r-cnn: verso il rilevamento di
S, Tavousi P (2021) Addestramento di algoritmi di estrazione di oggetti in tempo reale con reti di proposte regionali. arXiv:150601497.
caratteristiche basati sull'intelligenza artificiale, per immagini micro ct, https://doi.org/10.1109/TPAMI.2016.2577031 42. Ronneberger O, Fischer
utilizzando dati sintetizzati. J Nondestruct Eval 40(1):1–13. https://doi.org/ P, Brox T (2015) U-net: reti convoluzionali per la segmentazione di immagini
10.1007/s10921-021-00758-w 27. Koskinen T, Virkkunen I, Siljama O, Jessen- biomediche. In: Conferenza internazionale sull'elaborazione delle immagini
Juhler O (2021) L'effetto di diversi dati sui difetti sull'ispezione ultrasonica mediche e sull'intervento assistito da computer. Springer, pp 234–241.
basata sull'apprendimento automatico. J Nondistruggere Valutazione https://doi.org/10.1007/978-3-319-24574-428 _ _ 43. Rowlands J (2002)
40(1):1–13. https://doi.org/ La fisica della
10.1007/s10921-021-00757-x _ 28. Krizhevsky A, Sutskever I, Hinton GE radiografia computerizzata. Fisica in Medicina e Biologia 47(23):R123. https://
(2012) Classificazione Imagenet con reti neurali convoluzionali profonde. doi.org/10.1088/0031-9155/47/23/201 _
Adv Neural Inf Process Syst 25:1097–1105. https://doi.org/
10.1145/3065386 29. Li Z, Wang C, Han M, Xue Y, Wei W, Li LJ, Fei-Fei L (2018) 44. Saez D (2004) Rilevamento automatico dei difetti nelle fusioni e nelle
Identificazione e localizzazione della malattia toracica con supervisione saldature di alluminio utilizzando classificatori neuro-fuzzy. In: 16a
limitata. In: Atti della conferenza IEEE sulla visione artificiale e il Conferenza mondiale sulle prove non distruttive.
riconoscimento di modelli, pp 8290–8299. https://doi.org/10. Citeseer 45. Schwartz C (2003) Valutazione automatica dei giunti saldati
1109/CVPR.2018.00865 utilizzando l'elaborazione delle immagini sulle radiografie. In: Atti della
´
30. Lin TY, Dollar P, Girshick R, He K, Hariharan B, Belongie S (2017) conferenza AIP, vol 657. American Institute of Physics, pp 689–694.
Presentano reti piramidali per il rilevamento di oggetti. In: Atti della https://doi.org/10.1063/1.1570203
conferenza IEEE sulla visione artificiale e il riconoscimento di modelli, pp 46. Simonyan K, Zisserman A (2014) Reti convoluzionali molto profonde per il
2117–2125. https://doi.org/10.1109/CVPR.2017. 106 riconoscimento di immagini su larga scala. arXiv:14091556 47.
Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D,
31. Long J, Shelhamer E, Darrell T (2015) Reti completamente convoluzionali Vanhoucke V, Rabinovich A (2015) Approfondimento con le convoluzioni.
per la segmentazione semantica. In: Atti della conferenza IEEE sulla In: Atti della conferenza IEEE sulla visione artificiale e il riconoscimento di
visione artificiale e il riconoscimento di modelli, pp 3431–3440. https:// modelli, pp 1–9. https://doi.org/10.1109/ CVPR.2015.7298594
doi.org/10.1109/CVPR.2015.7298965 32. Mery D (2011)
Rilevamento automatizzato delle discontinuità di saldatura senza segmentazione. 48. Virkkunen I (2021) Il “problema del piccolo crack” nell’hit/miss
Mater Eval 69(6):656–663 33. Mery D (2021) Ispezione probabilità di rilevamento. Inedito
della fusione di alluminio utilizzando metodi di rilevamento di oggetti profondi e 49. Virkkunen I, Miettinen K, Packalen T (2014) Difetti virtuali per la formazione
difetti ellissoidali simulati. Mach Vis Appl. 32(3):1–16. https://doi.org/ e la qualificazione nde. In: 11a conferenza europea sulle prove non
10.1007/s00138-021-01195-5 34. Mery D, Arteta C (2017) distruttive (ECNDT 2014)
Riconoscimento automatico dei difetti nei test a raggi X utilizzando la visione 50. Virkkunen I, Koskinen T, Jessen-Juhler O, Rinta-Aho J (2021)
artificiale. In: Conferenza invernale IEEE 2017 sulle applicazioni della Dati ultrasonici aumentati per l'apprendimento automatico. J Nondistruggere
visione artificiale (WACV). IEEE, pagine 1026–1035. https://doi.org/ Valutazione 40(1):1–11. https://doi.org/10.1007/s10921-020-00739-5
10.1109/WACV.2017.119 35. Mery D, Riffo 51. Wang X, Peng Y, Lu L, Lu Z, Bagheri M, Summers RM (2017)
´
V, Zscherpel U, Mondragon G, Lillo I, Zuccar I, Lobel H, Carrasco M (2015) Chestx-ray8: database di radiografie del torace su scala ospedaliera e
Gdxray: il database delle immagini a raggi X per controlli non distruttivi. J parametri di riferimento sulla classificazione e localizzazione scarsamente
Nondistruggere Eval 34(4):1–12. https://doi.org/10.1007/s10921-015-0315-7 supervisionata delle comuni malattie del torace. In: Atti della conferenza
36. Nacereddine N, Zelmat M, Belaifa SS, Tridi IEEE sulla visione artificiale e il riconoscimento di modelli, pp 2097–2106.
M (2005) Rilevamento dei difetti di saldatura nell'elaborazione delle immagini https://doi.org/10.1109/CVPR.2017.369 _
digitali basata sulla radiografia industriale. 52. Xu N, Price B, Cohen S, Huang T (2017) Opacizzazione profonda
Trans Eng Comput Technol 2: 145–148. https://doi.org/10.5281/ dell'immagine. In: Atti della conferenza IEEE sulla visione artificiale e il
zenodo.1330641 riconoscimento dei modelli, pp 2970–2979. https://doi.org/10.1109/CVPR.
_ 37. NASA (2019) Nasa-std-5009b, requisiti di valutazione non distruttiva per 2017.41
componenti metallici critici per la frattura 38. 53. Zhao ZQ, Zheng P, St Xu, Wu X (2019) Rilevamento di oggetti con
Rajpurkar P, Irvin J, Zhu K, Yang B, Mehta H, Duan T, Ding D, Bagul A, apprendimento profondo: una revisione. IEEE Trans Neural Netw Learn
Langlotz C, Shpanskaya K et al (2017) Chexnet: rilevamento della Syst 30(11):3212–3232. https://doi.org/10.1109/TNNLS.2018.2876865
polmonite a livello di radiologo sulle radiografie del torace con deep 54. Zhou B, Khosla A, Lapedriza A, Oliva A, Torralba A (2016)
learning. arXiv:171105225 39. Apprendimento di funzionalità approfondite per la localizzazione
Redmon J, Farhadi A (2018) Yolov3: un miglioramento incrementale. discriminativa. In: Atti della conferenza IEEE sulla visione artificiale e il
arXiv:180402767 riconoscimento di modelli, pp 2921–2929. https://doi.org/10.1109/
40. Redmon J, Divvala S, Girshick R, Farhadi A (2016) Si guarda solo una CVPR.2016. 319
volta: rilevamento di oggetti unificato e in tempo reale. In: Atti della
conferenza IEEE sulla visione artificiale e il riconoscimento di modelli, pp Nota dell'editore Springer Nature rimane neutrale per quanto riguarda le
779–788. https://doi.org/10.1109/CVPR.2016.91 rivendicazioni giurisdizionali nelle mappe pubblicate e nelle affiliazioni istituzionali.
Affiliazioni
Topias Tyystjarvi ¨ 1,2 · Iikka Virkkunen1 · Peter Fridolf3 · Anders Rosell3 · Zuheir Barsoum4
Iikka Virkkunen
iikka.virkkunen@trueflaw.com
Pietro Fridolfo
peter.fridolf@gknaerospace.com
Anders Rosell
anders.ar.rosell@gknaerospace.com
Zuheir Barsoum
zuheir@kth.se
1
¨
Trueflaw, Tillinmaentie 3 A 113, FI-02330 Espoo, Finlandia
2
Dipartimento di Ingegneria Meccanica, Scuola di Ingegneria,
Università di Aalto, casella postale 14200, FI-00076 Aalto, Finlandia
3
Sistemi di motori aerospaziali GKN, SE-46138
¨
Trollhattan, Svezia
4
Dipartimento di Ingegneria Meccanica, KTH Royal Institute of
Tecnologia, Teknikringen 8, SE-100 44
Stoccolma, Svezia

DL Saldature Aerospaziali

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

DL Saldature Aerospaziali

Caricato da

Copyright:

Formati disponibili

Machine Translated by Google

Saldatura nel mondo (2022) 66:643–671

Rilevamento automatizzato dei difetti nella radiografia digitale delle saldature

644 Saldatura nel mondo (2022) 66: 643–671

Sono state sviluppate diverse tecniche di automazione nel tentativo di

Fig. 1 Caratteristiche dei dati

Saldatura nel mondo (2022) 66: 643–671 645

646 Saldatura nel mondo (2022) 66: 643–671

Saldatura nel mondo (2022) 66: 643–671 647

648 Saldatura nel mondo (2022) 66: 643–671

estrarre crepe da altri componenti o crepe prodotte artificialmente in campioni

Saldatura nel mondo (2022) 66: 643–671 649

650 Saldatura nel mondo (2022) 66: 643–671

Annotazione manuale Annotazione manuale Annotazione manuale Annotazione manuale

Realtà di base Realtà di base

Escludi dalle patch Estrai

Elaborazione delle immagini

Ingresso Campione Ingresso Campione Puro virtuale

Modello del treno

Saldatura nel mondo (2022) 66: 643–671 651

652 Saldatura nel mondo (2022) 66: 643–671

1 Sfocatura, maschera di contrasto, concatena

Saldatura nel mondo (2022) 66: 643–671 653

Tabella 1 La dimensione del treno,

compreso tra il 100 e l'1,5%.

immagini di formazione e convalida 75% 84 21 18900 4725 1276 285 516

654 Saldatura nel mondo (2022) 66: 643–671

2.7 Valutazione sul campo

Dopo la valutazione quantitativa (Sezione 2.6), un modello addestrato

con differenze significative rispetto all'aumento virtuale standard e puro

Saldatura nel mondo (2022) 66: 643–671 655

Fig. 6 Quattro metriche di

(a) a90/95. (b) Errore di dimensionamento.

(d) Tasso di chiamate false sull'immagine

Fig. 7 Maschere di segmentazione per

656 Saldatura nel mondo (2022) 66: 643–671

Fig. 8 Maschere di segmentazione per

Fig. 9 Maschere di segmentazione per

Saldatura nel mondo (2022) 66: 643–671 657

Fig. 10 Maschere di segmentazione

Fig. 11 Maschere di segmentazione

658 Saldatura nel mondo (2022) 66: 643–671

Fig. 12 Maschere di segmentazione

La fessura è segmentata correttamente

capacità. I metodi che coinvolgono difetti virtuali hanno mantenuto la loro

Fig. 13 Visualizzazioni utilizzate nel

Saldatura nel mondo (2022) 66: 643–671 659

660 Saldatura nel mondo (2022) 66: 643–671

poiché l’informazione se i difetti erano stati persi o solo lasciati non

Saldatura nel mondo (2022) 66: 643–671 661

662 Saldatura nel mondo (2022) 66: 643–671

Fig. 15 Curve POD per i tre

Saldatura nel mondo (2022) 66: 643–671 663

Fig. 16 Curve POD per i tre

664 Saldatura nel mondo (2022) 66: 643–671

Tabella 2 Convalida incrociata

Puro virtuale 1 1815 0,60 0,09 0,05 0,28

Combinato 1 1815 0,60 0,10 0,06 0,23

75% dei dati di allenamento

Puro virtuale 1 1276 0,51 0,10 0,04 0,43

Combinato 1 1276 0,48 0,10 0,12 0,59

50% dei dati di allenamento

Puro virtuale 1 866 0,81 0,16 0,02 0,83