Beeldfusie

Uit Wikipedia, de vrije encyclopedie

De fusie van beelden (beeldfusie) is het proces van het combineren van twee of meer beelden in een enkel beeld met het behoud van belangrijke kenmerken van elk. Fusie is een belangrijke techniek in vele uiteenlopende gebieden, zoals remote sensing, robotica en medische toepassingen. Een voorbeeld hiervan is de combinatie van twee afbeeldingen waarbij er telkens op een ander object wordt gefocust en dus niet alle objecten scherp zijn, de twee afbeeldingen worden samenvoegen tot één afbeelding waarbij alle objecten scherp zijn. Hiervan zie je een voorbeeld in de afbeelding rechtsonder Fuseervoorbeeld.

Fuseervoorbeeld

[1] [2]

Evolutie[bewerken | brontekst bewerken]

Beeldfusie

De eerste fusieschema's voerden de fusie uit recht op de bronbeelden, die vaak ernstige bijwerkingen hadden, zoals het verminderen van het contrast.

Met de introductie van de piramidetransformatie in het midden van de jaren 80, begonnen er een aantal geavanceerde methodes te ontstaan. Men vond dat het beter zou zijn om de fusie uit te voeren in het transformatiedomein. Piramidetransformatie lijkt zeer nuttig te zijn voor dit doel. Het basisidee om de piramidetransformatie van de gefuseerde afbeelding te vormen is door piramidetransformatie op de bronbeelden de te doen, dan wordt het versmolten beeld verkregen door de inverse piramidetransformatie te nemen. Hier zijn een aantal belangrijke voordelen van de piramidetransformatie:

  • Het kan informatie geven over de scherpe- en contrastveranderingen, het menselijke visuele systeem is bijzonder gevoelig voor deze veranderingen.
  • Het kan zowel ruimte- als frequentiedomeinlokalisatie bieden.

Verschillende soorten van de piramidedecompositie worden gebruikt of ontwikkeld voor beeldfusie, zoals:

  • Laplacian Pyramid
  • Ratio-of-low-pass Pyramid
  • Gradient Pyramid

Sindsdien krijgt beeldfusie steeds meer aandacht. Meer recentelijk, met de ontwikkeling van wavelet theorie, men begon de wavelet multiscale decomposition te gebruiken voor beeldfusie. Eigenlijk kan wavelettransformatie gezien worden als een bijzondere vorm van piramidedecomposities. Het behoudt de meeste voordelen voor beeldfusie.

2-D DWT[bewerken | brontekst bewerken]

De volgende afbeelding geeft de structuur aan van een 2d signaal met 3 level-decomposities.

Piramide-hierarchie 2d dwt

Na een niveau van decompositie, zullen er vier frequentiebanden zijn, namelijk de Low-Low (LL), Low-High (LH), High-Low (HL) en de High-High (HH). Het volgende niveau decompositie is alleen van toepassing op de LL-band van de huidige decompositiefase, die een recursieve decompositieprocedure vormen. Zo zal een N-niveau decompositie 3n +1 verschillende frequentiebanden vormen, die 3N hoge frequentiebanden bevatten en slechts een LL-frequentieband. De 2-D DWT heeft een piramidale structuur zoals in de bovenstaande figuur. De frequentiebanden in hogere decompositie-niveaus zullen een kleiner formaat hebben.

De fusie van beelden is vaak nodig voor beelden die afkomstig zijn van verschillende modaliteiten, instrument of opnametechnieken van dezelfde scène of objecten. Belangrijke toepassingen van de fusie van beelden zijn onder medische beeldvorming, microscopische beeldvorming, remote sensing, computer vision, en robotica.

Fusietechnieken zijn er van de eenvoudigste methode van pixelgemiddelde tot meer gecompliceerde methoden, zoals Hoofdcomponentenanalyse en wavelet-transformatiefusie. Verschillende benaderingen van beeldfusie kunnen onderscheiden worden, afhankelijk of de beelden gefuseerd zijn in het ruimtelijke domein of ze worden omgezet in een ander domein en dan pas gefuseerd worden.

Verschillende fusiemethoden[bewerken | brontekst bewerken]

De volgende samenvatting gaat over verschillende manieren waarop de pixelniveau-fusie van ruimtelijke inputbeelden kan worden gedaan. De meeste van deze methoden zijn ontwikkeld voor de fusie van stilstaande beelden (zoals multispectrale satellietbeelden). Vanwege het statische karakter van de ingevoerde gegevens, worden tijdelijke aspecten die zich voordoen in het fusieproces van beeldsequenties, bv. stabiliteit en consistentie, niet aangepakt. Een generieke indeling van beeldfusiemethodes is de volgende:

  • lineaire Superpositie
  • Niet-lineaire methodes
  • optimalisatiebenaderingen
  • artificial neural networks
  • image pyramids
  • wavelet-transformatie
  • generic multiresolution fusion scheme

Lineaire Superpositie[bewerken | brontekst bewerken]

De waarschijnlijk meest eenvoudige manier om een gefuseerd beeld van verschillende inputframes te bouwen is het uitvoeren van de fusie als een gewogen superpositie van alle inputframes. De optimale wegingscoëfficiënten, met betrekking tot informatie-inhoud en redundantieverwijdering, kan bepaald worden door een Hoofdcomponentenanalyse (PCA) van alle inputintensiteiten. Door het uitvoeren van PCA van de covariantiematrix van de inputintensiteiten zijn de aanpassingscoëfficiënten voor elke ingangsframe verkregen uit de eigenvector die overeenkomt met de grootste eigenwaarde. Een soortgelijke procedure is de lineaire combinatie van alle ingangen in een vooraf gekozen kleurruimte (bijvoorbeeld RGB of HSV), wat leidt tot een valse kleurweergave van het gefuseerde beeld.

Niet lineaire methodes[bewerken | brontekst bewerken]

Een andere eenvoudige benadering van beeldfusie is om het gefuseerde beeld op te bouwen door het toepassen van een eenvoudige niet-lineaire operator, zoals max of min. Als in alle inputbeelden de heldere objecten van belang zijn, een goede keuze is dan om het gefuseerde beeld te berekenen door een pixel-per-pixeltoepassing van de maximale operator. Een uitbreiding van deze aanpak volgt door de invoering van morfologische operatoren zoals het openen of sluiten. Een toepassing is het gebruik van voorwaardelijke morfologische operatoren door de definitie van de functies zeer betrouwbare 'kern ' aanwezig zijn in beide beelden en een set van 'potentiële' functies alleen aanwezig in één bron, waar de feitelijke fusie-proces wordt uitgevoerd door de toepassing van voorwaardelijke erosie- en dilatatieoperatoren. Een verdere uitbreiding van deze aanpak is image algebra, dat is een hoog niveau algebraïsche uitbreiding van beeldmorfologie, ontworpen om alle beeldverwerkingsoperaties te beschrijven. De basistypen omschreven in image algebra zijn value sets, coördinerende sets die toelaten de integratie van verschillende resoluties en vlakverdelingen, afbeeldingen en templates te maken. Voor elk basistype binaire en unaire operaties zijn er operaties gedefinieerd die reiken van de basisset-operaties tot meer complexe operaties op de afbeeldingen en templates. Image algebra wordt in het algemeen gebruikt om multisensor-beelden combineren.

Optimalisatie benaderingen[bewerken | brontekst bewerken]

In deze benadering van beeldfusie, is de fusietaak uitgedrukt als een bayesiaans optimaliseringsprobleem. Met behulp van de multisensorbeeldgegevens en een a-priorimodel van het fusieresultaat, proberen we het gefuseerde beeld te vinden dat de a-posteriorikans maximaliseert. Door het feit dat dit probleem geen algemene oplossing heeft zijn een aantal vereenvoudigingen ingevoerd: Alle inputbeelden worden gemodelleerd als willekeurige markovvelden om een energiefunctie te definiëren die het fusiedoel beschrijft. Door de gelijkwaardigheid van willekeurige gibbsvelden en willekeurige markovvelden, kan deze energiefunctie worden uitgedrukt als een som van zogenaamde dique potentials, waar alleen pixels in een vooraf bepaalde wijk van invloed zijn op de werkelijke pixel. De fusietaak bestaat dan uit een maximalisering van de energiefunctie.

Kunstmatige neurale netwerken[bewerken | brontekst bewerken]

Geïnspireerd door de fusie van verschillende sensorsignalen in biologische systemen, hebben veel onderzoekers kunstmatige neurale netwerken in het proces van pixelniveaubeeldfusie gebruikt. Het meest populaire voorbeeld voor de fusie van verschillende beeldsensoren in biologische systemen werd beschreven door Newman en Hartline in de jaren 80: Ratelslangen (en de algemene familie van groefkopadders) beschikken over zogenaamde putorganen die gevoelig zijn aan thermische straling via een dicht netwerk van zenuwvezels. De output van deze putorganen wordt toegevoerd aan de optische tectum, waar het gecombineerd wordt met de zenuwsignalen verkregen uit de ogen. Newman en Hartline onderscheiden zes verschillende soorten bimodale neuronen die de twee signalen samenvoegen op basis van een complexe combinatie van onderdrukking en verbetering (versterking). Verschillende onderzoekers hebben dit fusieproces gemodelleerd.

Wavelet-transformatie fusie[bewerken | brontekst bewerken]

De meest voorkomende vorm van transformatiebeeldfusie is wavelet-transformatiefusie[3]. Gemeenschappelijk met alle fusietechnieken voor het transformatiedomein, de getransformeerde beelden worden gecombineerd in het transformatiedomein met behulp van een bepaalde fusieregel, en dan terug omgezet naar het ruimtelijk domein om het resulterende gefuseerde beeld te geven. Wavelet-transformatie is gedefinieerd door de wavelet-transformaties ω van de twee geregistreerde inputbeelden en samen met de fusieregel Φ. Dan wordt de inverse wavelet-transformatie ω^-1 berekend, en het samengevoegde beeld I(x,y) is gereconstrueerd.

Dit proces wordt weergegeven in volgende figuur.

Fusie afbeeldingen

In bovenstaand schema kunnen we zien dat de fusieregels een zeer belangrijke rol spelen tijdens het fusieproces. Hier zijn een aantal veelgebruikte fusieregels:

Fusieregels

Bij het maken van elke wavelet-coëfficiënt voor het gefuseerde beeld moeten we bepalen welke bronafbeelding de coëfficiënten beter beschrijft. Deze informatie zal opgeslagen worden in de fusion decision map. De fusion decision map heeft dezelfde grootte als de oorspronkelijke afbeeldingen. Elke waarde is de index van de bronafbeelding die misschien meer informatief is over de overeenkomstige wavelet-coëfficiënt. Dus, we beslissen over iedere afzonderlijke coëfficiënt.

Er zijn twee veelgebruikte methodes. Een manier is de pixel-based fusieregel, hierbij gaan we enkel met de pixel rekening houden die we gaan fuseren. De ander manier is om niet alleen de overeenkomstige coëfficiënten in beraad te nemen, maar ook de aanliggende, bijvoorbeeld een 3x3 of een 5x5 window, zoals geïllustreerd in bovenstaande afbeelding. Deze methode wordt de window-based fusieregel genoemd. Deze methode behandelt het feit dat er meestal hoge correlatie tussen naburige pixels is. Er zijn methodes om de kwaliteit van de fusie te bepalen, één daarvan is kwantitatieve vergelijking.

Discrete-wavelettransformatie (DWT) fusie[bewerken | brontekst bewerken]

Het basisidee van alle multiresolutiefusieschema's is dat het menselijke visuele systeem in de eerste plaats gevoelig is voor lokale contrastveranderingen, bijvoorbeeld de randen of hoeken. In het geval van wavelet-transformatiefusie worden alle respectieve wavelet-coëfficiënten van de inputbeelden gecombineerd met behulp van de fusieregel Φ. Omdat de wavelet-coëfficiënten met grote absolute waarden de informatie bevatten over de meest opvallende kenmerken van de beelden, zoals randen en lijnen, is een goede fusieregel om het maximum van de absolute waarden van de overeenkomstige wavelet-coëfficiënten te nemen. Een meer geavanceerde methode is de area based selection rule. De maximale absolute waarde binnen een venster wordt gebruikt als een activiteitsmeting van de centrale pixel van het venster. Een binaire decision map met dezelfde grootte als de DWT is gebouwd om de selectieresultaten op basis van een maximale selectieregel op te nemen. Een is nog een andere vergelijkbare methode. In plaats van met behulp van een binair besluit, worden de resulterende coëfficiënten gegeven door een gewogen gemiddelde op basis van de lokale activiteit in elk van de beelden. Een andere methode heet de contrastgevoeligheidsfusie. Deze methode maakt gebruik van de gewogen energie in het menselijke waarnemingsdomein, waar dit domein gebaseerd is op de frequentierespons, dat wil zeggen het contrastgevoeligheid van het menselijke visuele systeem. Het beeldfusieschema van deze wavelet-transformatie is een uitbreiding van de piramide.[4]

Complexe waveletbeeldfusie[bewerken | brontekst bewerken]

De gedeelten van de afbeeldingen meer in focus geven aanleiding tot grotere coëfficiënten binnen die regio. Een eenvoudige maximale regeling wordt gebruikt voor het maken van de gecombineerde coëfficiëntenmap. Het resulterende gefuseerde beeld wordt dan geproduceerd door het transformeren van de gecombineerde coëfficiëntenmap met behulp van de inverse complexe wavelet-transformatie. Het wavelet-coëfficiënt beeld toont het georiënteerde karakter van de complex wavelet subbands. Al de coëfficiëntfusieregels geïmplementeerd met de discrete wavelet-transformatie kunnen ook worden uitgevoerd met de complexe wavelet-transformatie. Echter, zij moet worden toegepast op de magnitude van de DT-CWT-coëfficiënten alsof ze complex zijn. Hoewel zeer efficiënt berekenbaar met de computer, de discrete wavelet-transformatie is niet shift invariant. Shift invariance binnen de wavelet-transformatiefusie is essentieel voor de daadwerkelijke vergelijking van de coëfficiëntmagnitude gebruikt door de fusieregel Φ. Dit is omdat de magnitude van een coëfficiënt binnen een shift variant-transformatie vaak niet de afspiegeling zal geven van de werkelijke inhoud op dat punt. De shift-variantie binnen een DWT is een gevolg van de subsampling nodig voor een critical decimation. De shift invariance discrete wavelet transform (SIDWT) was een eerste poging om shift-invariantie te integreren in een DWT door discarding en subsampling. De SIDWT heeft veel betere resultaten dan de standaard-DWT-technieken. De motivatie voor het gebruik van de DT-CWT voor beeldfusie is de shift invariance.

Prestatiebeoordeling van fusie.[bewerken | brontekst bewerken]

Het is gebruikelijk om het resultaat van fusie visueel te beoordelen. Via een visuele beoordeling bepaald menselijk oordeel de kwaliteit van het beeld. Sommige onafhankelijke en objectieve waarnemers geven punten aan het overeenkomstige beeld en het eindcijfer wordt verkregen door het gemiddelde te nemen of het gewogen gemiddelde te nemen van de individuele punten. Uiteraard heeft deze evaluatiemethode een aantal nadelen, namelijk dat het niet accuraat is en het afhankelijk is van de ervaring van de waarnemer.

Kwantitatieve beoordeling[bewerken | brontekst bewerken]

Voor een nauwkeurige en waarheidsgetrouwe beoordeling van het fusieproduct is een aantal kwantitatieve beoordeling en indicators vereist. Twee verschillende maatregelen worden hier besproken om een fusieproces te evalueren, namelijk informatie-entropie en Root Mean Square Error.

Entropie[bewerken | brontekst bewerken]

Een van de kwantitatieve metingen in digitale beeldverwerking is entropie. Claude Shannon introduceerde het entropieconcept in kwantificatie van informatie-inhoud van berichten. Hoewel hij entropie gebruikte in de communicatie, kan het ook worden gebruikt als een meting en kwantificeert de informatie-inhoud van digitale beelden. Een digitaal beeld bestaat uit pixels, gerangschikt in rijen en kolommen. Elke pixel wordt gedefinieerd door zijn positie en door haar grijs-schaalniveau. Voor een afbeelding bestaande uit L grijstinten, is de entropie gedefinieerd als:

waar H de kans is op (hier frequentie) van elk grijs-schaalniveau. Bijvoorbeeld een digitale afbeelding van het type uint8 (unsigned integer 8) heeft 256 verschillende niveaus van 0 (zwart) en 255 (wit). Hier moet worden opgemerkt dat in gecombineerde beelden het aantal niveaus zeer groot is en de intensiteit van het grijs-niveau van elke pixel een decimaal double getal is. Maar de (bovenstaande) vergelijking is nog steeds geldig om de entropie te berekenen. Voor afbeeldingen met een hoge informatie-inhoud is de entropie groot. De grotere afwisselingen en veranderingen in een beeld geven grotere entropie en de scherpe en gerichte beelden hebben meer veranderingen dan wazige en slecht gefocuste beelden. Vandaar dat de entropie een maatregel is om de kwaliteit te beoordelen van verschillende beelden van dezelfde scène.

De root mean square error[bewerken | brontekst bewerken]

De Root Mean Square Error tussen de referentie-afbeelding, I en de gefuseerde afbeelding is gedefinieerd als: F


Waar i en j de ruimtelijke positie van de pixels geven, zijn M en N de afmetingen van de afbeeldingen. Deze methode is geschikt voor afbeeldingen die bestaan uit twee objecten. Eerst een referentie, overal waar InFocus image I is genomen. Vervolgen worden twee beelden gemaakt van de originele afbeelding. In één beeld is het eerste object scherp en het tweede is wazig. In het andere beeld is het eerste object wazig en het ander is scherp gebleven. Het gefuseerde beeld zou beide scherpe objecten moeten bevatten. Vaak is de waarneembare kwaliteit van de resulterende gefuseerd beeld van het allergrootste belang. In deze omstandigheden kan vergelijkingen van de kwantitatieve kwaliteit vaak misleidend of betekenisloos zijn.

Effect van Wavelet Filter keuze voor DWT en DT-CWT gebaseerde fusie[bewerken | brontekst bewerken]

Er zijn veel verschillende keuzes van filters om de DWT en DT-CWT te beïnvloeden. Om geen faseverstoringen te krijgen kunnen we gebruikmaken van filters met een lineaire faserespons. Om een perfecte reconstructie te behouden gebruiken we biorthogonale filters.

Aplicaties[bewerken | brontekst bewerken]

Navigatiehulpmiddel[bewerken | brontekst bewerken]

Om het mogelijk te maken voor helikopterpiloten om te vliegen onder slechte omstandigheden (zoals mist of hevige regen), zijn deze helikopters uitgerust met meerdere beeldsensoren, die kunnen bekeken worden op het display dat gemonteerd is op de helm van de piloot. Typisch gebruikt men twee sensoren: low-light-television (LLTV) sensor en een thermal imaging forward-looking-infrared (FLIR) sensor. In de huidige configuratie kan de piloot kiezen uit de twee sensors om te tonen op het display. Een goede verbetering is om de twee beelden te combineren tot één beeld.

Het samenvoegen van Out-Of-Focus afbeeldingen[bewerken | brontekst bewerken]

Vanwege de beperkte focusdiepte van optische lenzen (vooral lenzen met lange brandpuntafstand) is het vaak niet mogelijk om een afbeelding waarin meerdere objecten zich bevinden die in focus moeten zijn allemaal te focusseren (scherp te stellen). Een mogelijkheid om dit probleem op te lossen zou zijn om meerdere foto’s te nemen met telkens een ander object in focus, en vervolgens deze te gaan combineren tot één afbeelding waar al de objecten in focus op staan.

Medische Beeldverwerking[bewerken | brontekst bewerken]

Met de ontwikkeling van nieuwe fotografiemethoden in de medische diagnostiek ontstaat de noodzaak voor zinvolle (en ruimtelijke juiste) combinatie van alle beschikbare gegevensverzamelingen van de foto's. Voorbeelden voor fotografeerapparaten zijn onder andere computertomografie (CT), magnetische resonantiebeeldvorming (MRI) of de nieuwere positronemissietomografie (PET).

Remote Sensing[bewerken | brontekst bewerken]

Remote sensing is een typische toepassing voor beeldfusie: moderne spectrale scanners verzamelen een paar honderd spectrale banden die ofwel kunnen worden gevisualiseerd en individueel verwerkt, of die kunnen worden samengesmolten tot een enkel beeld, afhankelijk van de beeldanalysetaak. [5]