Autocorrelatie

In de statistiek en de signaalverwerking is autocorrelatie de kruiscorrelatie van een functie of signaal met zichzelf. Men kan autocorrelatie beschouwen als de mate van gelijkenis tussen de functie en een in de tijd verschoven kopie daarvan. Het is een wiskundig instrument om zich herhalende patronen te vinden, zoals de aanwezigheid van een periodiek signaal in ruis, of om de ontbrekende grondtoon te vinden in een signaal waarvan alleen de boventonen gegeven zijn. Autocorrelatie wordt veel gebruikt in de signaalverwerking om reeksen van waarden te analyseren, zoals tijdsafhankelijke signalen.

Definities

Verschillende onderzoeksgebieden definiëren de autocorrelatie op verschillende wijze, en deze definities zijn niet allemaal equivalent. In sommige gebieden worden de termen autocorrelatie en autocovariantie door elkaar gebruikt.

Statistiek

In de statistiek beschrijft de autocorrelatie van een stochastisch proces de correlatie tussen de waarden van dit proces op verschillende tijdstippen, als functie van de twee tijdstippen of van het tijdsverschil. Stel dat $X$ een herhaalbaar proces en $i$ een tijdstip na het starten van het proces. De index $i$ kan voor een discreet proces een geheel getal of voor een continu proces een reëel getal zijn). Dan is $X_{i}$ de waarde (of de realisatie gegenereerd door een gegeven run) van het proces op tijdstip $i$ . Stel verder dat het proces voor alle tijdstippen $i$ gedefinieerde waarden heeft voor de verwachtingswaarde $mu_{i}$ en de variantie $\sigma _{i}^{2}$ . De definitie van de autocorrelatie is dan:

R(s,t)={\frac {\operatorname {E} [(X_{t}-\mu _{t})(X_{s}-\mu _{s})]}{\sigma _{t}\sigma _{s}}}

waarin $\operatorname {E}$ de verwachting is. Merk op dat deze formule niet voor alle tijdreeksen of processen goed gedefinieerd is, aangezien de variantie nul (voor constante processen) of oneindig kan zijn. Als de functie $R$ goed gedefinieerd is, moet zijn waarde in het bereik [–1, 1] liggen, waarbij 1 volledige correlatie en –1 volledige anticorrelatie betekent.

Als $X_{t}$ een stationair proces van de tweede orde is, zijn de verwachtingswaarde $mu$ en de variantie $\sigma ^{2}$ tijdsonafhankelijk. De autocorrelatie hangt in dat geval alleen af van het verschil tussen $t$ en $s$ : de correlatie hangt alleen nog af van het tijdsverschil tussen de twee waarden en niet meer van hun tijdstip. Dit impliceert tevens dat de autocorrelatie kan worden uitgedrukt als een functie van de tijdvertraging, en dat dit een even functie is van de vertraging $\tau =t-s$ . Dit leidt tot de bekendere vorm:

R(\tau )={\frac {\operatorname {E} [(X_{t}-\mu )(X_{t+\tau }-\mu )]}{\sigma ^{2}}}

Omdat dit een even functie is, geldt

R(\tau )=R(-\tau )

In sommige andere vakgebieden dan statistiek en tijdreeksanalyse is het gebruikelijk de normering met $\sigma ^{2}$ te laten vervallen en de term autocorrelatie uitwisselbaar te gebruiken met autocovariantie. De normering is echter van belang zowel omdat de interpretatie van de autocorrelatie als een correlatie een schaalvrije maat biedt voor de sterkte van de statistische afhankelijkheid, als omdat de normering van invloed is op de statistische eigenschappen van de geschatte autocorrelaties.

Signaalverwerking

In de signaalverwerking wordt bovenstaande definitie veelal gebruikt zonder de normering, dat wil zeggen zonder het gemiddelde eraf te trekken en het resultaat te delen door de variantie. Wanneer de autocorrelatiefunctie wordt genormeerd met het gemiddelde en de variantie, noemt men dat soms de autocorrelatiecoëfficiënt.^[1]

Als $f(t)$ een signaal is, wordt de continue autocorrelatie $R_{ff}(\tau )$ meestal de continue kruiscorrelatie-integraal van $f(t)$ bij een tijdsvertraging $\tau$ genoemd:

R_{ff}(\tau )=(f(t)*{\overline {f}}(-t))(\tau )=\int _{-\infty }^{\infty }f(t+\tau ){\overline {f}}(t)\,{\rm {d}}t=\int _{-\infty }^{\infty }f(t){\overline {f}}(t-\tau )\,{\rm {d}}t

waarin ${\overline {f}}$ de complex geconjugeerde en $*$ de convolutie voorstellen. Voor een reëelwaardige functie geldt ${\overline {f}}=f$ .

De discrete autocorrelatie $R$ bij vertraging $j$ voor een discreet signaal $x_{n}$ luidt

R_{xx}(j)=\sum _{n}x_{n}\,{\overline {x}}_{n-j}

Bovenstaande definities gelden voor signalen die kwadratisch integreerbaar of kwadratisch sommeerbaar zijn, dat wil zeggen dat zij een eindige energie hebben. Signalen die „eeuwig voortduren” worden daarentegen als aselecte processen behandeld, waarbij op grond van de verwachte waarden verschillende definities worden gebruikt. Voor stationaire aselecte processen in brede zin worden de autocorrelaties gedefinieerd als

R_{ff}(\tau )=\operatorname {E} \left[f(t){\overline {f}}(t-\tau )\right]

R_{xx}(j)=\operatorname {E} \left[x_{n}\,{\overline {x}}_{n-j}\right]

Voor stationaire processen zullen dit ook functies van t of n zijn.

Voor processen die ook ergodisch zijn kan de verwachte waarde worden vervangen door de limiet over een tijdsgemiddelde. De autocorrelatie van een ergodisch proces wordt soms gedefinieerd als of gelijkgesteld aan^[1]

R_{ff}(\tau )=\lim _{T\rightarrow \infty }{\frac {1}{T}}\int _{0}^{T}f(t+\tau ){\overline {f}}(t)\,{\rm {d}}t

R_{xx}(j)=\lim _{N\rightarrow \infty }{\frac {1}{N}}\sum _{n=0}^{N-1}x_{n}\,{\overline {x}}_{n-j}

Deze definities hebben het voordeel dat zij een zinvol goed-gedefinieerd resultaat met één parameter geven voor ergodische functies, zelfs wanneer deze functies niet het resultaat zijn van ergodische processen.

Anderzijds kunnen „eeuwigdurende” signalen worden geanalyseerd met een autocorrelatie over een korte tijd, met behulp van integralen over een eindige tijd.

Meerdimensionale autocorrelatie wordt op soortgelijke wijze gedefinieerd. Zo leidt de autocorrelate van een kwadratisch sommeerbaar discreet signaal in drie dimensies tot

R(j,k,\ell )=\sum _{n,q,r}x_{n,q,r}\,x_{n-j,q-k,r-\ell }

Wanneer de gemiddelde waarden worden afgetrokken voordat de autocorrelatiefunctie wordt berekend, wordt de resulterende functie meestal de autocovariantiefunctie genoemd.

Eigenschappen

In deze paragraaf worden alleen eendimensionale autocorrelaties beschreven, omdat de meeste eigenschappen eenvoudig zijn over te brengen op meerdimensionale gevallen.

Een fundamentele eigenschap van autocorrelatie is symmetrie: $R(i)=R(-i)$ , hetgeen eenvoudig uit de definitie valt af te leiden. In het continue geval is de autocorrelatie een even functie indien $f$ een reëelwaardige functie is:

R_{f}(-\tau )=R_{f}(\tau )

en een Hermitische functie indien

f

een complexwaardige functie functie is:

R_{f}(-\tau )=R_{f}^{*}(\tau )

De continue autocorrelatiefunctie heeft een piek in de oorsprong, waar hij een reële waarde heeft. Dat wil zeggen dat voor elke $\tau$ geldt $|R_{f}(\tau )|\ \leq \ R_{f}(0).$ Dit is een gevolg van de ongelijkheid van Cauchy-Schwarz. Hetzelfde geldt in het geval van een discrete functie.
De autocorrelatiefunctie van een periodieke functie is zelf eveneens periodiek, met dezelfde periode.
De autocorrelatie van de som van twee volledig ongecorreleerde functies (hun kruiscorrelatie bedraagt 0 voor alle $\tau$ ) is de som van de autocorrelaties van de afzonderlijke functies.
Aangezien autocorrelatie een bijzonder soort kruiscorrelatie is, behoudt hij alle eigenschappen van de kruiscorrelatie.
De autocorrelatie van een continu witteruissignaal heeft een sterke piek (voorgesteld door een deltafunctie van Dirac) bij $\tau =0$ , en is precies 0 bij alle andere waarden van $\tau$ .
De stelling van Wiener-Khinchin legt via de Fourieranalyse de relatie tussen de autocorrelatiefunctie en de vermogenspectrale dichtheid:

R(\tau )=\int _{-\infty }^{\infty }S(f)e^{j2\pi f\tau }\,{\rm {d}}f

S(f)=\int _{-\infty }^{\infty }R(\tau )e^{-j2\pi f\tau }\,{\rm {d}}\tau

Voor functies met reële waarden heeft de autocorrelatiefunctie een symmetrische getransformeerde, zodat de stelling van Wiener-Khinchin ook kan worden uitgedrukt in alleen reële cosinussen:

R(\tau )=\int _{-\infty }^{\infty }S(f)\cos(2\pi f\tau )\,{\rm {d}}f

S(f)=\int _{-\infty }^{\infty }R(\tau )\cos(2\pi f\tau )\,{\rm {d}}\tau

Efficiënte berekening

Voor gegevens in de vorm van een discrete reeks is het vaak nodig de autocorrelatie snel te berekenen. Terwijl de brute-forcemethode van de orde $n^{2}$ is, zijn er verschillende efficiënte algoritmes die de autocorrelatie kunnen berekenen met een orde $n\log(n)$ . Zo kan met de stelling van Wiener-Khinchin de autocorrelatie worden berekend vanuit de ruwe gegevens X met behulp van twee Fast Fourier transformaties (FFT):^[2]

F_{R}(f)={\text{FFT}}(X(t))

S(f)=F_{R}(f){F_{R}}^{*}(f)

R(\tau )={\text{IFFT}}(S(f))

waarin IFFT de inverse Fast Fourier transformatie is. Het sterretje geeft de complex geconjugeerde aan.

Toepassingen

Het meten van optische spectra en van zeer korte lichtpulsen van lasers, met behulp van zogenaamde optische autocorrelatoren.
Het meten van de grootteverdeling van zeer kleine deeltes of micellen in een vloeistof. Als een laserbundel in de vloeistof schijnt, wordt het licht enigszins verstrooid, wat gecorreleerd is aan de bewegingen van de deeltjes. Autocorrelatie van het signaal levert een beeld van de diffusiesnelheid van de deeltjes. Als de viscositeit van de deeltjes bekend is, kan hieruit de grootte van de deeltjes worden berekend.
In de fysische optica kan met autocorrelatie en kruiscorrelatie de mate van coherentie van het licht worden bepaald. Een verdere toepassing hiervan is de optische coherentietomografie (OCT), die in de oogheelkunde wordt gebruikt voor non-invasief onderzoek van het netvlies.
In de signaalverwerking kan autocorrelatie informatie verschaffen over zich herhalende patronen, zoals de maat in muziek, of de frequentie van pulsars, hoewel de tijdstip van de maat hiermee niet kan worden bepaald. Ook kan de hoogte van een muziektoon ermee worden geschat.
Ruimtelijke, in plaats van tijdsafhankelijke, autocorrelatie met behulp van de Patterson-functie wordt gebruikt in de röntgendiffractie voor het herstellen van de Fourierfase-informatie van atoomposities, die niet met diffractie alleen kunnen worden verkregen.
In de statistiek wordt ruimtelijke autocorrelatie tussen bepaalde posities gebruikt om de onnauwkeurigheden in de gemiddelde waarden te schatten wanneer een heterogene populatie wordt bemonsterd.
De SEQUEST-algoritme voor het analyseren van massaspectra gebruikt autocorrelatie in combinatie met kruiscorrelatie om de overeenkomst te achterhalen tussen het waargenomen spectrum en een geïdealiseerd spectrum van een peptide.
In de astrofysica wordt aurocorrelatie gebruikt voor het onderzoeken van de ruimtelijke verdeling van sterrenstelsels met waarnemingen bij verschillende golflengtes.
In paneldata verstaat men onder ruimtelijke autocorrelatie de ruimtelijke correlatie van een variabele met zichzelf.

Zie ook

Externe links

Voetnoten

↑ ^a ^b (en) Patrick F. Dunn, Measurement and Data Analysis for Engineering and Science, New York: McGraw–Hill, 2005 ISBN 0-07-282538-3
↑ (en) Box, G. E. P., G. M. Jenkins, en G. C. Reinsel. Time Series Analysis: Forecasting and Control. 3rd ed. Upper Saddle River, NJ: Prentice–Hall, 1994.

[dunn-1] (en) Patrick F. Dunn, Measurement and Data Analysis for Engineering and Science, New York: McGraw–Hill, 2005 ISBN 0-07-282538-3

[2] (en) Box, G. E. P., G. M. Jenkins, en G. C. Reinsel. Time Series Analysis: Forecasting and Control. 3rd ed. Upper Saddle River, NJ: Prentice–Hall, 1994.

[1]