Kernel smoother

Un kernel smoother è una tecnica non parametrica di apprendimento automatico statistico atta a stimare una funzione a valori reali $f:\mathbb {R} ^{p}\to \mathbb {R}$ come media ponderata di dati osservati adiacenti ^[1]^[2]. Il peso è definito dal kernel, in modo che ai punti più vicini vengano assegnati pesi maggiori. La funzione stimata non ha discontinuità e il livello di smoothness è impostato da un singolo parametro. Il kernel smoothing può essere considerato un tipo di media mobile ponderata.

Definizioni

Sia $K_{h_{\lambda }}(X_{0},X)$ un kernel definito da

K_{h_{\lambda }}(X_{0},X)=D\left({\frac {\left\|X-X_{0}\right\|}{h_{\lambda }(X_{0})}}\right)

dove:

$X,X_{0}\in \mathbb {R} ^{p}$
$\left\|\cdot \right\|$ è la norma euclidea
$h_{\lambda }(X_{0})$ è un parametro (raggio del kernel)
D(t) è tipicamente una funzione a valori reali positivi, il cui valore decresce (o no cresce) al crescere della distanza tra X e X₀.

I kernel più comunemente utilizzati per lo smoothing comprendono i kernel parabolici (Epanechnikov), tricube e gaussiani.

Sia $Y(X):\mathbb {R} ^{p}\to \mathbb {R}$ una funzione continua di X. Per ogni $X_{0}\in \mathbb {R} ^{p}$ , la media ponderata del kernel di Nadaraya-Watson (stima Y( X )) è definita da

{\hat {Y}}(X_{0})={\frac {\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})Y(X_{i})}}{\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})}}}

dove:

N è il numero di punti osservati
Y ( X _i ) sono le osservazioni nei punti X _i.

Nelle sezioni seguenti si descriveranno alcuni casi particolari di kernel smoother.

Kernel smoother gaussiano

Uno dei kernel più ampiamente utilizzati è il kernel gaussiano, che viene espresso dalla seguente equazione

K(x^{*},x_{i})=\exp \left(-{\frac {(x^{*}-x_{i})^{2}}{2b^{2}}}\right)

in tale equazione b viene detta scala di lunghezza per lo spazio di input.

Smoother del vicino più prossimo

L' algoritmo k-nearest neighbor può essere utilizzato per definire uno smoother k -nearest neighbor come segue. Per ogni punto X₀, si considerano m vicini più prossimi e si stima il valore di Y(X₀) facendo la media dei valori di tali vicini.

Formalmente, $h_{m}(X_{0})=\left\|X_{0}-X_{[m]}\right\|$ , dove $X_{[m]}$ è il m-esimo vicino più prossimo a X₀ e

D(t)={\begin{cases}1/m&{\text{se }}|t|\leq 1\\0&{\text{altrimenti}}\end{cases}}

In questo esempio, X è unidimensionale. Per ogni X ₀, ${\hat {Y}}(X_{0})$ è un valore medio dei 16 punti più prossimi a X ₀ (indicati in rosso).

Kernel smoother medio

L'idea del kernel average smoother è la seguente. Per ogni punto X₀, si sceglie una grandezza di distanza costante λ (raggio del kernel o larghezza della finestra per p = 1 dimensione) e si calcola una media ponderata per tutti i punti con distanza da X₀ inferiore a $\lambda$ (più i punti sono vicini a X₀, più alto è il loro peso).

Formalmente, $h_{\lambda }(X_{0})=\lambda ={\text{costante}},$ e D(t) è basata su uno dei kernel più diffusi.

Per ogni X ₀ la larghezza della finestra è costante e il peso di ciascun punto nella finestra è schematicamente indicato dall'area in giallo nel grafico. Si può osservare che la stima è regolare, ma i punti di confine sono distorti. Ciò dipende dal numero ineguale di punti nella finestra (da destra e da sinistra rispetto a X₀), quando X₀ è sufficientemente vicino al confine.

Regressione locale

Regressione lineare locale

Nelle due sezioni precedenti si è ipotizzato che la funzione Y(X) in questione fosse localmente costante, quindi si è potuto utilizzare la media ponderata per la stima. L'idea della regressione lineare locale è quella di adattare localmente una retta (o un iperpiano per più dimensioni) e una funzione costante (linea orizzontale). Dopo aver adattato la retta, la stima ${\hat {Y}}(X_{0})$ è fornita dal valore di questa linea nel punto X₀. Ripetendo questa procedura per ogni X₀, si ottiene la funzione di stima ${\hat {Y}}(X)$ . Come nella sezione precedente, la larghezza della finestra è costante $h_{\lambda }(X_{0})=\lambda ={\text{costante}}.$ Formalmente, la regressione lineare locale viene calcolata risolvendo un problema di minimi quadrati ponderati.

Per una dimensione (p = 1):

${\begin{aligned}&\min _{\alpha (X_{0}),\beta (X_{0})}\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{0})-\beta (X_{0})X_{i}\right)^{2}}\\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\Downarrow \\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,{\hat {Y}}(X_{0})=\alpha (X_{0})+\beta (X_{0})X_{0}\\\end{aligned}}$

La soluzione in forma chiusa è data da:

{\hat {Y}}(X_{0})=\left(1,X_{0}\right)\left(B^{T}W(X_{0})B\right)^{-1}B^{T}W(X_{0})y

dove:

$y=\left(Y(X_{1}),\dots ,Y(X_{N})\right)^{T}$
$W(X_{0})=\operatorname {diag} \left(K_{h_{\lambda }}(X_{0},X_{i})\right)_{N\times N}$
$B^{T}=\left({\begin{matrix}1&1&\dots &1\\X_{1}&X_{2}&\dots &X_{N}\\\end{matrix}}\right)$

La funzione risultante è regolare e si è ridotto il problema dei punti di confine distorti.

La regressione lineare locale può essere applicata a spazi con qualunque numero di dimensioni, sebbene la questione di cosa si trovi un intorno locale diventi più complessa al crescere di tale numero. È comune utilizzare k punti di training più vicini a un punto di test per adattare la regressione lineare locale. Questo può portare a un'elevata varianza della funzione appresa. Per limitare la varianza, l'insieme dei punti di training dovrebbe contenere il punto di test nel proprio inviluppo convesso.^[3]

Regressione polinomiale locale

Invece di adattare funzioni localmente lineari, si può ricorrere a funzioni polinomiali. Per p=1, si dovrebbe minimizzare:

{\underset {\alpha (X_{0}),\beta _{j}(X_{0}),j=1,...,d}{\mathop {\min } }}\,\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{0})-\sum \limits _{j=1}^{d}{\beta _{j}(X_{0})X_{i}^{j}}\right)^{2}}

con ${\hat {Y}}(X_{0})=\alpha (X_{0})+\sum \limits _{j=1}^{d}{\beta _{j}(X_{0})X_{0}^{j}}$

Nel caso generale (p>1), si dovrebbe minimizzare:

{\begin{aligned}&{\hat {\beta }}(X_{0})={\underset {\beta (X_{0})}{\mathop {\arg \min } }}\,\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-b(X_{i})^{T}\beta (X_{0})\right)}^{2}\\&b(X)=\left({\begin{matrix}1,&X_{1},&X_{2},...&X_{1}^{2},&X_{2}^{2},...&X_{1}X_{2}\,\,\,...\\\end{matrix}}\right)\\&{\hat {Y}}(X_{0})=b(X_{0})^{T}{\hat {\beta }}(X_{0})\\\end{aligned}}

Voci correlate

Note

^ Trevor Hastie, Robert Tibshirani e J. H. Friedman, The elements of statistical learning: data mining, inference, and prediction: with 200 full-color illustrations, collana Springer series in statistics, Springer, 2001, ISBN 978-0-387-95284-0.
^ Qi Li e Jeffrey Scott Racine, Nonparametric econometrics: theory and practice, Princeton University Press, 2007, ISBN 978-0-691-12161-1.
^ Maya R. Gupta, Eric K. Garcia e Erika Chin, Adaptive Local Linear Regression With Application to Printer Color Management, in IEEE Transactions on Image Processing, vol. 17, n. 6, 2008-06, pp. 936–945, DOI:10.1109/TIP.2008.922429.

Portale Matematica

Portale Statistica

[1] Trevor Hastie, Robert Tibshirani e J. H. Friedman, The elements of statistical learning: data mining, inference, and prediction: with 200 full-color illustrations, collana Springer series in statistics, Springer, 2001, ISBN 978-0-387-95284-0.

[2] Qi Li e Jeffrey Scott Racine, Nonparametric econometrics: theory and practice, Princeton University Press, 2007, ISBN 978-0-691-12161-1.

[3] Maya R. Gupta, Eric K. Garcia e Erika Chin, Adaptive Local Linear Regression With Application to Printer Color Management, in IEEE Transactions on Image Processing, vol. 17, n. 6, 2008-06, pp. 936–945, DOI:10.1109/TIP.2008.922429.

[1]

[2]

[3]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Classificazione a singola classe · Ranking · Regole di associazione · Apprendimento non supervisionato · Apprendimento semi-supervisionato · Apprendimento supervisionato · Apprendimento auto-supervisionato · Apprendimento per rinforzo · Apprendimento profondo · Apprendimento online · Apprendimento incrementale · Apprendimento trasduttivo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random field CRF · Modello di Markov nascosto · Algoritmo k-nearest neighbors (k-NN) · Ragionamento basato su casi (CBR) · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modello grafico · Rete bayesiana · Macchine a vettori di supporto (SVM) · Processo gaussiano · Modello ensemble · Boosting · Bagging · Stacking · Voting · Cascading · Error correcting output code (ECOC)
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Percettrone basato su kernel · Rete neurale a funzioni base radiali (RBF net) · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Rete neurale grafica · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · PyTorch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico