domenica 22 giugno 2014

Sell in may and go away if you have no other way: the CSS statistic


Le anomalie periodiche hanno sempre catalizzato l'interesse degli accademici; L'unica, ad essere snobbata o liquidata al massimo con poche righe è "Sell in may & go away". Un paio di esempi:

pdf1     pdf2


Provo a colmare la lacuna, ribaltando diametralmente alcune conclusioni; una su tutte: è molto più anomalia questa che il celebrato "effetto gennaio".

Diamo inizialmente un'occhiata ai volumi. I volumi di maggio presentano la tendenza ad essere inferiori rispetto ai volumi di aprile. Il fenomeno è evidente calcolando  il delta% t/t-1 e cumulandolo. Possiamo vederlo in due diversi modi abbastanta intuitivi


Tuttavia, se osserviamo la media dei volumi di maggio, con la media mensile dei volumi (dal 1950), scopriamo che maggio è un mese assolutamente normale in valore assoluto.
 
                               stats        volume S&p500          volume may

        mean(millions of shares)  767.6259                800.1083


nb: tutte le statistiche sono state effettuate utilizzando lo Standard&Poors 500

Detto ciò, poichè di questo "sell in may and go away" lo sento praticamente da sempre,  faccio una cosa banale.

Isolo i rendimenti di ogni singolo mese ed indago su possibili fenomeni di dipendenza seriale. La prima indagine consiste nello scoprire evidenza di "long range dependence" o memoria di lungo periodo. E' un fenomeno importante e largamente discusso in ambito accademico poichè inficia esplicitamente l'impossibilità di arbitraggio in un mercato efficiente. Leggimi

Utilizzo inizialmente un test a firma Andrew Lo (1991)  modified rescaled range ((R/S, "range over standard deviation")  che non è altro che il classico R/S test di Hurst (1951), quello usato per scoprire ciclicità nelle piene del fiume Nilo, aggiustato per essere meno sensibile ai valori più recenti.

I risultati li vedete nel primo grafico* e, maggio, sembrerebbe essere il mese che conserva più memoria tra i 12 costituents dell'anno. Il valore si avvicina al livello critico e questo mi spinge ad affinare i metodi di indagine.

*nb :" actual_month" vs " earlier month" - (nel caso in esame maggio vs aprile)

Passo alla Cosine Self Similarity, una sorta di fattore di autocorrelazione(ad un ritardo in questp test) dinamico. L'algoritmo è molto veloce e comodo e, usato tramite EWMA, consente di indagare sul decadimento della persistenza (memoria, similarità col passato etc..etc.etc.) utlizzando vari fattori di smoothing. Sembra complicato ma realmente non lo è; non faccio altro che misurare se maggio attuale è "simile" all'aprile appena passato, scivolando lungo lo scorrere degli anni.

Per evidenziare quando "maggio" sia anomalo, anticipo la fine di questo pseudo giallo di terza categoria; la CSS_Statistic misurata sui dodici mesi (dopo vedremo la formula, razionale)

guardate il "numero" di maggio rispetto al "numero" degli altri mesi...e fate le proporzioni.








Come si giunge a quel numero evidenziato e che si discosta in maniera così sensibile dagli altri; plottiamo ll'autosimilarità di coseno relativa a maggio.

Il fattore di smoothing per la Exponential Weighted Moving Average(EWMA)  utilizzato è 0.97, un classico per osservazioni mensili.

Le righe orizzontali tratteggiate evidenziano la significatività statistica della misura ,sopra(o sotto) tali bande abbiamo memoria nella serie temporale (in mezzo la relazione è debole). Lo "zero" separa i valori positivi da quelli negativi, il "carattere" della serie temporale. Valori prossimi a 1 decretano una serie che tende a replicare il comportamento passato. Valori prossimi a  -1 evidenziano una serie che tende a fare il contrario di quanto fatto in passato.



La maggioranza dei valori è >0 e la maggioranza dei valori >0  è > del livello di significatività statistica - EWMA decay factor= 0.97


il fattore di decadimento è importante, decide la sensibilità ai valori più recenti della nostra stima. Importante è quindi indagare su come cambiano i risultati spostando l'incidenza dei pesi (EWMA-> media mobile esponenziale pesata) ->guardami

Indago sul comportamento da un valore di smoothing iniziale di 0.97 e scalando fino a 0.49
"mean"= media della misurazione        "cv" = coefficiente di variazione della misurazione
i valori medi rimangono piuttosto elevati e il coefficiente di variazione aumenta con l'aumentare della sensibilità della stima (come è lecito aspettarsi) senza scarti eccessivi.


Poichè mi interessa indagare su "una persistenza"  presente in una finestra ampia, ripeto la stima con fattore di smoothing 0.97 su tutti i mesi dell'anno, ognuno di essi confrontato con il proprio comportamento passato.

ottengo
ucv99,ucv975,ucv95 etc..= upper critical value at statsig%
maggio, con un valore medio di 0.26, mostra memoria (nb:di trend osservato sino alla più recente osservazione passata) con una significatività statistica compresa tra il 97.5% e 99%, quindi molto alta. E' un valore riferito tuttavia, alla media della misurazione effettuata con esponenziale pesata.

La CSS statistic , per evidenziare la memoria di lungo-medio e corto termine è data da:

la media della stima di cosine self similarity ottenuta tramite ewma con fattore di decadimento lambda(0.97 in questo caso) diviso il coefficiente di variazione di detta stima onde ottenere una misura quanto più possibile impermeabile agli outliers ed alla varianza che rappresentano un vero e proprio bias nelle misure di autocorrelazione generiche.

calcoliamola per utti i mesi dell'anno e rivediamo quello 0.187 evidenziato precedentemente in giallo che cade tra il 90% e il 95% di significatività statistica


tutta questa pappardella sopra per dire che (sperando che ancora qualcuno non sia svenuto per la noia)?

Maggio è un mese singolare: presenta la forte propensione ad avere un comportamento simile all'aprile appena passato.
 Anno dopo anno. Ha una memoria spiccata direi e, quando c'è memoria, una semplice media mobile garantisce risultanti eccellenti (fino al sopraggiungere dell'arteriosclerosi seriale..che funziona come negli uomini...ti ricordi perfettamente quello che facevi 30anni fa ma scordi dove hai messo la dentiera prima di andare a dormire)

 Tale memoria è assolutamente anomala rispetto a quanto rilevato per  rimanenti undici mesi dell'anno (coppie) e pur non potendo escludere quel pernicioso fenomeno del data snooping (essendomi limitato alle sole osservazioni mensili dello S&P500 che sono circa 65 per ogni mese, 774 in totale) , conoscendo la correlazione positiva del "mondo" verso lo SPX sono abbastanza confidente che un fenomeno simile si sia trasmesso agli indici più liquidi da almeno 15 anni a questa parte.

La CSS Statistic serve solo a questo? In effetti sì, in pratica no; vediamo un utilizzo diverso e divertente

La CSS Statistic vs Ponzi scheme


Le misure canoniche per l'evidenza di una "memoria" nelle serie storiche hanno dei limiti. Non possono dirci "quanto" questa memoria è artificiale.


otteniamo, su osservazioni mensili:

Il Farfield Sentry "presentava" una spiccata memoria di lungo termine..e come non avrebbe potuto aggiungo io?Il problema è che, pur mostrando un valore significativo, >2.098 non ho altre informazioni. Deduco quello che hanno dedotto prima del fallimento i tanti istituzionali che hanno infilato questo rendimento costante in portafoglio senza farsi troppe domande. Bastava comprarlo per guadagnare.

Vediamo come si muove la cosine self similarity ad un ritardo; plottiamola stimata con fattore di smoothing 0.97 e test di significatività statistica al 99%


Non c'è dubbio; questa "è" manna caduta dal cielo..c'è tanta, tanta memoria persistente.  (La memoria degli ultimi sottoscrittori a vantaggio dei primi, tipico schema piramidale)

Calcoliamo la CSS Statistic e riflettiamo sulla sua formulazone.

"Cosine Self Similarity (ewma df 0.97) / coefficient of variation"





il valore è circa 22 volte il limite di significatività statistica al 99%. Per costruzione la statistica ha un numeratore che varia da -1 a 1 ed un denominatore composto dalla deviazione standard della stima diviso la media in modulo.  Un valore cosi alto viene fuori solamente se il coefficiente di variazione presenta una sproporzione enorme tra numeratore(deviazione standard) e denominatore (media). E questa sproporzione, che rendeva il fondo simile ad una costante di rendimento, una macchina stampa soldi, difficilmente la possiamo osservare su serie estratte da dati finanziari(generico). Ergo, diffidate di valori anomali e indagate ulteriormente con tutti i mezzi a disposizione.

nb: la statistica è ancora in fase di studio per delimitarne matematicamente il range di significatività. Sono ben accetti suggerimenti, critiche,commenti, osservazioni costruttive.

ps: un grazie a Paolo Einaudi che ha pescato al volo una mia leggerezza di programmazione. Sapere che ci legge un VERO programmatore è un bel conforto, credetemi. Grazie ancora Paolo!

Nessun commento:

Posta un commento