摘要
在回測中牢記并遵守這些準則可以有效降低過擬合的風(fēng)險、避開噪音、找到真正在樣本外可持續(xù)的因果關(guān)系,獲取更高的收益。
引言
讓我們從下圖這個令人欣喜的回測(backtesting)說起。
.jpg)
上圖是某針對美股的選股策略在長達 50 年的回測內(nèi)的凈值曲線。該策略采用多空對沖、市值中性的方法構(gòu)建。該策略表現(xiàn)出了五大優(yōu)秀量化策略的必要不充分(呵呵)特征:
1. 因子計算的方法在回測期內(nèi)完全一致,沒有任何變化;
2. 該策略的表現(xiàn)在近期并沒有變差的跡象,說明在該因子上并沒有發(fā)生“擁擠”;
3. 該因子穿越牛熊,在金融危機時代甚至出現(xiàn)了上漲(在可以做空的假設(shè)下);
4. 該因子和其他主流因子(包括市場、Size、Value、Momentum 等)的相關(guān)度極低;
5. 該因子的年換手率僅為 10%,交易成本可以忽略不計。
Too good to be true?
沒錯,它正是 data mining 的產(chǎn)物。該因子的構(gòu)建完全沒有使用任何基本面或者交易數(shù)據(jù),而僅僅依賴美股上市公司股票代碼上的字母。比如蘋果公司的股票代碼是 AAPL,該代碼上的第 1 至 4 位上的字母分別為 A、A、P 以及 L。該因子的構(gòu)建方法是做多股票代碼第三位字母為 S 的股票、做空股票代碼第三位字母為 U 的股票(記為 S(3) – U(3))。
在實驗中,考慮股票代碼的前 3 位字母;考慮到全部可能的 26 個字母,以及每個字母可以出現(xiàn)在多、空兩頭,因此實驗中有成千上萬種組合方式。而 S(3) – U(3) 這種組合正是從這些組合中脫穎而出的、具備了上述五大優(yōu)秀特征的、僅僅來自 data mining 的虛假策略。
上面這個策略是靠蠻力(brute force)找到的,并不能說是機器學(xué)習(xí)(Machine Learning)的產(chǎn)物。機器學(xué)習(xí)會進行仔細的交叉驗證(cross-validation)以確保我們在訓(xùn)練集和測試集上看到相似的結(jié)果。不幸的是,上述策略在整個回測期內(nèi)的穩(wěn)定表現(xiàn)大概率會讓它通過交叉驗證。這背后的原因是股票市場的數(shù)據(jù)容易出現(xiàn)路徑依賴,造成訓(xùn)練集和測試集之間并不獨立。
這個例子說明,量化投資的小伙伴在回測基于機器學(xué)習(xí)的策略時將面臨很大的挑戰(zhàn)。回測的目的是去偽存真,排除噪音、發(fā)現(xiàn)預(yù)測指標和資產(chǎn)收益率之間真正的因果關(guān)系,從而在樣本外的實盤交易中獲得收益。如果回測不靠譜、落入各種陷阱,那么實盤的結(jié)果則可想而知。這個問題在機器學(xué)習(xí)如此普及的今天顯得更加嚴重。
為了幫助量化交易者更好的杜絕樣本內(nèi)的過擬合,提高發(fā)現(xiàn)真正有效策略的概率,三位大咖站了出來:來自 Research Affiliates 的 Robert Arnott,杜克大學(xué)教授、前 AFA 主席 Campbell Harvey,以及諾貝爾經(jīng)濟學(xué)獎獲得者 Harry Markowitz 在 IPR Journals 的最新成員 Journal of Financial Data Science 的處女刊上發(fā)表了一篇題為 A Backtesting Protocol in the Era of Machine Learning 的文章(Arnott, Harvey, and Markowitz 2019)。
本文中我用“規(guī)程”來對應(yīng) Protocol 一詞,它也可以被譯作“協(xié)議”或者“清單”,其目的就是通過逐步遵循這些準則來減少樣本內(nèi)過擬合的可能性。這個 protocol 之于回測可靠性的作用就好比飛行員的 checklist 之于飛行安全的作用。Arnott, Harvey, and Markowitz (2019) 一文提出的 protocol 一共包括七部分,它們是:
1. 研究動機;
2. 多重檢驗;
3. 樣本選擇和數(shù)據(jù);
4. 交叉驗證;
5. 模型動力學(xué);
6. 模型復(fù)雜度;
7. 研究文化。
它們構(gòu)成了一個完整且可操作的體系,能夠幫助我們更好的規(guī)避樣本內(nèi)的虛假信號、找出能在樣本外更有效的交易策略。
以下行文并不會逐字逐句的轉(zhuǎn)述 Arnott, Harvey, and Markowitz (2019) 提出的每一個 bullet point,而是會結(jié)合我有限的經(jīng)驗和粗淺的認識解讀我認為最重要的一些內(nèi)容。瀏覽本文并不能 100% 代替閱讀原作,因此強烈建議感興趣的小伙伴找來 Arnott, Harvey, and Markowitz (2019) 看一看。
下文第 1 到第 7 節(jié)將分別論述這個 protocol 的七個方面。第 8 節(jié)總結(jié)全文。
1、研究動機
回測規(guī)程的第一個方面是研究動機(Research Motivation)。
Harvey 教授直言,金融領(lǐng)域的數(shù)據(jù)樣本太少了(也許超高頻除外)。以美股為例,現(xiàn)代金融時代的股票月頻數(shù)據(jù)大概只有 700 期(相當于 60 年),這對于機器學(xué)習(xí)應(yīng)用來說太少了(回想一下 A 股,通常單因子評測的回測期只有區(qū)區(qū) 10 年,真是太短了)。因此,這個 protocol 中第一也是最重要的一點就是 a clear economic foundation for any model —— 任何策略都應(yīng)該有一個理論先驗。注意,是先驗,而不是看到數(shù)之后再“真香”編故事。
.jpg)
Chordia, Goyal, and Saretto (2017) 使用基本面指標的不同組合方法構(gòu)建了兩百萬個針對美股的因子策略。在實驗設(shè)計中,他們對 data mining 進行了必要的懲罰,并最終找到 17 個在統(tǒng)計上和經(jīng)濟上都顯著的因子。
其中一個因子的構(gòu)建方法為:分子是 long-term debt issuance 和 preferred stock redeemable 之差;分母是 minimum rental commitments four years into the future。這個因子使用了三個財務(wù)指標,但是該組合卻毫無業(yè)務(wù)含義。而上述其他 16 個“顯著”的因子都具有類似的結(jié)構(gòu),它們都是 data mining 的結(jié)果。
在現(xiàn)實中,人們往往站在“任何策略都應(yīng)該有一個理論先驗”的對立面上,即先看數(shù)據(jù)再找理由。比如對于前面那個 S(3) – U(3) 的例子。它的那些優(yōu)秀特征會讓人去尋找虛假的理論依據(jù)來說服自己。當一個人能夠為 S(3) – U(3) 找到理由,那么如果回測的結(jié)果顯示相反的結(jié)果,即 U(3) – S(3),相信 TA 也能夠找到理由。
“Any suspicion that the hypothesis was developedafter looking at the data is an obvious red flag.”
2、多重檢驗
Protocol 的第二方面是當心多重檢驗(Multiple Testing and Statistical Methods)。多重檢驗指的是:當我們測試一個策略的許多組參數(shù),或者很多選個因子時,僅僅依靠運氣,這些參數(shù)或者因子中效果較好的那個就能在樣本內(nèi)獲得很高的夏普率(這也被稱作 inflated Sharpe Ratio)。在回測時必須時刻考慮多重檢驗的影響。
用白話的理解就是:如果我以某個金融學(xué)或經(jīng)濟學(xué)原理為先驗,構(gòu)建了一個因子并測試有效,那么它大概是真有效;然而,如果我兩眼一抹黑試了 100 個因子,然后只挑出了較好的那一個,那么這個因子很可能只是個 lucky factor。
Bailey and Lopez de Prado (2012, 2014) 專門就 inflated Sharpe Ratio 進行了探討。他們假設(shè)不同參數(shù)的策略的夏普率滿足均值為 E[SR]、方差為 V(SR) 的正態(tài)分布。在上述假設(shè)下,N 組不同參數(shù)中樣本內(nèi)最大的夏普率的期望滿足(式中 γ 是歐拉-馬斯刻若尼常數(shù)):
.jpg)
該關(guān)系式表明,樣本內(nèi)的最大夏普率隨 N 增大和 V(SR) 增大。假設(shè) V(SR) = 1,則我們只需要測試 100 組設(shè)定,樣本內(nèi)的虛高夏普率就高達 2.5,盡管它對應(yīng)的 null hypothesis 是該策略真實夏普率為 0。這就是不考慮多重檢驗的危害。
我們根據(jù) Novy-Marx (2015) 的方法、使用中證 500 的成分股做了隨機因子的實證。在實證中,純隨機的產(chǎn)生對收益率毫無預(yù)測性的 n 個因子,然后根據(jù)它們的表現(xiàn)選出其中較好的 k 個,再把和 k 個因子配置在一起,考察它們在樣本內(nèi)上述 k 個因子構(gòu)成的投資組合收益率的 t-statistic 到底能有多高(由于這些隨機因子毫無預(yù)測性,因此 null hypothesis 是它們的預(yù)期收益率為零;評價標準為投資組合收益率 t-statistic 經(jīng)驗分布的 95% 分位數(shù)閾值)。
下圖給出了實證結(jié)果。從中不難觀察到以下三點:(1)隨著 n 和 k 的增加,對于按照隨機因子 t-statistic 絕對值賦權(quán)配置的策略,它們的 t-statistic 閾值遞增;(2)隨著 n 的增加,等權(quán)配置和按因子樣本內(nèi)表現(xiàn)配置的效果越來越接近;(3)對于等權(quán)配置因子的情況,能夠觀察到策略的效果并不隨 k 遞增;這是因為當 k 逐漸增大時,使用更多的因子可以降低組合的波動率、提升 t-statistic 的閾值;一旦 k 超過較優(yōu)值,越來越多排名靠后的因子被選入,降低組合的收益率以及 t-statistic 閾值。
.jpg)
為了在實證研究中發(fā)現(xiàn)樣本內(nèi)更好的策略或者更顯著的因子 —— 無論是為了討好基金經(jīng)理還是為了在頂刊上發(fā)文 —— multiple testing 的不正之風(fēng)早已席卷了學(xué)術(shù)界和業(yè)界。
Harvey, Liu, and Zhu (2016) 研究了學(xué)術(shù)界發(fā)表的 316 個選股因子。他們通過考慮不同因子之間相關(guān)性提出了一個全新檢驗框架。該方法可以排除 multiple testing 的影響。該研究表明,只有在 single testing 中 t-statistic 超過 3.0(而非人們傳統(tǒng)認為的 5% 的顯著性水平對應(yīng)的 2.0)的因子才有可能在排除了 multiple testing 的影響之后,而非來自運氣。不過,Harvey 同時也指出,3.0 其實都是非常保守的。
我們自己在回測時應(yīng)時刻謹記 multiple testing 的影響;此外,在學(xué)習(xí)別人的發(fā)現(xiàn)時也要保持著一顆懷疑之心,因為沒有多少人告訴我們,在 TA 提出的這個樣本內(nèi)顯著因子之前有過多少次失敗的嘗試。
3、樣本選擇和數(shù)據(jù)
Protocol 的第三部分是樣本選擇和數(shù)據(jù)(Sample Choice and Data)。它的核心要素包括:(1)回測前就要確定回測區(qū)間,而非事后調(diào)整;(2)確保數(shù)據(jù)質(zhì)量;(3)小心處理異常值(outliers) —— 不要凡事都想當然;(4)認真記錄進行的數(shù)據(jù)變形處理。
所有的這些努力其實都是為了避免 p-hacking。
Harvey 教授在介紹 Arnott, Harvey, and Markowitz (2019) 這篇文章的短片中講了一個故事。一個量化研究員給他展示了一個股票策略,該策略在回測期內(nèi)的表現(xiàn)非常好;只不過該回測有一個致命的問題:它的回測窗口不包含 2008 年的金融危機。當 Harvey 教授問他為什么排除這段時期,得到了令人無語的答復(fù):“因為策略在這段時間內(nèi)失效了”。
Excuse Me???

這就是先看結(jié)果再調(diào)整回測區(qū)間,妥妥的 p-hacking 反例。法國哲學(xué)家孔德將科學(xué)分成不同的等級(Comte 1856)。像數(shù)學(xué)、物理這類“硬科學(xué)”位于等級的上方,而社會學(xué)、經(jīng)濟學(xué)這些“軟科學(xué)”位于等級的下方。“硬”和“軟”本身并無“好”與“壞”之分。
硬科學(xué)可以從數(shù)據(jù)可以直接得到結(jié)論、無需任何人工解釋,且結(jié)論是高度可歸納的。比如數(shù)學(xué)上的四色問題,一旦證明成立那就是成立;又如物理上的引力波,一旦發(fā)現(xiàn)那就是說明它的存在,這些都是確切的。反觀軟科學(xué),研究成果依賴于提出怎樣的假設(shè),如何處理數(shù)據(jù),以及如何分析、解釋結(jié)果,總之“事在人為”。金融學(xué)是軟科學(xué),很多實證分析結(jié)果都會因人而異。
比如在股票研究中“使用過去 50 年的數(shù)據(jù)還是過去 30 年的數(shù)據(jù)?”“使用美股還是其他國家的股票?”“使用日收益率還是周收益率?”“使用百分比收益率還是對數(shù)收益率?”“是否以及如何剔除異常值?”“使用 OLS 還是 GLS?”……這些看似自然的選擇背后其實都以追求樣本內(nèi)更顯著的 p-value 為動機,一切阻礙獲得超低 p-value 的數(shù)據(jù)都會被巧妙的避開。這種為了獲得超低 p-value 而在研究中刻意選取的數(shù)據(jù)處理方法就是 p-hacking。人們對于 p-hacking 的狂熱源于對 p-value 的錯誤解讀。
在統(tǒng)計學(xué)中,如果 H0 和 H1 分別表示 null hypothesis 和 alternative hypothesis,則 p-value = prob(D|H0),即在 H0 成立下觀測到數(shù)據(jù) D 的概率。從該定義出發(fā),p-value 不代表原假設(shè)或者備擇假設(shè)是否為真實的,即 p-value ≠ prob(H0|D)以及 p-value ≠ prob(H1|D)。

在檢驗一個策略或者因子是否有顯著收益時,我們需要的是 prob(H0|D),即在觀察到 D 的條件下,原假設(shè)為真的概率是多少。這個問題僅依靠 p-value 自身無法回答的。為此,Harvey (2017) 提出了一個基于貝葉斯的框架,它可以正確求解我們關(guān)注的問題。
4、交叉驗證
回測規(guī)程的第四部分是交叉驗證(Cross-Validation),這部分包括以下兩個要素:
1. Out of Sample is Not Really Out of Sample;
2. Iterated Out of Sample is Not Out of Sample。
這一條想要強調(diào)的是:由于歷史數(shù)據(jù)都是已經(jīng)發(fā)生過的,它們都是樣本內(nèi)數(shù)據(jù),因此必須小心解讀交叉驗證的結(jié)果,即便通過了交叉驗證,也不能無腦的相信完全排除了過擬合的問題。
關(guān)于更合理的使用交叉驗證,Bailey et al. (2017) 的研究成果值得借鑒。他們提出了一個 Combinatorially-Symmetric Cross-Validation(組合對稱交叉驗證,簡稱 CSCV)方法,它可以定量的計算樣本內(nèi)過擬合的概率。它的優(yōu)勢在于:
1. 保證了訓(xùn)練集和測試集同樣大小,使得樣本內(nèi)外的夏普率具有可比性;
2. 保證了訓(xùn)練集和測試集的數(shù)據(jù)是對稱的,因此夏普率在樣本外的降低只可能來自過擬合;
3. 保留了收益率序列的時序相關(guān)性;
4. 利用 Bootstrap 理念求解過擬合的概率,不需要對過擬合的隨機模型或者參數(shù)做任何假設(shè)。
舉個例子。按照 CSCV 方法,下圖描述了某趨勢追蹤策略在不同參數(shù)下,其樣本內(nèi)夏普率(SR_IS)和同參數(shù)在樣本外夏普率(SR_OOS)的負相關(guān)關(guān)系,意味著驗本內(nèi)效果越好對應(yīng)著樣本外表現(xiàn)越差。該策略的樣本內(nèi)過擬合概率高達 0.572。一個真正有效的策略在樣本內(nèi)的過擬合概率不應(yīng)如此之高。

無論從獨立性還是可交易特征而言,交易數(shù)據(jù)其實都十分匱乏。它們對傳統(tǒng)的交叉驗證造成了極大的挑戰(zhàn),在使用機器學(xué)習(xí)時應(yīng)牢記這一點,理性看待交叉驗證結(jié)果。
5、模型動力學(xué)
模型動力學(xué)(Model Dynamics)是回測規(guī)程的第五部分,它關(guān)注的是量化策略在樣本外的表現(xiàn)逐漸變差的問題。而這背后可能存在兩個原因:(1)市場結(jié)構(gòu)發(fā)生變化導(dǎo)致策略失效,比如越來越多的人開始使用某個策略或者因子,使得它變得擁擠。(2)策略使用者自身的行為偏差導(dǎo)致一個好模型最終淪為一個失效模型。
我在之前的文章中多次表達過一個觀點:任何策略能賺錢都是利用了市場的某種非有效性;一旦使用該策略的人越來越多,市場在這方面就變得更加有效,從而削弱策略的盈利能力。
在技術(shù)分析領(lǐng)域,上述觀點的較好例證之一是布林帶(Bollinger bands)。毫無疑問,布林帶是幾十年前最盛行、最管用的技術(shù)分析策略之一。然而,人們越來越發(fā)現(xiàn)該方法掙錢的能力越來越差。對此,F(xiàn)ang, Jacobsen, and Qin (2017) 針對全球十幾個主要市場進行了實證分析。
他們的研究發(fā)現(xiàn),1983 和 2001 這兩個重要時間節(jié)點對于布林帶的效果影響巨大。1983 年,John Bollinger首次在電視廣播中介紹了布林帶,使得這個之前神秘的方法開始走進大眾視野。而 2001 年,John Bollinger 更是發(fā)表了Bollinger on Bollinger Bands 這本紅極一時的技術(shù)流圣經(jīng);在隨后的 4 年內(nèi),這本書被翻譯成其他 12 種語言在全世界范圍內(nèi)迅速傳播,這使得布林帶一下變得家喻戶曉。Fang, Jacobsen, and Qin (2017) 發(fā)現(xiàn),布林帶的流行和普及(特別是 2001 年之后)直接造成了該策略的失效。
這樣的例子在股票因子投資中也不勝枚舉。一個新因子被提出后,隨著越來越多人使用,它在 post-publication 樣本外的效果勢必會打折扣。McLean and Pontiff (2016) 研究了 97 個因子在被發(fā)表之后的表現(xiàn),發(fā)現(xiàn)因子的收益率比論文中的 in-sample 降低 50% 以上。有時,策略并沒有變得擁擠,但它在樣本外還是持續(xù)變差。這背后的另一個原因是使用者的非理性行為偏差。
任何一個策略或者交易系統(tǒng),都是基于對市場的某個假設(shè)。然而市場充滿著不確定性,因此它必然會在一些時候背離這個假設(shè),這時該交易系統(tǒng)就會出現(xiàn)虧損。一個優(yōu)秀的交易系統(tǒng)是一個長期來看能夠盈利的系統(tǒng),而非一個能夠每筆交易都賺錢的系統(tǒng)。
隨著交易的進行,由于小數(shù)定律造成的偏誤,很多人在幾次虧損后就開始“懷疑人生”了,認為“this time is different”、開始要對策略動刀子。這種想法非常危險。如果你真的這么做的了,為了每一筆的虧損都對你的系統(tǒng)進行了修補,便走上了“處處精準過擬合”的快車道,策略最終將會對市場未來的變化無能為力。
“Most traders take a good system and destroy it by trying to make it into a perfect system. –– Robert Prechter”
改造一個長期來看可以賺錢的優(yōu)秀系統(tǒng)必須要非常小心。對哪怕是一個參數(shù)的哪怕是一丁點的調(diào)節(jié)都會改變該系統(tǒng)的效果。這么做是以改動后的系統(tǒng)對最新的交易數(shù)據(jù)表現(xiàn)更佳為前提;但是如果不能證明它在未來的樣本外更有效,那么如此“改進”仍然是徒勞的。
量化投資背后的核心是單次優(yōu)勢 + 大數(shù)定律。這二者中大數(shù)定律又更加重要,它要求我們在交易中盡一切努力做到一致性。一般交易者的學(xué)習(xí)曲線如下面圖中的黑色曲線:無法做到嚴格遵循一個交易系統(tǒng),總是帶著個人情感進行交易,將自己行為帶來的不確定性錯誤地強加于系統(tǒng)的表現(xiàn)之上。這些交易者無法持之以恒,三天兩頭更換系統(tǒng),最終輸光本金。與之相反的,一個優(yōu)秀的交易者會專注于一致性,這會讓他在通往盈利的進程中越走越遠,最終到達勝利的彼岸。

6、模型復(fù)雜度
回測規(guī)程的第六部分是模型復(fù)雜度(Model Complexity),主張我們應(yīng)該追求策略的而簡單性和可解釋性。
我們大概都有下面這樣的經(jīng)驗:一個策略的夏普率不夠亮眼,那么可以通過加入止盈、止損,中性化處理、甚至是對投資標的進行篩選來進一步提高其在樣本內(nèi)的表現(xiàn)。此外,對上面的每一個處理方法,我們似乎都能找到合理的解釋和來自其他文獻的理論和實證支持。在確認偏誤下,我們非常愿意相信這些處理都是合理的、并沒有引入過擬合。
任何通過增加參數(shù)維度來提高樣本內(nèi)的表現(xiàn) —— 無論這些理由聽上去多么合理 —— 都實打?qū)嵉奶岣吡四P偷膹?fù)雜度;更高的模型復(fù)雜度則更容易出現(xiàn)過擬合。該文提出了如下圖所示的流程來定量計算模型復(fù)雜度造成的過擬合程度。

考慮一個基于均線多頭排序的簡單多頭趨勢追蹤策略。模型復(fù)雜度的兩個維度是:(1)均線多頭排序中用到的不同周期均線的個數(shù);(2)這些均線秩相關(guān)系數(shù)的閾值(用來決定是否開倉、空倉)。使用純隨機游走產(chǎn)生的假想資產(chǎn)價格曲線,按不同復(fù)雜度構(gòu)建趨勢追蹤策略。模型的過擬合度和復(fù)雜度之間的關(guān)系如下圖所示,說明模型過擬合度隨模型復(fù)雜度遞增。

在第六方面,Arnott, Harvey, and Markowitz (2019) 倡導(dǎo)的第二點是追求可解釋的機器學(xué)習(xí)(seek interpretable machine learning)。量化策略,尤其是使用了機器學(xué)習(xí)算法的量化策略不應(yīng)該是黑箱。任何使用者都應(yīng)該了解這個算法到底干了什么。最近幾年,計算機領(lǐng)域的一個細分學(xué)科逐漸受到世人關(guān)注,它研究的對象是 interpretable classification 和 interpretable policy design(一個例子見 Wang et al. 2017)。相信在未來,可解釋的機器學(xué)習(xí)在金融領(lǐng)域能夠大有可為。
關(guān)于模型復(fù)雜度,我想補充一點 Arnott, Harvey, and Markowitz (2019) 沒有的內(nèi)容,同樣來自《模型復(fù)雜度隨想》,那就是相較于簡單的模型,復(fù)雜度更高的模型可能會在虧損時給人更痛苦的主觀感受。在這方面,我做了一些探索性的研究,指出了模型復(fù)雜度和實盤痛苦程度之間的非線性關(guān)系:
1. 當模型復(fù)雜度逐漸提升時,由于它更好的捕捉了收益率和信號之間的(非線性)關(guān)系,這是能帶來樣本外效果的提升的,減少虧損的痛苦;
2. 當模型過于復(fù)雜時,由于樣本內(nèi)過擬合可能性上升;模型復(fù)雜度會非線性的放大同等程度虧損(比如最大回撤)給人們造成的痛苦。
根據(jù)以上描述,模型復(fù)雜度和實盤的痛苦程度大概如下圖所示

在當下,我們越來越崇尚各種復(fù)雜的模型。以上探索僅僅希望提出一些思考:我們在樣本外是否 100% 做好了準備接受復(fù)雜模型?交易中存在各種認知偏差,如果我們連最簡單的按一根均線做趨勢追蹤都無法堅決的執(zhí)行,那又有什么來保證我們在面對實盤虧損時能夠堅守復(fù)雜模型呢?如果我們不能堅守復(fù)雜模型,那么開發(fā)復(fù)雜模型所付出的心血和努力是否付之東流呢?
7、研究文化
回測規(guī)程的最后一部分是研究文化(Research Culture),它包括以下兩點:
1. Establish a research culture that rewards quality;
2. Be careful with delegated research.
上面第一條說的是,在開發(fā)量化策略或者因子時,比起追求樣本內(nèi)的驚艷效果,我們更應(yīng)該看中研究的質(zhì)量,例如研究是否避免了各種偏差、盡最大努力的排除了過擬合、是否存在先驗理論、是否足夠獨立等。一個因子或指標,無論有用沒有,只要能夠被復(fù)現(xiàn),都是有益的發(fā)現(xiàn),都為幫助我們更好的理解市場起到了巨大貢獻。
在學(xué)術(shù)界,為了提升期刊的聲望,編輯們都更傾向于錄用低 p-value 的文章;為了在更高水平的期刊上發(fā)文,學(xué)者們更傾向于找到低 p-value 的因子。在美國絕大多數(shù)學(xué)校里,如果能在 Journal of Finance 發(fā)表一篇文章,一個教授就有可能得到終身教職。這一環(huán)扣一環(huán)的錯誤關(guān)系導(dǎo)致了嚴重的 publication bias,我們被大量依靠樣本內(nèi) data mining 和 p-hacking 獲得的虛假因子蒙蔽了雙眼,而高研究質(zhì)量卻低顯著性的因子在頂級期刊上則難有容身之處。
這部分的第二條說的是,很多時候由于基金經(jīng)理的精力有限,無法親力親為研究每個策略。因此會把研究分發(fā)給不同的研究員。研究員應(yīng)該保持獨立性、進行高質(zhì)量的研究,而不是通過尋找虛假的顯著性來取悅基金經(jīng)理。任何策略都最終會失效,而客觀、嚴謹?shù)难芯课幕攀悄軌蛟催h流長的,才是我們應(yīng)該努力追尋的。
在美國,要論業(yè)界的“學(xué)術(shù)天團”,一般人大概首先會想到 AQR。然而,還有個更老牌、更大牌的管理人,它就是 Dimensional Fund Advisors L.P.,它的 Directors 中不乏 Eugene Fama、Ken French、Myron Scholes 這些赫赫有名的學(xué)者。在 Dimensional 的官網(wǎng)上記錄著 Ken French 下面這句話,一語道破了研究文化的真諦 —— 任何時候我們都要努力探尋真諦、做對的事情。

8、結(jié)語
好了,上面七小節(jié)介紹了回測規(guī)程中的七方面內(nèi)容。接下來我們可以“召喚神龍”了。下圖給出了 Arnott, Harvey, and Markowitz (2019) 自己總結(jié)的七方面,每一個 bullet point 都值得好好體會。

最后想強調(diào)的是,Arnott, Harvey, and Markowitz (2019) 并不是為了否定機器學(xué)習(xí)在投資中越來越重要的作用。恰恰相反的是,他們提出這個框架就是為了讓我們更好的享受機器學(xué)習(xí)的成果。
對投資來說,我們最關(guān)心的是 prediction 是否準確,而非參數(shù)的 adjudication。它的意思是只要能提高樣本外的預(yù)測性,我們可以犧牲參數(shù)估計的準確性。公允的說,從探尋市場真諦的角度來說,我們當然關(guān)心 β 的估計是否準確;然而,從投資實際效果的角度來看,我們更應(yīng)關(guān)注樣本外 y 預(yù)測值是否靠譜。
預(yù)測的目標是最小化 loss function;而傳統(tǒng)計量經(jīng)濟學(xué)中 estimation 的目標是參數(shù)的 unbiasedness。參數(shù)估計準了不一定意味著樣本外的預(yù)測性一定更好。關(guān)于這方面的論述,我推薦各位看看 Sendhil Mullainathan 教授在 AFA Lecture 上做的 Machine Learning and Prediction in Economics and Finance 主題演講。

客觀的說,由于金融數(shù)據(jù)的一些特殊性(非結(jié)構(gòu)化、高維度、稀疏、信噪比低等),傳統(tǒng)計量經(jīng)濟學(xué)在很多時候確實難有作為,而機器學(xué)習(xí)算法則更有前景。關(guān)于這點,Lopez de Prado 做過一篇題為 《The 7 Reasons Most Econometric Investments Fail》的報告。當然,這并不意味著我們就應(yīng)該輕易摒棄計量經(jīng)濟學(xué)模型、毫無顧忌的投身到機器學(xué)習(xí)的懷抱。
“It is naïve to think we no longer need economic models in the era of machine learning. Given that the quantity and quality of data is relatively limited in finance, machine learning applications face many of the same issues quantitative finance researchers have struggled with for decades.”
本文介紹的回測規(guī)程乍一看完雖然沒有太多驚艷之處,但它卻能產(chǎn)生非常積極的效果。正如飛機駕駛艙里面的 checklist 能極大的提升飛行安全一樣,在回測中牢記并遵守這些準則可以有效降低過擬合的風(fēng)險、避開噪音、找到真正在樣本外可持續(xù)的因果關(guān)系,獲取更高的收益。
(點擊上圖了解課程詳情)
參考文獻
Arnott, R., C. R. Harvey, and H. Markowitz (2019). A backtesting protocol in the era of machine learning. Journal of Financial Data Science, Vol. 1(1), 64 – 74.
Bailey, D. H. and M. Lopez de Prado (2012). The Sharpe ratio efficient frontier. Journal of Risk, Vol. 15(2), 3 – 44.
Bailey, D. H. and M. Lopez de Prado (2014). The deflated Sharpe ratio: correcting for selection bias, backtest overfitting, and non-Normality. The Journal of Portfolio Management, Vol. 40(5), 94 – 107.
Bailey, D. H., J. M. Borwein, M. Lopez de Prado, and Q. J. Zhu (2017). The probability of backtest overfitting. Journal of Computational Finance, Vol. 20(4), 39 – 69.
Chordia, T., A. Goyal, and A. Saretto (2017). p-Hacking: evidence from two million trading strategies. Swiss Finance Institute Research Paper No. 17-37, SSRN.
Comte (1856). The Positive Philosophy of Auguste Comte, translated by Harriett Marineau (Calvin Blanchard, New York). Vol. II.
Fang, J., B. Jacobsen, and Y. Qin (2017). Popularity versus profitability: evidence from Bollinger bands. The Journal of Portfolio Management, Vol. 43(4), 152 – 159.
Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. The Journal of Finance, Vol. 72(4), 1399 – 1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies, Vol. 29(1), 5 – 68.
Lopez de Prado, M. (2018). Advances in financial machine learning. Hoboken, NJ: John Wiley & Sons.
McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? The Journal of Finance, Vol. 71(1), 5 – 32.
Novy-Marx, R. (2015). Backtesting strategies based on multiple signals. NBER Working Paper, No. 21329.
Wang, T., C. Rudin, F. Doshi-Velez, Y. Liu, E. Klampfl, and P. MacNeille (2017). A Bayesian framework for learning rule sets for interpretable classification. Journal of Machine Learning Research, Vol. 18, 1 – 37.
金程推薦: AQF是什么意思 量化金融分析師年薪 AQF考試流程
全國熱線電話:400-700-9596
金融寬客交流群:801860357
AQF考友群:760229148
微信公眾號:量化金融分析師
作者:石川,北京量信投資管理有限公司創(chuàng)始合伙人,清華大學(xué)學(xué)士、碩士,麻省理工學(xué)院博士。知乎專欄:https://zhuanlan.zhihu.com/mitcshi。未經(jīng)授權(quán),嚴禁轉(zhuǎn)載。





