AQF量化分享丨本文為特許金融分析師CFA知識體系中量化相關(guān)章節(jié)的讀書筆記。內(nèi)容如下:一、什么是機(jī)器學(xué)習(xí);二、模型評價;三、監(jiān)督學(xué)習(xí);四、非監(jiān)督學(xué)習(xí);五、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)~
一、什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí) vs 統(tǒng)計學(xué)方法:
相同:從數(shù)據(jù)中提取信息的方法
不同:統(tǒng)計方差對數(shù)據(jù)分布做出假設(shè),機(jī)器學(xué)習(xí)不對數(shù)據(jù)進(jìn)行假設(shè),直接從數(shù)據(jù)中提取信息
優(yōu)勢:機(jī)器學(xué)習(xí)能夠捕捉高度非線性的映射關(guān)系
劣勢:機(jī)器學(xué)習(xí)的結(jié)果通常難以解讀,模型容易產(chǎn)生過擬合的問題
機(jī)器學(xué)習(xí)算法分類:
監(jiān)督學(xué)習(xí)算法:
需要使用打標(biāo)的數(shù)據(jù)(labeled data,已知輸出結(jié)果的樣本數(shù)據(jù))建立輸入變量(特 征)和輸出變量(預(yù)測目標(biāo))之間的映射關(guān)系,使用樣本數(shù)據(jù)建立映射關(guān)系的過程稱為模型訓(xùn)練,訓(xùn)練好的模型可以用于對新數(shù)據(jù)產(chǎn)生的輸出結(jié)果(新數(shù)據(jù)的標(biāo)簽)的預(yù)測。
問題分類:
分類問題:輸出變量為離散變量
回歸問題:輸出變量為連續(xù)變量
常用算法:
penalized regression
支持向量機(jī)
k近鄰
分類和回歸樹
集成學(xué)習(xí)
隨機(jī)森林
非監(jiān)督學(xué)習(xí)算法:
使用無標(biāo)記數(shù)據(jù),即輸入變量沒有已知的對應(yīng)輸出結(jié)果,試圖找到數(shù)據(jù)的內(nèi)部結(jié)構(gòu)
問題分類:降維問題:減少特征數(shù)量、聚類問題
常用算法:主成分分析、k均值聚類、分級聚類(hierarchical clustering)
強(qiáng)化學(xué)習(xí):
模型通過與自身產(chǎn)生的數(shù)據(jù)互動的過程中學(xué)習(xí)和優(yōu)化
模型選擇決策流程:

二、模型評價
數(shù)據(jù)劃分:
訓(xùn)練數(shù)據(jù):對模型進(jìn)行訓(xùn)練
驗證數(shù)據(jù):對訓(xùn)練好的模型進(jìn)行檢驗和參數(shù)調(diào)整
測試數(shù)據(jù):測試模型在新數(shù)據(jù)上的表現(xiàn)
泛化與過擬合:

學(xué)習(xí)曲線:訓(xùn)練樣本數(shù)量與誤差的關(guān)系

擬合曲線:
模型復(fù)雜度與誤差的關(guān)系
偏差曲線與方差曲線相交的位置是模型在過擬合和欠擬合之間的平衡點(diǎn)

三、監(jiān)督學(xué)習(xí)
Penalized regression
Penalized regression適合解決特征數(shù)量大且相互間可能存在相關(guān)關(guān)系的問題
線性回歸通過最小化模型殘差平方和得到較優(yōu)系數(shù)組合,Penalized regression 在殘差平方和的基礎(chǔ)上增加對懲罰項,懲罰項的值隨著模型的參數(shù)增加而增加,因此貢獻(xiàn)大的參數(shù)能夠最終留在模型里
常用的Penalized regression:LASSO(least absolute shrinkage and selection operator) 回歸的懲罰如下,其中 lambda > 0:

注意:在 penalized regression 中,懲罰項只在模型訓(xùn)練過程中使用,測試階段只根據(jù)殘差平方和評價模型
支持向量機(jī):
二元線性分類器
目標(biāo)是找到能夠?qū)?shù)據(jù)集分為兩類的較優(yōu)超平面,較優(yōu)超平面是與所有數(shù)據(jù)距離最遠(yuǎn)的超平面
較優(yōu)超平面由兩個分組中與超平面距離最近的數(shù)據(jù)決定,這些數(shù)據(jù)稱為支持向量
現(xiàn)實(shí)問題中數(shù)據(jù)通常不能被超平面完美分類,兩種解決不完美分類的方法:
soft margin classification :在目標(biāo)函數(shù)(通常是超平面與樣本數(shù)據(jù)的距離)中加入對錯誤分類的懲罰項
非線性支持向量機(jī)算法:可以減少錯誤分類的樣本數(shù)量,代價是增加特征,即增加模型的復(fù)雜度
適合中低維度的問題,不適合高緯度問題,對異常值和特征存在高相關(guān)性的問題容忍度更好
常用于文本分類和文本情感分析
K近鄰算法(KNN):
思路:根據(jù)與待預(yù)測數(shù)據(jù)相臨近的其他數(shù)據(jù)的類別判別新數(shù)據(jù)的屬性
非參數(shù)算法,即不對數(shù)據(jù)的分布特征進(jìn)行假設(shè)
對完全無關(guān)的特征或特征之間存在相關(guān)性的情況非常敏感,因此需要仔細(xì)甄別特征,只保留最有價值的特征
在特征數(shù)量比較少的情況下效果更好
超參數(shù)K的值太小會導(dǎo)致結(jié)果對局部的異常值非常敏感,如果K太大又會導(dǎo)致臨近樣本的特征被大量數(shù)據(jù)的平均值淹沒,K值的確定通常要綜合考慮類別的數(shù)量和不同類別在數(shù)據(jù)中的占比。
分類和回歸樹(CART):
CART模型的每個節(jié)點(diǎn)代表一個特征和特征值分界點(diǎn)的組合,每個節(jié)點(diǎn)上特征和分界點(diǎn)的 選擇標(biāo)準(zhǔn),是使得分類誤差最小化
當(dāng)進(jìn)一步的分裂不能顯著改善數(shù)據(jù)集內(nèi)部的分組誤差時停止分裂,節(jié)點(diǎn)成為終端節(jié)點(diǎn)。
對于分類問題,終端節(jié)點(diǎn)數(shù)據(jù)集的屬性由大多數(shù)數(shù)據(jù)的屬性決定;對于回歸問題,終端節(jié)點(diǎn)的數(shù)據(jù)值由節(jié)點(diǎn)數(shù)據(jù)集的平均值決定
CART也是非參數(shù)算法,即不對數(shù)據(jù)分布特征進(jìn)行假設(shè)
無限深度的樹能夠?qū)崿F(xiàn)對數(shù)據(jù)的完全分類,但為了限制過擬合,通常會對數(shù)據(jù)的復(fù)雜度進(jìn)行限制
限制樹的最大深度
限制每個節(jié)點(diǎn)的最小樣本數(shù)量
限制總的節(jié)點(diǎn)數(shù)量
對完全分類樹進(jìn)行剪枝操作
同一特征可以在節(jié)點(diǎn)分類規(guī)則中多次出現(xiàn)
CART可以解釋特征中非常復(fù)雜的依賴關(guān)系
模型結(jié)果容易理解和解釋
集成學(xué)習(xí)和隨機(jī)森林:
集成學(xué)習(xí):綜合多個模型的預(yù)測結(jié)果,以減少單個模型中的噪音對預(yù)測的影響
集成學(xué)習(xí)的分類:
將異質(zhì)的學(xué)習(xí)算法通過投票的方式結(jié)合起來,比如多數(shù)投票分類器,邏輯基礎(chǔ)是大數(shù)定理,集成模型的有效性依賴與單個模型間相互獨(dú)立的假設(shè).
在不同的數(shù)據(jù)集上訓(xùn)練同質(zhì)的算法,比如bootstrap aggregating(bagging) :
(1)從原始數(shù)據(jù)集中通過有放回的抽樣,產(chǎn)生n個新的自數(shù)據(jù)集,對每個子數(shù)據(jù)集單獨(dú)訓(xùn)練模型,通過多數(shù)投票或?qū)鉀Q進(jìn)行平均的方法得到集成模型的預(yù)測結(jié)果
(2)有助于提高模型穩(wěn)定性,減少過擬合
(3)隨機(jī)森林是bagging方法產(chǎn)生的集成模型,使用bagging產(chǎn)生的自數(shù)據(jù)集和部分特征對單一決策樹進(jìn)行訓(xùn)練,通過多數(shù)投票得到最終預(yù)測結(jié)果。缺點(diǎn)是喪失了單一決策樹容易解釋的特點(diǎn)
四、非監(jiān)督學(xué)習(xí)
主成分分析:
高維特征數(shù)據(jù)的問題:
難以可視化
特征之間存在相關(guān)性
主成分分析是通過對特征的協(xié)方差矩陣進(jìn)行轉(zhuǎn)換,將多個存在相關(guān)性的特征轉(zhuǎn)化為幾個不存在相關(guān)性個成分變量
關(guān)鍵概念:(1)特征向量:定義了新的彼此不存在相關(guān)關(guān)系的成分變量,成分變量是原始特征的現(xiàn)行組合 (2) 特征值:每個特征變量對應(yīng)一個特征值,特征值反映了對應(yīng)的特征向量能夠解釋的原始數(shù)據(jù)方差的比例
主成分分析法是對特征值進(jìn)行排序,選取最大的幾個特征值對應(yīng)的特征向量
主成分的方向是能夠最小化總投影誤差和最大化數(shù)據(jù)之間總的離散距離的方向
主成分方向互相之間相互垂直,因此不存在相關(guān)性
選擇能夠解釋85%-95%總體方差的主成分?jǐn)?shù)量
缺點(diǎn)是結(jié)果的可解釋性差
聚類算法
聚類算法的目標(biāo)是根據(jù)數(shù)據(jù)之間的相似性將數(shù)據(jù)分組,使得分組內(nèi)部的數(shù)據(jù)盡可能相似, 分組之間的差異盡可能大
聚類算法的缺點(diǎn)是聚類結(jié)果難以評估
K均值聚類:
K 代表類別數(shù)量,是算法的超參數(shù),需要在訓(xùn)練之前決定
樣本數(shù)據(jù)會根據(jù)其與每個類別中心的距離比較結(jié)果確定所屬類別,類別的中心最初為隨機(jī)產(chǎn)生,在迭代過程中用每個類別內(nèi)部數(shù)據(jù)的平均值更新類別中心
當(dāng)所有數(shù)據(jù)所屬類別不再發(fā)生改變以后(完成收斂)停止迭代
優(yōu)點(diǎn):速度快,可以處理量樣本數(shù)據(jù)
缺點(diǎn):(1)最終分組收到初始類別中心的影響,解決辦法,隨機(jī)產(chǎn)生初始位置,多次進(jìn)行聚類,結(jié)合使應(yīng)用經(jīng)驗選擇最終模型(2)超參數(shù)需要依據(jù)主觀經(jīng)驗確定,解決辦法,對超參數(shù)進(jìn)行比較尋優(yōu),選擇能夠最大化分組間差異的K值,但最終結(jié)果仍具有主觀性并且收到數(shù)據(jù)集的影響
分級聚類:
通過迭代的方法產(chǎn)生有層級的類別,類別之間存在包含關(guān)系
相比K均值聚類的計算量更大
但分級的結(jié)果可以讓研究人員自行決定使用模型的顆粒度
算法分類:(1)聚合聚類:相比分解聚類速度更快;從考慮小群落開始,因此更適合需要識別小群落的問題 (2)分解聚類:從考慮整體數(shù)據(jù)結(jié)構(gòu)開始,因此更適合需要識別大群落的問題
類別之間的距離是通過比較兩個類別中所有樣本數(shù)據(jù)之間的直線距離得到的
將分級聚類可視化的方法:dendrogram
五、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò):
可以用于分類或回歸問題,可以是監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)
關(guān)鍵概念:
(1)網(wǎng)絡(luò)結(jié)構(gòu):每個層次包含若干節(jié)點(diǎn)(神經(jīng)元):輸入層、 隱含層、 輸出層
(2)節(jié)點(diǎn):連結(jié)節(jié)點(diǎn)的輸入數(shù)據(jù)和輸出數(shù)據(jù) 。求和操作:根據(jù)不同節(jié)點(diǎn)的權(quán)重對輸入值進(jìn)行加權(quán)求和 。激活函數(shù):對節(jié)點(diǎn)求和結(jié)果進(jìn)行非線性映射
(3)權(quán)重:不同層次的節(jié)點(diǎn)間通過權(quán)重聯(lián)系。神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo),是找到能夠最小化網(wǎng)絡(luò)整體誤差的權(quán)重組合
網(wǎng)絡(luò)層次越多,節(jié)點(diǎn)越多,網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜,需要更多數(shù)據(jù)進(jìn)行訓(xùn)練
能夠處理更復(fù)雜的問題,容易產(chǎn)生過擬合的問題
深度神經(jīng)網(wǎng)絡(luò)是有很多個隱含層的神經(jīng)網(wǎng)絡(luò)
強(qiáng)化學(xué)習(xí):
強(qiáng)化學(xué)習(xí)使用的是沒有標(biāo)簽的數(shù)據(jù)
關(guān)鍵概念:agent在嘗試不同action的過程中與環(huán)境互動,根據(jù)來自環(huán)境的反饋學(xué)習(xí)經(jīng)驗,
agent:可以認(rèn)為是一個需要訓(xùn)練的機(jī)器
action:可選擇的行動
environment:agent運(yùn)行的外部條件
reward:行動的結(jié)果
強(qiáng)化學(xué)習(xí)的訓(xùn)練過程是不斷試錯的過程
量化金融分析師(簡稱AQF,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點(diǎn)擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實(shí)戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實(shí)務(wù)技能,從模型開發(fā),回測,策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。
(點(diǎn)擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識,包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財務(wù)實(shí)例等內(nèi)容。旨在為金融財經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對交易模型、波動擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識,包括過濾器,進(jìn)入信號,退出信號,倉位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計涵蓋個人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實(shí)盤交易》
旨在為解決實(shí)際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點(diǎn)擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機(jī)制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點(diǎn)和內(nèi)在運(yùn)行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識基礎(chǔ),擁有量化交易實(shí)盤操作能力;
5、具備獨(dú)立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計的基本框架,以及風(fēng)險管理和資產(chǎn)組合理論的實(shí)際運(yùn)用;
7、掌握從策略思想——策略編寫——策略實(shí)現(xiàn)餓完整量化投資決策過程;具備量化投資實(shí)戰(zhàn)交易能力。
.png)
更多內(nèi)容推薦閱讀:
2019年量化金融分析師(AQF)全國統(tǒng)一考試報名簡章
Wind、Excel和Python三大金融技能兼修,下一個金融分析大神就是你
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師
完善下表,48小時內(nèi)查收aqf備考資料
(如果沒收到資料,可以點(diǎn)我咨詢)


.jpg)
.png)


