哎同學(xué)
2024-05-08 22:55完全看不懂,請(qǐng)老師給解釋下,謝謝
所屬:FRM Part I > Foundations of Risk Management 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-05-10 11:03
該回答已被題主采納
同學(xué)你好。這里考察決策樹的構(gòu)建。我先說一下做法。決策樹的構(gòu)建與信息增益的概念相關(guān),信息增益是一種通過獲取關(guān)于特征的信息來降低不確定性的度量指標(biāo)。決策樹每一個(gè)節(jié)點(diǎn)上所選取的特征都應(yīng)盡量最大化信息增益、最大程度上降低不確定性。不確定性我們使用熵(Emtropy)或者基尼系數(shù)(Gini coefficient)衡量,這些指標(biāo)均落在[0, 1]區(qū)間,取值越大不確定性越高,取值越小不確定性越低。在選擇第一個(gè)節(jié)點(diǎn)的變量之前,我們會(huì)先計(jì)算出一個(gè)不考慮任何特征的輸出變量的熵/基尼系數(shù),再將已有的變量一個(gè)一個(gè)套進(jìn)來試、選擇使得熵/基尼系數(shù)降低最多(也就是信息增益最多)的那個(gè)變量作為root node。
回到題目,題目已經(jīng)告訴我們r(jià)oot node是occupancy status了,我們只需要計(jì)算出其帶來的基尼系數(shù)的下降幅度即可。首先,計(jì)算不考慮任何特征的輸出變量的基尼系數(shù),十個(gè)房產(chǎn)中五個(gè)賣價(jià)高于8,000,000,五個(gè)低于8,000,000。根據(jù)公式,Gini = 1 - [(5/10)^2 + (5/10)^2] = 0.5。接下來,考慮occupancy status作為root node。在4個(gè)occupied的房產(chǎn)中,3個(gè)賣價(jià)高于8,000,000,1個(gè)賣價(jià)低于8,000,000,Gini = 1 - [(3/4)^2 + (1/4)^3] = 0.375;在6個(gè)非occupied的房產(chǎn)中,2個(gè)賣價(jià)高于8,000,000,4個(gè)賣價(jià)低于8,000,000,Gini = 1 - [(2/6)^2 + (4/6)^2] = 0.444;二者取平均等于0.410。因此,基尼系數(shù)從0.5跌到0.410,下降了0.09,這是我們的信息增益。
