L
2024-08-05 16:40這里寫的是對raw text data進(jìn)行preprocess,但是后面實(shí)際上是開始清洗,所以是prepare和preprocess吧,因?yàn)榍逑床粚儆趐reprocess,還是說考試中并沒有完全區(qū)分這兩個(gè)詞呢
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
愛吃草莓的葡萄助教
2024-08-06 14:41
該回答已被題主采納
同學(xué)你好。文本數(shù)據(jù)清洗(準(zhǔn)備)包括刪除html標(biāo)簽、刪除空格、刪除數(shù)字、刪除標(biāo)點(diǎn)符號;接著就是文本數(shù)據(jù)預(yù)處理,包括小寫化、去掉停頓詞、詞性還原與詞根還原。
結(jié)構(gòu)數(shù)據(jù)清洗(準(zhǔn)備)是將幾種可能存在的錯(cuò)誤去掉;接著就是結(jié)構(gòu)數(shù)據(jù)預(yù)處理,包括提取、匯總、轉(zhuǎn)換、選擇、過濾。
第一段寫的就是結(jié)構(gòu)化數(shù)據(jù)預(yù)處理,根據(jù)已有的特征提取、匯總或轉(zhuǎn)換出新的特征,怎么是清洗呢,也沒有說刪除幾種可能存在的錯(cuò)誤,也沒有說刪除標(biāo)簽、符號等內(nèi)容。
-
追問
題目后面一頁就是這個(gè)呀,第一步就是clean the raw text data
-
追答
同學(xué)你好。在本題中也是有區(qū)分的。最后一段話的意思是說:兩人討論如何對原始文本數(shù)據(jù)進(jìn)行預(yù)處理,然后一人告訴另一人原始文本數(shù)據(jù)處理需經(jīng)下面三步完成。也就是說下面三步是數(shù)據(jù)處理的步驟,數(shù)據(jù)處理包括數(shù)據(jù)準(zhǔn)備(即清洗)和數(shù)據(jù)整理(即預(yù)處理)這兩步。
