紅同學
2023-05-20 16:47lemmatization stemming lowver case remove stop words tokenization 可否分別幫忙舉些例子?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
Vincent助教
2023-05-21 11:43
該回答已被題主采納
你好
lemmatization :詞形還原,比如wolves變成wolf
stemming:詞干提取,比如把integrating變成integrat
兩者其實有共同點,即都是要找到詞的原始形式。只不過詞干提取(stemming)會更加激進一點,它在尋找詞干的時候可以會得到不是詞的詞干。比如"leaves"的詞干可能得到的是"leav", 并不是一個詞。而詞形還原則保守一些,它一般只對能夠還原成一個正確的詞的詞進行處理。
lowver case :把大寫變小寫
tokenization: 把句子This is great, 拆成 this,is, great 三個詞
remove stop words:停用詞就是句子沒什么必要的單詞,去掉他們以后對理解整個句子的語義沒有影響。文本中,會存在大量的虛詞、代詞或者沒有特定含義的動詞、名詞,這些詞語對文本分析起不到任何的幫助,我們往往希望能去掉這些“停用詞”。比如上例中,就是把this 和 is 這些詞去掉。
-
追問
謝謝老師!
