崔同學(xué)
2025-01-21 15:49句子集,和語料庫是一個意思嗎? 計(jì)算TFIDF時,為什么TF 與 DF 指標(biāo)的方向性是相反的呢? 我理解句子集是我們要分析的文本,語料庫是指提前通過科學(xué)統(tǒng)計(jì)方法,準(zhǔn)備的用于文本分析的基礎(chǔ)庫。 請問我的理解錯在哪里呢?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2025-01-23 09:43
該回答已被題主采納
同學(xué)你好。句子集(collection)與語料集(corpus)是一個意思,在語料庫層的詞頻也稱為集合頻率(collection frequency)。
TF衡量的是詞在單個文檔中的重要性。如果一個詞在某個文檔中頻繁出現(xiàn),那么它很可能與這個文檔的主題密切相關(guān),因此TF值會很高。
DF衡量的是詞在語料庫中的普遍性。如果一個詞在很多文檔中都出現(xiàn),那么它很可能是一個通用詞(如“的”“是”“在”等),對區(qū)分文檔主題的意義不大。因此,DF值越高,這個詞的區(qū)分能力越弱。
例如兩篇文檔,由眾多句子(sentence)組成,每個句子可以給他一個編號,這些句子組成了句子集合collection或語料集corpus。在句子層面可以分析詞出現(xiàn)的頻率TF (Sentence Level),也可以分析詞在整個集合中出現(xiàn)的頻率TF (Collection Level)。
