產(chǎn)品
TF-IDF是一種核算方法,用以評價(jià)一字詞關(guān)于一個(gè)文件集或一個(gè)語料庫中的其間一份文件的重要程度,。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎運(yùn)用,,作為文件與用戶查詢之間相關(guān)程度的衡量或評級,。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)運(yùn)用根據(jù)鏈接剖析的評級方法,,以確認(rèn)文件在搜尋效果中出現(xiàn)的次序,。
“TF-IDF”算法的原理
TFIDF的首要思維是:假設(shè)某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),,則以為此詞或許短語具有很好的類別差異才干,,適宜用來分類。TFIDF實(shí)際上是:TF * IDF,,TF詞頻(Term Frequency),,IDF逆向文件頻率(Inverse Document Frequency)。TF表明詞條在文檔d中出現(xiàn)的頻率,。IDF的首要思維是:假設(shè)包含詞條t的文檔越少,,也就是n越小,IDF越大,,則說明詞條t具有很好的類別區(qū)別能力。
假設(shè)某一類文檔C中包含詞條t的文檔數(shù)為m,,而其它類包含t的文檔總數(shù)為k,,明顯全部包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)分,,n也大,,按照IDF公式得到的IDF的值會(huì)小,,就說明該詞條t類別區(qū)別能力不強(qiáng)。
可是實(shí)際上,,假設(shè)一個(gè)詞條在一個(gè)類的文檔中頻繁出現(xiàn),,則說明該詞條能夠很好代表這個(gè)類的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,,并選來作為該類文本的特征詞以區(qū)別與其它類文檔,。這就是IDF的不足之處. 在一份給定的文件里,詞頻(term frequency,,TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率,。這個(gè)數(shù)字是對詞數(shù)(term count)的歸一化,以避免它傾向長的文件,。(同一個(gè)詞語在長文件里或許會(huì)比短文件有更高的詞數(shù),,而不管該詞語重要與否。)
“TF-IDF”算法的的概念與網(wǎng)站運(yùn)用
一,、TF詞頻的概念與建議
TF是指詞頻,,查詢的關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)核算。相關(guān)文檔是這樣介紹的,,假定查詢關(guān)鍵詞在同一個(gè)文檔中出現(xiàn)的次數(shù)越多,,代表這個(gè)關(guān)鍵詞越重要,越能代表文檔的主題意思,,文章主題與關(guān)鍵詞意思越接近,,那么做怎樣運(yùn)用這個(gè)知識(shí)點(diǎn)呢?
假定有一篇文章的標(biāo)題是:“服務(wù)外包”,從字面上了解,,文章首要是以服務(wù)為中心,,“外包”為拓展詞。假定文章內(nèi)容里服務(wù)出現(xiàn)20次,,服務(wù)出現(xiàn)25次,,外包出現(xiàn)10次,按照TF詞頻的規(guī)則,,那么服務(wù)是文章主題,,這個(gè)很好理解。
實(shí)際上有些時(shí)分寫文章時(shí),,在意思很清晰的情況下,,會(huì)省掉主詞。比如服務(wù)外包價(jià)格,、服務(wù)外包流程,、服務(wù)外包公司介紹,會(huì)縮寫成:外包價(jià)格、外包流程,、外包公司介紹,。這樣會(huì)導(dǎo)致外包出現(xiàn)的次數(shù)大于服務(wù),TF詞頻則會(huì)以為外包是主題,,出現(xiàn)錯(cuò)誤的判別,。
那既然是這樣,做關(guān)鍵詞布局的時(shí)候,,應(yīng)該要恰當(dāng)考慮主關(guān)鍵詞的出現(xiàn)頻率大于副詞,。當(dāng)然搜索引擎判別網(wǎng)頁主題有許多維度,這兒只是單從TF詞頻的視點(diǎn)考慮,,個(gè)人以為這樣做會(huì)縮短搜索引擎判別網(wǎng)頁主題的時(shí)間,,對來說是有利的。
第二,、怎樣快速了解“IDF逆文檔頻率”
這個(gè)概念假設(shè)看文檔的話有點(diǎn)難了解,,最初筆者看百度百科好幾次才了解。涉及到雜亂的公式在這兒就不講,,結(jié)合TF一起來了解,,TF-IDF的意思是,一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)越多,,且在搜索引擎的資料庫中包含該關(guān)鍵詞文檔數(shù)越少,,則說明這個(gè)關(guān)鍵詞越能代表此網(wǎng)頁的主題。
舉個(gè)比如來說明,,假定有一篇文章,,有兩個(gè)關(guān)鍵詞:“整站營銷”和“服務(wù)”,在文章中,,這兩個(gè)關(guān)鍵詞出現(xiàn)的資料都是20次,,可是在百度的資料庫中,包含整站營銷的文檔總共有一千萬個(gè),,包含服務(wù)的文檔有五百萬個(gè),,那么則說明,服務(wù)越能代表這文章的意思,?;蛟S搜索引擎資料庫中包含關(guān)鍵詞的文檔數(shù)量相同,文章中出現(xiàn)次數(shù)越多的關(guān)鍵詞越能代表網(wǎng)頁主題,。
從的層面講,,IDF這個(gè)值是客觀存在的
不必去深究,只需了解不同關(guān)鍵詞之間的文檔數(shù)多少就行,,以百度為例,,搜索任何一個(gè)關(guān)鍵詞,,在搜索框下面會(huì)有一個(gè):“百度為您找到相關(guān)效果約XXX個(gè)”的這樣句子,,里邊的數(shù)值能夠作為文檔數(shù)參閱,。每個(gè)搜索引擎的包含關(guān)鍵詞的文檔數(shù)或許不相同,可是整體的相對比例值應(yīng)該是差不多的,。并且隨著時(shí)間的推移,,文檔數(shù)也會(huì)不斷發(fā)作改變。
注:內(nèi)容源自網(wǎng)絡(luò),,僅供分享交流,,侵刪。
p0