[ad_1]
像SEO中的許多其他概念一樣,TF-IDF是一個備受爭議的話題。
首先,您了解到它是將您的內容在Google上排名的靈丹妙藥。
然後,您立即聽到TF-IDF如此 老套 那是不值得的
真相通常位於中間。
這篇文章將探討為什麼您不希望TF-IDF替代全面的優化策略,以及將其用於SEO的真正好處。
TF-IDF:那是什麼野獸?
對於人類的大腦來說,不需要任何數學運算就能知道我的文章是關於什麼的。關於TF-IDF,對吧?
但是,當一台機器評估相關性(最重要的是,將其與幾篇文章進行比較)時,我們需要一個數字表示形式才能看到:
- A條是關於TF-IDF(相對於鏈接構建而言)。
- A條比B條更多地是關於TF-IDF。
我們能否簡單地計算一下關鍵字TF-IDF在每個文檔中出現的次數?
不可以,因此我們顯然會忽略文件的大小。
我們可以將關鍵字的數量與總字數進行比較嗎?
這就是我們所說的 關鍵字密度 –過去廣泛使用的內容優化指標。
但是依靠關鍵字密度使我認為「要」(不是「 TF-IDF」)一詞是本文中最突出的一個。
對於某些單詞通常在語音中出現頻率更高的事實,是否可以調整我的計算?
這就是TF-IDF發揮作用的地方,讓我們看一下本文中「 TF-IDF」的使用頻率與Web其他文檔中其平均使用頻率的比較。
因此,我們可以減少對所有常用詞的關注,並針對特定內容區分非常具體的主題。
我的計算公式如下:
或者,簡單地說(免責聲明:為了傳達基本思想,我故意在這裡過分簡化),我們正在採取以下措施:
-
字詞頻率=(字詞計數)/(文檔中的總字數)
-
反向文檔頻率=日誌(文檔數)/(包含關鍵字的文檔)
與反向文檔頻率相乘時,常用詞的術語頻率會降低,而唯一的主題識別術語則會更高。
回到我們的示例,動詞「 to be」用在每篇英語文章中。但是很少有文章提到「 TF-IDF」,「關鍵字」,「內容」以及我在本文中介紹的其他重要子主題。
因此,針對這些術語的TF-IDF越來越高,……瞧!機器知道我的文章是關於什麼的。
通常,當我們需要一台機器來識別大量文檔的主題時,可以使用TF-IDF。例如,它已廣泛應用於數字圖書館的推薦系統中。
Google是否使用TF-IDF作為排名信號?
最簡潔的答案是不。」
TF-IDF在許多Google專利中都被稱為搜索引擎可以用於 停用詞刪除,這是為了擺脫搜索查詢中和頁面內容中的所有功能詞:
但是使用這種確切的機制來識別和比較相關性的可能性很小。
僅僅因為作為詞法搜索機制的示例,TF-IDF無法超越關鍵字。
與Google最可能使用的語義搜索模型相反,該模型將關鍵字視為字元串,無法識別它們之間的語義關係。
換句話說,TF-IDF本身並不是確定您網頁位置的排名信號。
您不需要為內容中的每個關鍵字匹配預期的TF-IDF值。而且,最好不要試圖說服您。
語義搜索和共現
因此,Google已移至 語義搜索,嘗試將搜索查詢的含義匹配到局部相關的內容,而不是將查詢關鍵字匹配到頁面上的相同關鍵字。
實際上,這意味著Google不再計算關鍵字本身,而是開始使用周圍的上下文理解它們的含義來統計同現。
例如,假設您遇到了以下句子,卻不知道鱒魚是什麼:
- 鱒魚富含omega-3脂肪酸。
- 鱒魚肉嫩,味道溫和,有點堅果味。
- 選擇鱒魚時,我們要注意清晰的橘紅色。
而且您還會遇到以下情況。我認為大多數讀者都知道鮭魚是什麼:
- 鮭魚是西方美食中一種受歡迎的魚類,與白葡萄酒搭配非常好。
- 嫩鮭魚肉可以添加到義大利面中。
- 鮭魚皮是超級營養密集的食品,所以在做飯時要保留它。
鱒魚與omega-3,果肉和麵食之類的詞同時出現的事實可能表明,鱒魚是一種可食用的魚類,在某種程度上類似於鮭魚。
基於對上下文的這種簡單理解,Google能夠構建複雜的單詞向量系統,進一步用於理解用戶查詢和內容相關性。
儘管我不是說您,而且我應該嘗試對整個矢量系統進行逆向工程,但是通過使您的內容充滿更多的同時出現來提供更多的相關信號似乎是合乎邏輯的(而且, 一些 實例探究 顯示,確實會影響Google的排名)。
TF-IDF如何幫助您的SEO?
查找共同出現的術語正是TF-IDF發揮作用的地方。
當然,我們無法像Google一樣訪問每個網頁。但是為什麼我們需要那些呢?
要獲得一個同時出現的想法的完整列表,只需看一堆頁面(例如20到30頁)就足夠了。
美妙之處在於,使用TF-IDF並不是火箭科學。您所要做的全部僅需三個簡單步驟。
1.撰寫您的內容
我並不是在敦促您將TF-IDF用於您的內容。
最後,即使頁面排名很高並帶來所需的訪問量,不自然的寫作也不會轉換。
因此,首先,您要坐下來寫下內容計劃中的內容。
2.插入TF-IDF工具
我見過的大多數工具的工作原理都差不多。
您輸入一個URL和要對其進行優化的關鍵字。然後,該工具會檢查在該關鍵字上在Google上排名較高的網頁,解析其內容,為找到的所有字詞計算TF-IDF,並將您的內容統計信息與競爭對手的統計數據進行比較。
使用Seobility等基本工具,您將獲得一個單關鍵字列表。
如果您使用的是SEO PowerSuite的WebSite Auditor,Ryte或Text Tools,那麼您還將獲得一個關鍵短語列表(如果您喜歡科學的話,也可以使用N-gram),這無疑會提供更多信息。 (公開:我為SEO PowerSuite工作。)
3.通過TF-IDF並發建議來豐富您的內容
有些短語將只是您內容中已有的同義詞。
如果合適,請嘗試使用它們。
有些短語會指出您尚未想到的新主題。
篩選想法,並思考在內容中使用它們的方式(不必沉迷於它們)。
TF-IDF用於關鍵字研究
一點小費。
從競爭對手的內容中選擇使用最廣泛的術語,也可能會激發新想法進入您的 關鍵字研究 和 內容策劃,尤其是當您需要開箱即用的思維和靈感時。
結論
很多時候,您會看到TF-IDF用作點擊誘餌-這些文章承諾該公式是「 Google演算法逆向工程」或「破壞TF-IDF的神話」。
但是,我鼓勵您將事物視為真實事物,並利用TF-IDF優化提供的機會。無需將整個SEO活動都押在上面。
圖片積分
特色圖片:作者創作,2019年10月
作者截取的所有屏幕截圖,2019年10月