<cite id="vrtvt"></cite>

<menuitem id="vrtvt"><strike id="vrtvt"><thead id="vrtvt"></thead></strike></menuitem>

      0

      搜索引擎的HITS算法原理講解與應用

      已有16人閱讀此文 - - HITS算法 - 西風SEO

      HITS算法其全稱是Hyperlink Induced Topic Search,它是連接分析中非?;A而且很重要的算法,并且被搜索引擎Teoma作為連接分析的算法在實際中進行使用。HITS算法是由康奈爾大學的JonKleinberg 博士于1998年首先提出的,為IBM 公司阿爾馬登研究中心的名為“CLEVER”的研究項目中的一部分。 當前搜索引擎優化研究者對HITS算法討論的較多,這種HITS算法在Web結構挖掘中具有著較高的權威性,并且其使用也是較為廣泛的,這個算法是一種非常重要的網頁重要性分析算法。HITS算法主要是根據網頁的入度與出度來衡量一個網頁的重要性的,其中網頁的入度指的是指向這個網頁的超鏈接,而出度則是指的這個網頁指向其他網頁的超鏈接。HITS算法其具有的最直觀的意義就是網頁重要性的相關性,也就是指的如果一個網頁具有很高的重要性,那么這個網頁所指向的其他網頁也具有較高的重要性,同時如果這個重要性高的網頁被其他的網頁所指,那么指向這個網頁的其他網頁也具有著較高的重要性。

      搜索引擎的HITS算法原理講解與應用

      百科的描述:

      HITS算法,是在用戶搜索后開始運行,其核心思想是建立在頁面鏈接關系的基礎上,對鏈接結構的改進算法。HITS算法通過兩個評價權值——內容權威度(Authority)和鏈接權威度(Hub)來對網頁質量進行評估。HITS算法的目的是當用戶查詢時,返回給用戶內容權威度更高的頁面。

      一、什么是Authority頁面(權威頁面)

      簡單來說Authority頁面(權威頁面)是指在某一個領域范圍內或者某一個相關主題范圍內的高質量網頁。比如招聘領域,前程無憂網站的首頁就是該領域的一個高質量優質網頁。比如淘寶首頁就是電商領域的優質網頁。

      二、什么是Hub頁面(樞紐頁面)

      而Hub頁面(樞紐頁面)通常就是它頁面本身包含了很多高質量的Authority頁面的鏈接,比如360網址導航首頁就是一個非常好的Hub頁面(樞紐頁面)。因為在360網址導航的站點頁面里面聚合了眾多的不同類型的權威站點集合,比如新聞板塊聚集了新浪、騰訊等權威站點。視頻板塊聚集了搜狐視頻、優酷視頻等權威站點。這個點和大家經常發布的一些分類目錄網站外鏈有點類似(所以為何網站目錄外鏈還存在一定的效果,正是因為搜索引擎本身有自己特有的算法才會影響到你的排名)。

      HITS算法意義

      之所以存在HITS算法,是因為搜索引擎需要在全球所抓取的網頁文檔集合當中找到與用戶搜索請求查詢詞匹配度與之相關最高的頁面進行符合匹配,而這里的匹配度相關最高的則是一些高質量的“Authority”頁面和“Hub”頁面,而不是大家常常理解的站內文章優質原創等因素。尤其是一些權威頁面,搜索引擎更加親耐,因為這類站點頁面的內容會更加滿足用戶查詢的內容。

      有很多朋友可能會問到一個問題,如何成為權威頁面或者樞紐頁面呢?

      其實樞紐頁面在前面從概念意義上解釋來說已經告訴了大家如何去成為樞紐頁面。比如360導航網站的某一個站點類型的聚合頁面,再比如網站分類目錄站點的某一個站點類型的聚合頁面,這些都屬于樞紐頁面,但是樞紐頁面也會分為高質量樞紐頁面和一般性樞紐頁面。比如360導航網站首頁不僅是樞紐頁面并且還是導航站點的權威頁面。

      360導航頁面

      那么又如何成為權威頁面呢?

      這里就會提到大家想要理解的一個深層次的東西了,所謂的高權重外鏈其實可以理解為高權威外鏈,即權重=權威。搜索引擎針對每一個站點和該站點的每一個頁面都有一系列的網頁評分,而這類評分決定著頁面的鏈接是否為有效的信任度。而權威頁面往往會有幾個特點:

      1、品牌屬性

      不管是某一種類型的站點,一旦要想成為行業的權威,品牌屬性必定濃厚,這點大家可以從百度搜索引擎的知心算法可以得知。如當用戶搜索網上商城會聯想到京東、天貓;再如當用戶搜索空調會聯想到海爾、格力、美的等知名品牌。正是因為這類品牌屬性,可以讓這類品牌官網站點在某一個行業領域形成獨特的權威度。但是,對于搜索引擎而言,這類品牌屬性搜索引擎是感觀不到的,而用戶卻可以知曉。因為對于用戶而言,用戶可以通過報刊,電視等多媒體方式了解到這些品牌的循環曝光,從而積累品牌的印象程度。那么搜索引擎是如何計算出這些品牌屬性的權威程度呢?針對搜索引擎來說,搜索引擎會通過全網抓取技術檢索全球所有網頁集合,根據文檔檢索模型計算出詞頻,而詞頻計算出來的相關詞頻次結合度最高的一類詞就是一個主題的符合度。通常情況下,是行業產品詞+品牌詞檢索。

      2、歷史屬性

      歷史屬性我們可以稱之為信任度屬性,何為信任度屬性,簡單的理解就是一個權威的站點必定是本身的頁面存在一定的真實性、可靠性的價值信任信息,就如百度百科的詞條會有對應的參考資料來作為參考佐證,從而針對內容進行信任度提升。所以即使內容不是原創,如果頁面滿足了信任度屬性,你的內容一樣非常有價值,也利于搜索引擎優化。信任度屬性除了信息價值信任之外還有一點就是歷史數據積累,這點在老域名站點體現的非常明顯。越老的站點信任度屬性就體現的越明顯,比如做一些灰色產業或者做醫療的SEO人員就非常喜歡采用使用過的并且干凈底子的老域名進行優化效果最佳。

      3、曝光屬性

      權威頁面除了品牌屬性和歷史數據積累等屬性還有一點就是曝光屬性,這類曝光屬性會包含兩個大類,其中是站內曝光屬性和站外曝光屬性。站內曝光屬性可以理解為頁面收錄量,一般情況下,當一個域名使用了10多年,每天都在充實著一些主題非常一致的優質樞紐頁面的時候,那么自然而然他的曝光也會放的很大。而站外曝光屬性就是在整個互聯網站點文檔集合里面所體現出你品牌屬性的詞頻集合和關鍵詞主題一致的文檔數量,比如闡述淘寶的網頁相關結果數有X億個網頁。而X億張網頁集合里面和淘寶相關度最密切的是關于電商、商城、網購等主題行業詞匯。那么通過歷史屬性的數據積累,淘寶站點在電商領域歸屬于權威站點。

      實現HITS算法的步驟

      要實現HITS算法,就必須要先對與主題相關的網頁集合進行判別,同時還需要根據用戶所提交的查詢條件來判定出一個與之相關的網頁集。在HITS中判定網頁是否與主題相關主要是根據以下條件:(1)這些網頁都必須要屬于一個網頁集合,同時這個網頁集合之中必須要包含有與用戶查詢相關的文本;(2)這個集合中的網頁需要鏈向滿足(1)條件的網頁,或者是滿足(1)條件的網頁鏈向這個網頁。

      在這里有一個假設,就是基于“鏈接――內容”假設的。假設網頁只會與自己網頁主題相關的網頁具有鏈接關系,這里也包括了那種可能與主題相關但是網頁中的具體內容不包含有與主題匹配的文本信息的網頁。

      這就面臨著一個問題,那就是在實踐的過程中,有時會遇到那種難以判別相關性的主題,因為有的網頁的文本內容與查詢信息相關,但是主題卻有可能不相關,特別是有的查詢本身就具有歧義性。

      做好上面的工作后,HITS算法的實現就進入第二部分。分別為與主題相關的集合中的每一個頁面計算出各自的中心度和權威度。在計算中心度和權威度時HITS算法采用的是投票方法,并且通過逆向投票機制來確保每一個網頁都能夠為鏈向它的其他網頁進行投票。這樣每一個網頁都被賦予了一個中心度和一個權威度。

      HITS算法缺陷與解決方法

      HITS算法將網頁的內容權威度與鏈接權威度是進行分開考慮的,以內容權威度作為評價基礎對頁面的鏈接權威度進行評價,最后才是進行綜合評價。不可否認的是HITS雖然有著廣泛的應用,但是其也有著較為明顯的缺陷。

      1、由于該算法完全針對鏈接結構,并不針對文本,因此對于頁面權威性的判斷是存在問題的。一個頁面內容有限,因此權威性必定是針對某一個主題,在別的無關主題講道理就不會具有權威性,而且引用轉載別的頁面在現實情況下,會存在商業目的,在該算法沒有考慮以上情況的條件下,存在弊端是必然現象。

      2、太容易作弊了。假設我們生成一個頁面a,這個頁面a指向很多個高質量的內容權威度(Authority)頁面,那么這個頁面a的(Hub)值就會非常高,那我再在a頁面上增加一個自己的垃圾網頁b,這個b頁面的內容權威度(Authority)也會非常高,因此存在弊端。

      3、對鏈接穩定性要求比較高,一個鏈接的刪除可能會影響比較多網頁的(Hub)和(Authority)值。

      4.由于HITS算法是與之查詢相關的算法,所以不能先計算,而必須是用戶請求了某一個搜索詞以后才能去計算該詞的一些站點文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性需要通過多次的計算迭代才能最終計算出檢索結果的文檔鏈接的推薦度投票,所以導致計算效率比較低下。

      5.而主題漂移問題則是大家常??梢钥吹搅艘恍┈F象,即使我交換的鏈接和我站點主題沒有一條相關,但是也會促進我的頁面關鍵詞排名提升。而這種現象正是因為HITS的特殊算法結構才出現了給與這些無關網頁很高的排名。最終導致了搜索結果發生了主題漂移,而這種現象也稱為“緊密鏈接社區現象”。

      hits是存在著很多問題,但是我們不能全部解決,比如計算效率低,hits需要一個周期對我們所做的文本鏈接做計算,通過篩選計算然后進行提權,所以需要周期的,但對于一些其他問題我們可以做出相應的解決。問題解決方法如下:

      1.學者們都進行了研究并分別提出了解決的方法。對于第一個問題的解決方法是對超鏈接的權值進行計算,這個權值是根據超鏈接的文字及其周圍文字與關鍵字的匹配程度計算的。與此同時還引入了系數來對權值進行相對的控制。通過這樣的方法就考慮到了頁面的文本信息,從而使得算法更加的可靠。

      2.在HITS算法中并不能有效的區分引用鏈接,從而導致結果與目標的出入。為此可以引入一個時間參數,通過對鏈接引用的時間長短來進行判斷這個引用是否是正常的引用。這樣做的原因是如果是非正常的引用,那么引用的時間就不會很長,而如果是正常的引用,那么必然會是一個較長時間的引用。通過這個時間系數,HITS算法能夠將那些非正常的引用進行一定程度的篩選。同時利用這個時間系數的構造還能夠對權威頁面的大小進行控制,例如當隨著訪問時間的增加,可以使頁面的權威性呈非線性的增加。這樣就能夠使得HITS算法更加的合理,而通過其計算所得出的權威頁面也會有一個更加科學合理的解釋。當然這樣也就使得穩定性變得十分的重要,使得各個網頁在建設外部鏈接時需要考慮到穩定性。

      從分析中不難看出HITS算法在很大程度上來講是一種帶有試驗性質的嘗試性算法,與實用性的算法相比肯定有很多不合理的地方。從前面的分析來看它在檢索時都需要先面向內容進行檢索,然后才能夠基于內容檢索的結果頁面進行對這些頁面之間的鏈接關系進行計算,這種計算法在檢索時顯得過于復雜,進而需要犧牲更多的計算時間,因此在實際運用上存在著難以克服的困難,也正因此其使用范圍與實用性更強的PageRank等算法等都存在著一定的距離。

      hits實際應用中的問題

      (1)為什么外鏈要一段時間后才能生效

      因為HITS算法是與查詢相關的算法,所以必須在接收到用戶查詢后實時進行計算,而HITS算法本身需要進行很多輪迭代計算才能獲得最終結果,這導致其計算效率較低,這是實際應用時必須慎重考慮的問題。通俗點理解就是當一條外鏈發布出去以后,搜索引擎當蜘蛛抓取到該鏈接以及錨文本值的同時就馬上計算該鏈接的推薦度分值(包含具備推薦度加分和不具備推薦度加分以及減分,減分情況如作弊鏈接等),但是由于Hits算法的迭代性,不會直接一次性計算后立馬進行鏈接加分操作,而需要大量的重復鏈接迭代計算然后進行最終的加分結果,所以很多情況下,發布的外鏈所看到的效果需要等待一定的時間段才能看到排名效果。之所以需要進行迭代計算,是因為搜索引擎需要考慮到鏈接的穩定性,以及外鏈的頁面是否具備推薦度(比如相關性、權威性等)等多個因子綜合迭代計算,不同的搜索引擎迭代計算的周期也不同。

      (2)為什么不相關的外鏈或是友情鏈接也可以提升排名?

      如果在擴展網頁集合里包含部分與查詢主題無關的頁面,而且這些頁面之間有較多的相互鏈接指向,那么使用HITS算法很可能會給予這些無關網頁很高的排名,導致搜索結果發生主題漂移,這種現象被稱為“緊密鏈接社區現象”(Tightly-Knit CommunityEffect)。通俗點理解就是指交換的友情鏈接并不相關,但是這類鏈接會互相交換鏈接,而由于Hits算法所存在的缺陷會導致這類站點的鏈接進行推薦度加分,所以鏈接不相關也會引起排名提升,但是相對而言,相關性的友情鏈接比不相關的友情鏈接在Hub頁面上更加具備推薦度。

      (3)如何利用HITS算法作弊?

      HITS從機制上很容易被作弊者操縱,比如作弊者可以建立一個網頁,頁面內容增加很多指向高質量網頁或者著名網站的網址,這就是一個很好的Hub頁面,之后作弊者再將這個網頁鏈接指向作弊網頁,于是可以提升作弊網頁的Authority得分。比如右圖所示,一個臺球桌網站A,指向了不相關的混凝土網站、品牌策劃網站、以及新浪等權威站點。那么通過Hits的算法所存在的問題我們可以發現,該特征不僅顯示了Hits算法的緊密鏈接社區現象,另一點則是臺球桌站點形成了高質量的Hub頁面,從而可以對不相關的混凝土等站點進行推薦度加分。(4)為什么外鏈需要具有穩定性?

      所謂結構不穩定,就是說在原有的“擴充網頁集合”內,如果添加刪除個別網頁或者改變少數鏈接關系,則HITS算法的排名結果就會有非常大的改變。這也是為何大家常常說發布的外鏈需要講究穩定性,而穩定性的鏈接是出之于搜索引擎Hits算法當中。

      (5)大招:外鏈通常講的廣泛性、穩定性、權威性、相關性原因在哪里?

      穩定性上面講了,為什么要廣泛性或是說多呢?因為頁面越多,迭代的值越大。權威性和相關性呢?權威值越大,他的authority就越大,指向一個頁面的pub也就越大,相關性,越是相關,給的分也就越大。

      如何做有推薦度、高質量的外鏈,基本就明白了。

      1、使外鏈page具有比較高的pub值,如指向一些高質量站點,如百度、搜狗等

      2、提高外鏈page的authority值,可以給外鏈站點加一些外接或是什么,有條件情況下。

      3、如外鏈不可控,如發在sohu自媒體上,可以在頁面上發相關文章,并且相關錨指向。

      結束語:

      HITS運用的比較不錯的是bc站點(bc站點是什么?自己去科普去。)做bc只要鏈接不是垃圾站點 是健康站 每一條鏈接都是一個好的hub頁面 每一個鏈接都是高質量 管他相關不相,雖然HITS算法只能算作是一種試驗性質的算法,并且有著很多難以克服的缺陷,但是其本身所具有的嚴謹性與迎合客戶的算法思想,都使得學術界和產業界給予它很高的評價和廣泛的關注。而且相對而言,通過對HITS算法的不斷研究,相信能夠為更多的研究者提供更多的靈感,同時也能夠為國內的搜索引擎的發展帶來更多有利的影響。當然剛才講的是大的環境,對于seo網站優化而言,不僅僅要了解并使用HITS算法,還要知道其他的算法:HillTop算法、SALSA算法、PageRank算法等等,在比如還有文檔檢索模型(包含向量空間模型、概率模型、布爾模型等),在比如還有倒排索引、TF-IDF等,其實這類算法在百度上都可以找到他們對應的透明的計算公式(涉及到高等數學),如果你能夠前行研讀和深究的話不難發現一些SEO排名的奧秘所在。


      更多>>評論

      發表

      国产娇小粉嫩学生,女人和公拘配种女人视频,成年动漫3d无尽视频不卡在线观看,2020亚洲国产精品无码 平利县| 绥中县| 贺州市| 革吉县| 潜江市| 乌什县| 习水县| 都匀市| 隆德县| 台东市| 离岛区| 淳化县| 栾城县| 榆中县| 玉溪市| 丰县| 三台县| 塘沽区| 鄄城县| 富宁县| 绥中县| 怀仁县| 黑河市| 宜黄县| 晋江市| 宁德市| 大渡口区| 钦州市| 靖远县| 山丹县| 广水市| 额济纳旗| 余庆县| 扎兰屯市| 宁南县| 富川| 普陀区| 龙山县| 尉犁县| 三原县| 嘉黎县| http://444 http://444 http://444 http://444 http://444 http://444