建網站請先了解百度的分詞技術
作者:中萬網絡
文章來源:中萬網絡
更新時間:2014-10-16
眾所周知,百度是全球最大的搜索引擎,自然的它也最了解中國網名的搜索習慣,同時它作為中國搜索引擎的老大,它的排名方法和搜索技術就在被很多草根站長研究,因為還有很多站長們要靠它的流量吃飯,所以,草根網站的站長們對百度是又愛又恨,因為它不僅能帶來很大的流量,又會無情地k站或者降權。鑒于此,大家在做網站的時候了解百度的分詞技術就尤為重要了。下面我們就一起看看,希望對大家有所幫助。
當然可能小編有說的不對地方,請大家拍磚頭,希望大家共同進步。沒有研究百度分詞前不明白百度為什么比google強大。其實分詞也就是切詞,百度是否拿來一句中文字符串拿來隨便切一下呢,當然不會。那么怎么才滿足被切割的條件呢?通過下面的實驗就會發現如果字符串只包含小于等于3個中文字符的話,那就保留不動,比如:“牽引器”這個詞,前提是一個完整的詞,百度是不會切分的,當字符串長度大于4個中文字符的時候,百度的分詞程序就會啟動了。例如“牽引器價格”,看看返回結果中標為紅字的地方,不難看出來,查詢已經被切割成“牽引器”,“價格”兩個單詞了,再試著換一個詞。例如:我們來看“中萬網絡”,百度里提交查詢一下,發現標紅的關鍵字都是每一個是“中萬”,“網絡”,連續出現的情況,可以看到將“中萬”與“網絡”切分成兩個詞,如果我們搜“北京中萬網絡”呢,發現標題是沒有,網頁內容比較完整是“北京中萬網絡科技有限公司”http://www.kuangchan99.com),可能是這個網站還沒收錄的原故,這個長尾詞被切成了“北京”/“中萬網絡”。
那現我們在來研究一下百度是分詞算法,通過幾年的發展,百度的分詞算法已經算是相當成熟了,這其中也少不了SEOER 的功勞,有一位SEOER的前輩說過:“百度的算法有簡單的有復雜的,有正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法,最短路徑算法等等,有興趣的可以用GOOGLE去搜索一下以增加理解。”讓我們總結一下吧,這里面也有我個人的猜測, 百度擁有一個強大的詞匯數據庫,里面有我們通用所用的各種詞語比如“人名,地名,產品的名稱”,舉個例子“王元哲”,“衡水”,“牽引器”,這些都是詞庫中有的,在切詞時將專有名稱切出,如“助康”這個詞,詞庫中沒有,下面的采用雙向最大匹配分詞算法,假如正向和反向匹配分詞結果一致當然最好,就可直接輸出即可;如果兩者不一致,正向匹配一種結果,反向匹配一種結果。
相信看了上面的文章,大家對百度分詞技術有了一定得了解,慢慢發現其實百度的分詞技術也并無特殊,可能因為百度擁有了一個超大的專用字典,這里面登錄了人名、廠家名稱、部分地名、網址等等,并且還在繼續擴充新詞還有一些新詞不斷被收錄,或許這就是比Google強大的一方面吧。不管怎么說,希望大家在建站之前,都應該先了解百度的分詞技術,這對于網站的推廣時很有幫助的。