1
本文作者: 科學(xué)的fan | 2015-03-03 13:31 |
2月28日,英國《新科學(xué)家》關(guān)注到Google搜索的一個新動向:Google嘗試根據(jù)可信度而不是鏈接數(shù),來決定網(wǎng)頁在搜索結(jié)果中的排名。報道稱,Google正在改變以往根據(jù)網(wǎng)頁的導(dǎo)入鏈接數(shù)量來衡量網(wǎng)頁質(zhì)量的模式,其內(nèi)部的一個研究小組著手研發(fā)的一個新系統(tǒng),將不再計算導(dǎo)入鏈接的數(shù)量,而是計算網(wǎng)頁內(nèi)不實信息的數(shù)量,并給出網(wǎng)頁的可信度分?jǐn)?shù),從而確定網(wǎng)頁在搜索結(jié)果中的排列位置。
該研究小組論證道,互聯(lián)網(wǎng)充斥著垃圾,一些虛假的醫(yī)藥廣告可能會成為頭條,一些胡編亂造的“新聞”如野火般到處蔓延。也就是說,如果網(wǎng)頁被鏈接的數(shù)夠多,即便充斥的是大量的不實信息,也會出現(xiàn)在搜索結(jié)果靠前的位置。在這個小組設(shè)計的新軟件中,錯誤信息越少的網(wǎng)頁將被視為越可信。
對搜索結(jié)果的炮轟,對國內(nèi)的互聯(lián)網(wǎng)用戶而言并不陌生,“競價門”在國內(nèi)某搜索引擎的頭頂上始終難以揮散。刨卻道德的苛責(zé),作為長期浸染于互聯(lián)網(wǎng)中的一員,我們平日里搜索的結(jié)果是如何得到的呢?
關(guān)于如Googlebot(俗稱google爬蟲)等搜索引擎的收錄程序,科學(xué)的fan在此不作討論。搜索引擎結(jié)果的好壞,業(yè)界有一個詞用來衡度:相關(guān)性(Relevance),簡單來講,就是檢索結(jié)果是不是用戶所要查詢的內(nèi)容。就如要查詢一個電話號碼,很多人通常會打給114,在詢問的過程中,用戶絕不希望114給他們的是空號或者錯誤的答案。
搜索引擎要干的活,就是快速地響應(yīng)用戶的檢索,把滿足用戶需求的搜索結(jié)果反饋給用戶。能否快速地找到用戶檢索所需要的答案,或進一步來說,把與用戶檢索需求最相關(guān)的高質(zhì)量內(nèi)容納入結(jié)果排序的前面是搜索引擎的核心工作。
目前,不同的搜索引擎使用了不同的排序方法。用得比較多的是“網(wǎng)頁被鏈接的次數(shù)越多而且鏈接的站點越權(quán)威,質(zhì)量就越高,排序越靠前”的超鏈接分析法和“查詢詞的頻率越高,其排序就越靠前”的詞頻統(tǒng)計法。此外,還包括根據(jù)網(wǎng)頁被點擊次數(shù)決定的點擊率法和以網(wǎng)站付費的多少來決定排序前后的付費競價法。
Google搜索引擎中的PageRank,于其兩位創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)發(fā)明出來,屬于超鏈接分析法的突出代表。PageRank將對頁面的鏈接看成是對頁面的投票,是其重要性的表征。
在搜索結(jié)果靠前的位置很重要,因為這直接關(guān)系到用戶對搜索引擎的體驗問題,用戶能否在適當(dāng)長度的搜索清單得到自己想要的答案,搜索引擎何時把用戶想要的結(jié)果巧妙地呈現(xiàn)在用戶面前,玄妙全在搜索結(jié)果的排序中。
有針對搜索引擎用戶點擊方式的研究表明:
1)60-65%的查詢點擊了名列搜索結(jié)果前10條的網(wǎng)頁;
2)20-25%的人會考慮點擊名列11到20的網(wǎng)頁;
3)僅有3-4%的會點擊名列搜索結(jié)果中列第21到第30名的網(wǎng)頁。
也就是說,絕大部分用戶是不愿意翻頁去看搜索引擎給出的后面的結(jié)果。Google的點擊熱圖和康乃爾大學(xué)的一項eye tracking實驗,也很好地佐證了這樣的結(jié)果。
光譜代表的是不同位置用戶的點擊熱度,顏色越靠近紅色表示點擊強度越高
從Google點擊熱圖(Heat Map)來看,搜索結(jié)果的前3條熱度最高,吸引了大量的點擊。換句話說,對搜索引擎而言,最前的幾條結(jié)果最關(guān)鍵;在此處呈現(xiàn)用戶想要的結(jié)果,對用戶的滿意程度至關(guān)重要。
康乃爾大學(xué)的eye tracking實驗獲得了更為精確的Google搜索結(jié)果的用戶行為分析。分析結(jié)果表明,前三條結(jié)果的總點擊幾乎分流了搜索流量的80%,第一條結(jié)果獲得了56.38%的搜索流量,第二條和第三條結(jié)果的排名依次降低,但遠(yuǎn)低于排名第一的結(jié)果,前三條結(jié)果的點擊比例約為11:3:2。
關(guān)于搜索質(zhì)量,有其自身的評估體系。發(fā)軔于英國克蘭菲爾德大學(xué)(Cranfield University)的Cranfield評價系統(tǒng)在各大搜索引擎公司內(nèi)都有廣泛的應(yīng)用,還有Precision-Recall(準(zhǔn)確率-召回率)評價指標(biāo)、MAP(平均準(zhǔn)確率法)、A/B Testing等等搜索引擎的結(jié)果質(zhì)量的量化評價方法。同時,現(xiàn)在也已經(jīng)出現(xiàn)了許多關(guān)注到搜索結(jié)果的應(yīng)用,如能剔除濫發(fā)虛假信息的LazyTruth插件、會從垃圾網(wǎng)站中收集謠言并通過交叉參考其他來源進行查證或反駁的Emergent項目。窮其這些評估體系和應(yīng)用,都是在關(guān)注同一個問題:提供給用戶更好的搜索結(jié)果。
但客觀地來講,此番Google宣稱要急于“facts”來決定網(wǎng)頁在搜索結(jié)果中的排名,但究竟有多少“facts”能被爬蟲(googlebot)快速且高質(zhì)量地認(rèn)定?這個事實恐怕會令人沮喪,只怕是強大如谷歌,一樣無法改變這個“事實”。同時不要忘了,排序既是搜索引擎的權(quán)杖,更是搜索引擎向其衣食父母—廣告商要價的談資。信譽評級,更像是Google給用戶傳遞的一個信號:作為搜索引擎,我一直致力于把最好的搜索結(jié)果呈現(xiàn)在你們面前!即便是出現(xiàn)如狗皮膏藥的排序靠前的搜索結(jié)果,更有可能是我們的排序方法有問題。
將質(zhì)量更高的搜索成果呈現(xiàn)在用戶面前,是搜索引擎的立身之本和應(yīng)然所為。更多地關(guān)注網(wǎng)頁過往數(shù)據(jù)的真實性,做分級,對網(wǎng)頁的可信度“信譽值”進行度量。在這一點上,Google還是令人贊賞和期待的。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。