信譽評級：能否還信息搜索一片藍(lán)天？

本文作者：科學(xué)的fan

2015-03-03 13:31

導(dǎo)語：2月28日，英國《新科學(xué)家》關(guān)注到Google搜索的一個新動向：Google嘗試根據(jù)可信度而不是鏈接數(shù)，來決定網(wǎng)頁在搜索結(jié)果中的排名。

2月28日，英國《新科學(xué)家》關(guān)注到Google搜索的一個新動向：Google嘗試根據(jù)可信度而不是鏈接數(shù)，來決定網(wǎng)頁在搜索結(jié)果中的排名。報道稱，Google正在改變以往根據(jù)網(wǎng)頁的導(dǎo)入鏈接數(shù)量來衡量網(wǎng)頁質(zhì)量的模式，其內(nèi)部的一個研究小組著手研發(fā)的一個新系統(tǒng)，將不再計算導(dǎo)入鏈接的數(shù)量，而是計算網(wǎng)頁內(nèi)不實信息的數(shù)量，并給出網(wǎng)頁的可信度分?jǐn)?shù)，從而確定網(wǎng)頁在搜索結(jié)果中的排列位置。

該研究小組論證道，互聯(lián)網(wǎng)充斥著垃圾，一些虛假的醫(yī)藥廣告可能會成為頭條，一些胡編亂造的“新聞”如野火般到處蔓延。也就是說，如果網(wǎng)頁被鏈接的數(shù)夠多，即便充斥的是大量的不實信息，也會出現(xiàn)在搜索結(jié)果靠前的位置。在這個小組設(shè)計的新軟件中，錯誤信息越少的網(wǎng)頁將被視為越可信。

搜索結(jié)果是如何形成的？

對搜索結(jié)果的炮轟，對國內(nèi)的互聯(lián)網(wǎng)用戶而言并不陌生，“競價門”在國內(nèi)某搜索引擎的頭頂上始終難以揮散。刨卻道德的苛責(zé)，作為長期浸染于互聯(lián)網(wǎng)中的一員，我們平日里搜索的結(jié)果是如何得到的呢？

關(guān)于如Googlebot（俗稱google爬蟲）等搜索引擎的收錄程序，科學(xué)的fan在此不作討論。搜索引擎結(jié)果的好壞，業(yè)界有一個詞用來衡度：相關(guān)性（Relevance），簡單來講，就是檢索結(jié)果是不是用戶所要查詢的內(nèi)容。就如要查詢一個電話號碼，很多人通常會打給114，在詢問的過程中，用戶絕不希望114給他們的是空號或者錯誤的答案。

搜索引擎要干的活，就是快速地響應(yīng)用戶的檢索，把滿足用戶需求的搜索結(jié)果反饋給用戶。能否快速地找到用戶檢索所需要的答案，或進一步來說，把與用戶檢索需求最相關(guān)的高質(zhì)量內(nèi)容納入結(jié)果排序的前面是搜索引擎的核心工作。

目前，不同的搜索引擎使用了不同的排序方法。用得比較多的是“網(wǎng)頁被鏈接的次數(shù)越多而且鏈接的站點越權(quán)威，質(zhì)量就越高，排序越靠前”的超鏈接分析法和“查詢詞的頻率越高，其排序就越靠前”的詞頻統(tǒng)計法。此外，還包括根據(jù)網(wǎng)頁被點擊次數(shù)決定的點擊率法和以網(wǎng)站付費的多少來決定排序前后的付費競價法。

Google搜索引擎中的PageRank，于其兩位創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)發(fā)明出來，屬于超鏈接分析法的突出代表。PageRank將對頁面的鏈接看成是對頁面的投票，是其重要性的表征。

搜索結(jié)果排序有多重要？

在搜索結(jié)果靠前的位置很重要，因為這直接關(guān)系到用戶對搜索引擎的體驗問題，用戶能否在適當(dāng)長度的搜索清單得到自己想要的答案，搜索引擎何時把用戶想要的結(jié)果巧妙地呈現(xiàn)在用戶面前，玄妙全在搜索結(jié)果的排序中。

有針對搜索引擎用戶點擊方式的研究表明：

1)60-65%的查詢點擊了名列搜索結(jié)果前10條的網(wǎng)頁；

2)20-25%的人會考慮點擊名列11到20的網(wǎng)頁；

3)僅有3-4%的會點擊名列搜索結(jié)果中列第21到第30名的網(wǎng)頁。

也就是說，絕大部分用戶是不愿意翻頁去看搜索引擎給出的后面的結(jié)果。Google的點擊熱圖和康乃爾大學(xué)的一項eye tracking實驗，也很好地佐證了這樣的結(jié)果。

信譽評級：能否還信息搜索一片藍(lán)天？

光譜代表的是不同位置用戶的點擊熱度，顏色越靠近紅色表示點擊強度越高

從Google點擊熱圖（Heat Map）來看，搜索結(jié)果的前3條熱度最高，吸引了大量的點擊。換句話說，對搜索引擎而言，最前的幾條結(jié)果最關(guān)鍵；在此處呈現(xiàn)用戶想要的結(jié)果，對用戶的滿意程度至關(guān)重要。

康乃爾大學(xué)的eye tracking實驗獲得了更為精確的Google搜索結(jié)果的用戶行為分析。分析結(jié)果表明，前三條結(jié)果的總點擊幾乎分流了搜索流量的80%，第一條結(jié)果獲得了56.38%的搜索流量，第二條和第三條結(jié)果的排名依次降低，但遠(yuǎn)低于排名第一的結(jié)果，前三條結(jié)果的點擊比例約為11:3:2。

信譽評級：能否還信息搜索一片藍(lán)天？

信譽評級：能否還搜索引擎一片藍(lán)天？

關(guān)于搜索質(zhì)量，有其自身的評估體系。發(fā)軔于英國克蘭菲爾德大學(xué)（Cranfield University）的Cranfield評價系統(tǒng)在各大搜索引擎公司內(nèi)都有廣泛的應(yīng)用，還有Precision-Recall（準(zhǔn)確率-召回率）評價指標(biāo)、MAP（平均準(zhǔn)確率法）、A/B Testing等等搜索引擎的結(jié)果質(zhì)量的量化評價方法。同時，現(xiàn)在也已經(jīng)出現(xiàn)了許多關(guān)注到搜索結(jié)果的應(yīng)用，如能剔除濫發(fā)虛假信息的LazyTruth插件、會從垃圾網(wǎng)站中收集謠言并通過交叉參考其他來源進行查證或反駁的Emergent項目。窮其這些評估體系和應(yīng)用，都是在關(guān)注同一個問題：提供給用戶更好的搜索結(jié)果。

但客觀地來講，此番Google宣稱要急于“facts”來決定網(wǎng)頁在搜索結(jié)果中的排名，但究竟有多少“facts”能被爬蟲（googlebot）快速且高質(zhì)量地認(rèn)定？這個事實恐怕會令人沮喪，只怕是強大如谷歌，一樣無法改變這個“事實”。同時不要忘了，排序既是搜索引擎的權(quán)杖，更是搜索引擎向其衣食父母—廣告商要價的談資。信譽評級，更像是Google給用戶傳遞的一個信號：作為搜索引擎，我一直致力于把最好的搜索結(jié)果呈現(xiàn)在你們面前！即便是出現(xiàn)如狗皮膏藥的排序靠前的搜索結(jié)果，更有可能是我們的排序方法有問題。

將質(zhì)量更高的搜索成果呈現(xiàn)在用戶面前，是搜索引擎的立身之本和應(yīng)然所為。更多地關(guān)注網(wǎng)頁過往數(shù)據(jù)的真實性，做分級，對網(wǎng)頁的可信度“信譽值”進行度量。在這一點上，Google還是令人贊賞和期待的。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章