1
本文作者: 科學(xué)的fan | 2015-03-03 13:31 |
2月28日,英國(guó)《新科學(xué)家》關(guān)注到Google搜索的一個(gè)新動(dòng)向:Google嘗試根據(jù)可信度而不是鏈接數(shù),來(lái)決定網(wǎng)頁(yè)在搜索結(jié)果中的排名。報(bào)道稱,Google正在改變以往根據(jù)網(wǎng)頁(yè)的導(dǎo)入鏈接數(shù)量來(lái)衡量網(wǎng)頁(yè)質(zhì)量的模式,其內(nèi)部的一個(gè)研究小組著手研發(fā)的一個(gè)新系統(tǒng),將不再計(jì)算導(dǎo)入鏈接的數(shù)量,而是計(jì)算網(wǎng)頁(yè)內(nèi)不實(shí)信息的數(shù)量,并給出網(wǎng)頁(yè)的可信度分?jǐn)?shù),從而確定網(wǎng)頁(yè)在搜索結(jié)果中的排列位置。
該研究小組論證道,互聯(lián)網(wǎng)充斥著垃圾,一些虛假的醫(yī)藥廣告可能會(huì)成為頭條,一些胡編亂造的“新聞”如野火般到處蔓延。也就是說(shuō),如果網(wǎng)頁(yè)被鏈接的數(shù)夠多,即便充斥的是大量的不實(shí)信息,也會(huì)出現(xiàn)在搜索結(jié)果靠前的位置。在這個(gè)小組設(shè)計(jì)的新軟件中,錯(cuò)誤信息越少的網(wǎng)頁(yè)將被視為越可信。
對(duì)搜索結(jié)果的炮轟,對(duì)國(guó)內(nèi)的互聯(lián)網(wǎng)用戶而言并不陌生,“競(jìng)價(jià)門”在國(guó)內(nèi)某搜索引擎的頭頂上始終難以揮散。刨卻道德的苛責(zé),作為長(zhǎng)期浸染于互聯(lián)網(wǎng)中的一員,我們平日里搜索的結(jié)果是如何得到的呢?
關(guān)于如Googlebot(俗稱google爬蟲(chóng))等搜索引擎的收錄程序,科學(xué)的fan在此不作討論。搜索引擎結(jié)果的好壞,業(yè)界有一個(gè)詞用來(lái)衡度:相關(guān)性(Relevance),簡(jiǎn)單來(lái)講,就是檢索結(jié)果是不是用戶所要查詢的內(nèi)容。就如要查詢一個(gè)電話號(hào)碼,很多人通常會(huì)打給114,在詢問(wèn)的過(guò)程中,用戶絕不希望114給他們的是空號(hào)或者錯(cuò)誤的答案。
搜索引擎要干的活,就是快速地響應(yīng)用戶的檢索,把滿足用戶需求的搜索結(jié)果反饋給用戶。能否快速地找到用戶檢索所需要的答案,或進(jìn)一步來(lái)說(shuō),把與用戶檢索需求最相關(guān)的高質(zhì)量?jī)?nèi)容納入結(jié)果排序的前面是搜索引擎的核心工作。
目前,不同的搜索引擎使用了不同的排序方法。用得比較多的是“網(wǎng)頁(yè)被鏈接的次數(shù)越多而且鏈接的站點(diǎn)越權(quán)威,質(zhì)量就越高,排序越靠前”的超鏈接分析法和“查詢?cè)~的頻率越高,其排序就越靠前”的詞頻統(tǒng)計(jì)法。此外,還包括根據(jù)網(wǎng)頁(yè)被點(diǎn)擊次數(shù)決定的點(diǎn)擊率法和以網(wǎng)站付費(fèi)的多少來(lái)決定排序前后的付費(fèi)競(jìng)價(jià)法。
Google搜索引擎中的PageRank,于其兩位創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學(xué)發(fā)明出來(lái),屬于超鏈接分析法的突出代表。PageRank將對(duì)頁(yè)面的鏈接看成是對(duì)頁(yè)面的投票,是其重要性的表征。
在搜索結(jié)果靠前的位置很重要,因?yàn)檫@直接關(guān)系到用戶對(duì)搜索引擎的體驗(yàn)問(wèn)題,用戶能否在適當(dāng)長(zhǎng)度的搜索清單得到自己想要的答案,搜索引擎何時(shí)把用戶想要的結(jié)果巧妙地呈現(xiàn)在用戶面前,玄妙全在搜索結(jié)果的排序中。
有針對(duì)搜索引擎用戶點(diǎn)擊方式的研究表明:
1)60-65%的查詢點(diǎn)擊了名列搜索結(jié)果前10條的網(wǎng)頁(yè);
2)20-25%的人會(huì)考慮點(diǎn)擊名列11到20的網(wǎng)頁(yè);
3)僅有3-4%的會(huì)點(diǎn)擊名列搜索結(jié)果中列第21到第30名的網(wǎng)頁(yè)。
也就是說(shuō),絕大部分用戶是不愿意翻頁(yè)去看搜索引擎給出的后面的結(jié)果。Google的點(diǎn)擊熱圖和康乃爾大學(xué)的一項(xiàng)eye tracking實(shí)驗(yàn),也很好地佐證了這樣的結(jié)果。
光譜代表的是不同位置用戶的點(diǎn)擊熱度,顏色越靠近紅色表示點(diǎn)擊強(qiáng)度越高
從Google點(diǎn)擊熱圖(Heat Map)來(lái)看,搜索結(jié)果的前3條熱度最高,吸引了大量的點(diǎn)擊。換句話說(shuō),對(duì)搜索引擎而言,最前的幾條結(jié)果最關(guān)鍵;在此處呈現(xiàn)用戶想要的結(jié)果,對(duì)用戶的滿意程度至關(guān)重要。
康乃爾大學(xué)的eye tracking實(shí)驗(yàn)獲得了更為精確的Google搜索結(jié)果的用戶行為分析。分析結(jié)果表明,前三條結(jié)果的總點(diǎn)擊幾乎分流了搜索流量的80%,第一條結(jié)果獲得了56.38%的搜索流量,第二條和第三條結(jié)果的排名依次降低,但遠(yuǎn)低于排名第一的結(jié)果,前三條結(jié)果的點(diǎn)擊比例約為11:3:2。
關(guān)于搜索質(zhì)量,有其自身的評(píng)估體系。發(fā)軔于英國(guó)克蘭菲爾德大學(xué)(Cranfield University)的Cranfield評(píng)價(jià)系統(tǒng)在各大搜索引擎公司內(nèi)都有廣泛的應(yīng)用,還有Precision-Recall(準(zhǔn)確率-召回率)評(píng)價(jià)指標(biāo)、MAP(平均準(zhǔn)確率法)、A/B Testing等等搜索引擎的結(jié)果質(zhì)量的量化評(píng)價(jià)方法。同時(shí),現(xiàn)在也已經(jīng)出現(xiàn)了許多關(guān)注到搜索結(jié)果的應(yīng)用,如能剔除濫發(fā)虛假信息的LazyTruth插件、會(huì)從垃圾網(wǎng)站中收集謠言并通過(guò)交叉參考其他來(lái)源進(jìn)行查證或反駁的Emergent項(xiàng)目。窮其這些評(píng)估體系和應(yīng)用,都是在關(guān)注同一個(gè)問(wèn)題:提供給用戶更好的搜索結(jié)果。
但客觀地來(lái)講,此番Google宣稱要急于“facts”來(lái)決定網(wǎng)頁(yè)在搜索結(jié)果中的排名,但究竟有多少“facts”能被爬蟲(chóng)(googlebot)快速且高質(zhì)量地認(rèn)定?這個(gè)事實(shí)恐怕會(huì)令人沮喪,只怕是強(qiáng)大如谷歌,一樣無(wú)法改變這個(gè)“事實(shí)”。同時(shí)不要忘了,排序既是搜索引擎的權(quán)杖,更是搜索引擎向其衣食父母—廣告商要價(jià)的談資。信譽(yù)評(píng)級(jí),更像是Google給用戶傳遞的一個(gè)信號(hào):作為搜索引擎,我一直致力于把最好的搜索結(jié)果呈現(xiàn)在你們面前!即便是出現(xiàn)如狗皮膏藥的排序靠前的搜索結(jié)果,更有可能是我們的排序方法有問(wèn)題。
將質(zhì)量更高的搜索成果呈現(xiàn)在用戶面前,是搜索引擎的立身之本和應(yīng)然所為。更多地關(guān)注網(wǎng)頁(yè)過(guò)往數(shù)據(jù)的真實(shí)性,做分級(jí),對(duì)網(wǎng)頁(yè)的可信度“信譽(yù)值”進(jìn)行度量。在這一點(diǎn)上,Google還是令人贊賞和期待的。
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。