1
本文作者: 六爺 | 2015-07-03 01:40 |
2015年7月2日,今日頭條在南京舉辦了一場主題為“算數(shù)·手機(jī)終端數(shù)據(jù)”的發(fā)布會。兩個半小時的時間里,今日頭條基本上全場都在講數(shù)據(jù)。不出意外的話,這應(yīng)該是雷鋒網(wǎng)編輯參加過的PPT最多的一場發(fā)布會,沒有之一。
用手機(jī)的品牌、價位、配置、系統(tǒng),用戶的年齡、性別、地點,與用戶在今日頭條上的各種行為進(jìn)行排列組合,必然能衍生出很多組數(shù)據(jù)。如果想讓這些數(shù)據(jù)對手機(jī)廠商產(chǎn)生指導(dǎo)價值,就不得不衡量算法的合理性。
今日頭條的算法架構(gòu)師曹歡歡在發(fā)布會上給出了一個計算公式:
w1*候選一的投票率+w2*候選二的投票率+w3*候選三的投票率+…=最高分
發(fā)布會結(jié)束后,曹歡歡告訴雷鋒網(wǎng)編輯,“公式中的‘w’可理解為一個用戶對某標(biāo)簽的關(guān)注系數(shù),而投票率是指同時擁有這個標(biāo)簽的用戶群,看到這條新聞后的打開率,得分越高,這條新聞被推薦給用戶的概率也就越高。”
在這個簡單粗暴的算法公式下,其實隱藏了很多信息。比如在公司沒有一個人工編輯的情況下,如何讓計算機(jī)得出更準(zhǔn)確的文章標(biāo)簽?如何讓用戶在越來越精確的閱讀環(huán)境中,得到更全面的知識與體驗等等。這些問題使得今日頭條CEO張一鳴與吳曉波的對話很快上升到了哲學(xué)的高度。
實際點講,合理只是算法的基礎(chǔ),而算法的優(yōu)劣是一個永無止境的命題。如果從結(jié)果上看,用戶能否最終得到高效的推薦,算法的權(quán)重可能并沒有人們想象中那么高。
為此曹歡歡舉了個例子:“聰明的算法在你告訴它將大象裝冰箱分三步之后,它就知道將猴子、孔雀、張一鳴等放進(jìn)冰箱也是分三步,笨拙的算法則無法舉一反三。”
但他隨即表示,即使是笨拙的算法,當(dāng)你給它足夠的“信息量”時,它也能夠?qū)崿F(xiàn)相應(yīng)的效果。如你所知,也就是所謂的“大數(shù)據(jù)”。根據(jù)今日頭條官方的說法,現(xiàn)在頭條已經(jīng)擁有2.7億用戶,日活超過2500萬。用戶的每一個操作必然產(chǎn)生一組數(shù)據(jù),這也就是今日頭條的“大數(shù)據(jù)”來源。
算法夠不夠好?數(shù)據(jù)夠不夠大?兩者都很難評判,曹歡歡也沒有在發(fā)布會上提到這些。不過他表示,滿分100的話,到現(xiàn)在這個階段,張一鳴給產(chǎn)品打出的分?jǐn)?shù)是40分。顯然,他們還有很長的路要走。
除了產(chǎn)品本身以外,還有一點值得注意的是,在這個時代,數(shù)據(jù)是很值錢的。手機(jī)圈的人告訴雷鋒網(wǎng)編輯,基本上一定量級的手機(jī)廠商,每年都會付給GFK這樣的數(shù)據(jù)公司一筆不菲的服務(wù)費(fèi),獲取數(shù)據(jù)。
可直到發(fā)布會結(jié)束,無論是曹歡歡還是張一鳴都沒有表現(xiàn)出用數(shù)據(jù)套現(xiàn)的想法。隨后,今日頭條內(nèi)部人士告訴雷鋒網(wǎng)編輯,即使頒布了這么多數(shù)據(jù),但今日頭條暫時不會考慮這種商業(yè)模式,“頭條的興趣是推薦引擎,現(xiàn)在做這個純粹是覺得內(nèi)容有趣?!编?,他說的是有趣。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。