1
本文作者: 六爺 | 2015-07-03 01:40 |
2015年7月2日,今日頭條在南京舉辦了一場(chǎng)主題為“算數(shù)·手機(jī)終端數(shù)據(jù)”的發(fā)布會(huì)。兩個(gè)半小時(shí)的時(shí)間里,今日頭條基本上全場(chǎng)都在講數(shù)據(jù)。不出意外的話(huà),這應(yīng)該是雷鋒網(wǎng)編輯參加過(guò)的PPT最多的一場(chǎng)發(fā)布會(huì),沒(méi)有之一。
用手機(jī)的品牌、價(jià)位、配置、系統(tǒng),用戶(hù)的年齡、性別、地點(diǎn),與用戶(hù)在今日頭條上的各種行為進(jìn)行排列組合,必然能衍生出很多組數(shù)據(jù)。如果想讓這些數(shù)據(jù)對(duì)手機(jī)廠商產(chǎn)生指導(dǎo)價(jià)值,就不得不衡量算法的合理性。
今日頭條的算法架構(gòu)師曹歡歡在發(fā)布會(huì)上給出了一個(gè)計(jì)算公式:
w1*候選一的投票率+w2*候選二的投票率+w3*候選三的投票率+…=最高分
發(fā)布會(huì)結(jié)束后,曹歡歡告訴雷鋒網(wǎng)編輯,“公式中的‘w’可理解為一個(gè)用戶(hù)對(duì)某標(biāo)簽的關(guān)注系數(shù),而投票率是指同時(shí)擁有這個(gè)標(biāo)簽的用戶(hù)群,看到這條新聞后的打開(kāi)率,得分越高,這條新聞被推薦給用戶(hù)的概率也就越高。”
在這個(gè)簡(jiǎn)單粗暴的算法公式下,其實(shí)隱藏了很多信息。比如在公司沒(méi)有一個(gè)人工編輯的情況下,如何讓計(jì)算機(jī)得出更準(zhǔn)確的文章標(biāo)簽?如何讓用戶(hù)在越來(lái)越精確的閱讀環(huán)境中,得到更全面的知識(shí)與體驗(yàn)等等。這些問(wèn)題使得今日頭條CEO張一鳴與吳曉波的對(duì)話(huà)很快上升到了哲學(xué)的高度。
實(shí)際點(diǎn)講,合理只是算法的基礎(chǔ),而算法的優(yōu)劣是一個(gè)永無(wú)止境的命題。如果從結(jié)果上看,用戶(hù)能否最終得到高效的推薦,算法的權(quán)重可能并沒(méi)有人們想象中那么高。
為此曹歡歡舉了個(gè)例子:“聰明的算法在你告訴它將大象裝冰箱分三步之后,它就知道將猴子、孔雀、張一鳴等放進(jìn)冰箱也是分三步,笨拙的算法則無(wú)法舉一反三?!?/p>
但他隨即表示,即使是笨拙的算法,當(dāng)你給它足夠的“信息量”時(shí),它也能夠?qū)崿F(xiàn)相應(yīng)的效果。如你所知,也就是所謂的“大數(shù)據(jù)”。根據(jù)今日頭條官方的說(shuō)法,現(xiàn)在頭條已經(jīng)擁有2.7億用戶(hù),日活超過(guò)2500萬(wàn)。用戶(hù)的每一個(gè)操作必然產(chǎn)生一組數(shù)據(jù),這也就是今日頭條的“大數(shù)據(jù)”來(lái)源。
算法夠不夠好?數(shù)據(jù)夠不夠大??jī)烧叨己茈y評(píng)判,曹歡歡也沒(méi)有在發(fā)布會(huì)上提到這些。不過(guò)他表示,滿(mǎn)分100的話(huà),到現(xiàn)在這個(gè)階段,張一鳴給產(chǎn)品打出的分?jǐn)?shù)是40分。顯然,他們還有很長(zhǎng)的路要走。
除了產(chǎn)品本身以外,還有一點(diǎn)值得注意的是,在這個(gè)時(shí)代,數(shù)據(jù)是很值錢(qián)的。手機(jī)圈的人告訴雷鋒網(wǎng)編輯,基本上一定量級(jí)的手機(jī)廠商,每年都會(huì)付給GFK這樣的數(shù)據(jù)公司一筆不菲的服務(wù)費(fèi),獲取數(shù)據(jù)。
可直到發(fā)布會(huì)結(jié)束,無(wú)論是曹歡歡還是張一鳴都沒(méi)有表現(xiàn)出用數(shù)據(jù)套現(xiàn)的想法。隨后,今日頭條內(nèi)部人士告訴雷鋒網(wǎng)編輯,即使頒布了這么多數(shù)據(jù),但今日頭條暫時(shí)不會(huì)考慮這種商業(yè)模式,“頭條的興趣是推薦引擎,現(xiàn)在做這個(gè)純粹是覺(jué)得內(nèi)容有趣。”嗯,他說(shuō)的是有趣。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。