0
本文作者: 黃善清 | 2019-08-19 18:38 | 專題:KDD 2019 |
雷鋒網(wǎng) AI 開發(fā)者按:美國(guó)時(shí)間 8月4號(hào),數(shù)據(jù)挖掘領(lǐng)域的國(guó)際最高級(jí)別會(huì)議 KDD 2019 在美國(guó)阿拉斯加州的安克雷奇市舉行。自 1995 年以來(lái),KDD 大會(huì)連續(xù)舉辦了二十余屆,每年的論文接收率不超過(guò) 20%,即便如此,來(lái)自我國(guó)的眾多成果依舊獲得了評(píng)委們的青睞。
今年,BOSS 直聘以一篇名為《Interview Choice Reveals Your Preference on the Market: To ImproveJob-Resume Matching through Profiling Memories》的論文成功入選會(huì)議科研類論文單元,今年此單元論文錄取率僅為14%。在這份論文中,BOSS直聘提出針對(duì)求職者與招聘者雙方偏好進(jìn)行建模的新型匹配模型,此模型能有效地提升求職者與招聘者的匹配效率。
為此,我們采訪了本篇論文的作者之一,來(lái)自BOSS直聘NLP中心的宋洋博士,聊了本次論文對(duì)于現(xiàn)實(shí)招聘場(chǎng)景的價(jià)值,以及BOSS直聘在相關(guān)領(lǐng)域的規(guī)劃。
在BOSS直聘NLP中心負(fù)責(zé)人宋洋博士看來(lái),招聘場(chǎng)景里無(wú)論是求職者還是招聘者,在提交了一份簡(jiǎn)歷或職位描述時(shí),都認(rèn)為這已經(jīng)能夠非常清楚表達(dá)自己的實(shí)際需求,然而事實(shí)上,靜態(tài)文本無(wú)法充分表達(dá)你內(nèi)心最深層的需求。
“其一,你寫的東西不一定充分代表你的需求。很多時(shí)候崗位文本表述的信息,與實(shí)際所需求的特征不相匹配?!彼窝蟛┦窟M(jìn)一步補(bǔ)充道,“這也是很多時(shí)候?qū)е缕ヅ湫Ч儾畹脑?,因?yàn)榇蠹覜]有辦法很好的去表達(dá)自己真正想要的東西,所以在這篇論文中,我們加入了動(dòng)態(tài)交互行為的文本偏好信息來(lái)輔助系統(tǒng)進(jìn)行更高效的匹配?!?/p>
目前的當(dāng)務(wù)之急,是要不斷基于靜態(tài)文本、動(dòng)態(tài)行為、以及更多豐富的場(chǎng)景數(shù)據(jù)資源來(lái)收斂雙邊的需求。“我們需要不斷地收斂需求,這是系統(tǒng)匹配變得高效的前提?!彼窝蟛┦咳绱苏f(shuō)道。
用戶過(guò)往的求職招聘行為體現(xiàn)了個(gè)人偏好
在過(guò)去,傳統(tǒng)的雙邊推薦系統(tǒng)主要基于人工構(gòu)建的特征,通過(guò)訓(xùn)練模型來(lái)擬合是否匹配。近幾年隨著深度學(xué)習(xí)的發(fā)展,才開始出現(xiàn)基于深度匹配模型來(lái)學(xué)習(xí)簡(jiǎn)歷文本與職位描述文本是否匹配的工作。
宋洋博士介紹道,BOSS直聘本次的工作相當(dāng)于過(guò)往工作的延伸?!拔覀冋J(rèn)為,求職招聘場(chǎng)景除了簡(jiǎn)歷文本和職業(yè)描述的靜態(tài)文本信息外,還包括雙方曾經(jīng)產(chǎn)生的交互行為——求職者面試過(guò)的崗位,以及相關(guān)崗位過(guò)往面試的候選人?!?/p>
宋洋博士表示,用戶過(guò)往的應(yīng)聘經(jīng)歷體現(xiàn)了個(gè)人偏好,而這些偏好又會(huì)影響用戶后續(xù)的決策,包括點(diǎn)擊或溝通哪些職位、是否促成面試等行為。為此,BOSS直聘團(tuán)隊(duì)提出了一個(gè)全新模型,通過(guò)在職位側(cè)和簡(jiǎn)歷側(cè)兩端分別引入記憶模塊學(xué)習(xí)包含交互行為的文本偏好表示,接著基于記憶模塊迭代職位和簡(jiǎn)歷的文本向量表示,最終通過(guò)一個(gè)多層感知器來(lái)擬合是否匹配。
本文提出的模型由招聘者與求職者雙邊對(duì)稱的表示學(xué)習(xí)網(wǎng)絡(luò),以及匹配網(wǎng)絡(luò)三部分組成。在崗位描述表示學(xué)習(xí)網(wǎng)絡(luò)中,模型利用崗位描述文檔以及該崗位歷史上曾經(jīng)面試過(guò)的求職者的簡(jiǎn)歷文檔,通過(guò)引入記憶模塊來(lái)計(jì)算帶有偏好的崗位向量表示。對(duì)稱地,可以得到帶有偏好信息的簡(jiǎn)歷文檔表示。以上述兩個(gè)文檔表示為輸入,模型利用MLP網(wǎng)絡(luò)計(jì)算匹配分?jǐn)?shù)。優(yōu)化的目標(biāo)是極大化發(fā)生面試的崗位描述與簡(jiǎn)歷文檔之間的得分,極小化不匹配樣本對(duì)之間的得分。
將“用戶歷史交互行為”加入整個(gè)推薦匹配模型是本論文最大的創(chuàng)新點(diǎn),以崗位描述文檔結(jié)合“歷史交互行為”的文本表示為例,主要分為初始化階段和記憶模塊迭代兩個(gè)處理階段:
初始化階段:
模型首先對(duì)崗位描述文檔里的各個(gè)句子,以及該崗位歷史面試過(guò)求職者的簡(jiǎn)歷文檔內(nèi)的各個(gè)句子經(jīng)過(guò)層級(jí)GRU網(wǎng)絡(luò)進(jìn)行編碼,得到各個(gè)帶有上下文信息的句子表示。
同時(shí),模型將崗位文檔各個(gè)句子帶有上下文信息的句子表示作為記憶模塊的初始化。
記憶模塊迭代:
給定一個(gè)崗位描述文檔J按照時(shí)間順序遍歷與該崗位發(fā)生過(guò)面試的簡(jiǎn)歷文檔R,對(duì)記憶模塊M進(jìn)行更新與讀取的迭代:
a)利用J和各個(gè)R對(duì)M進(jìn)行更新(記憶模塊更新)。
b)J從M中讀取偏好信息(記憶模塊讀取)。
最終,團(tuán)隊(duì)基于BOSS直聘真實(shí)場(chǎng)景數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)結(jié)果顯示,該方法優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及其他基于深度文本匹配的方法。
宋洋博士介紹,未來(lái)該論文提出的模型將會(huì)被運(yùn)用到BOSS直聘的線上搜索推薦系統(tǒng)提高推薦匹配效率?!?核心還是在于提高推薦的匹配效率,以節(jié)約招聘者以及求職者的時(shí)間成本。”
與北大合作機(jī)緣
談到本次研究的初衷,宋洋博士表示,近年來(lái),以BAT為代表的國(guó)內(nèi)互聯(lián)網(wǎng)公司頻頻在國(guó)際頂會(huì)上發(fā)表論文 ,在企業(yè)技術(shù)取得進(jìn)步的同時(shí),也為學(xué)術(shù)界做出了相應(yīng)貢獻(xiàn)。他進(jìn)一步表示,求職招聘場(chǎng)景一直以來(lái)都未獲得工業(yè)界與學(xué)術(shù)界的重視,作為國(guó)內(nèi)大型互聯(lián)網(wǎng)招聘公司之一,宋洋博士認(rèn)為BOSS直聘有責(zé)任推進(jìn)該領(lǐng)域的研究工作,以引起更多同行的關(guān)注,共同推動(dòng)招聘行業(yè)的發(fā)展。
為何合作單位選擇了北大?宋洋博士與北大嚴(yán)睿老師曾是同學(xué),兩人在聊天時(shí)會(huì)經(jīng)常聊到雙邊匹配的可能性,所以一拍即合,最終促成本次合作。“過(guò)往學(xué)界在推進(jìn)相關(guān)研究時(shí),更多集中于單邊推薦系統(tǒng),而求職招聘場(chǎng)景是天然雙邊匹配推薦場(chǎng)景,擁有廣泛的文本數(shù)據(jù)資源,如簡(jiǎn)歷/招聘描述、雙方交互行為等?!彼窝蟛┦咳绱苏f(shuō)道。
據(jù)了解,為了更好地推進(jìn)該工作,雙方團(tuán)隊(duì)一起碰撞了四個(gè)多月。最終,將成果投稿于KDD大會(huì),負(fù)責(zé)評(píng)審論文的三位評(píng)委肯定了該工作的創(chuàng)新性。
“BOSS直聘是第一個(gè)提出將靜態(tài)的文本信息與動(dòng)態(tài)的行為交互偏好信息結(jié)合到一個(gè)深度文本匹配框架下,用于解決求職招聘場(chǎng)景的雙邊推薦匹配問題?!彼窝蟛┦垦a(bǔ)充道,“問題的解決思路足夠直觀、實(shí)驗(yàn)部分比較扎實(shí)充分、實(shí)驗(yàn)效果也很好,這些都是加分項(xiàng)?!?/p>
此外,宋洋博士認(rèn)為還有一個(gè)潛在的原因?!坝捎谇舐氄衅改壳吧袑儆谛”姷膯栴}領(lǐng)域,對(duì)于看了特別多電商推薦、圖網(wǎng)絡(luò)方面論文的評(píng)審來(lái)說(shuō),看到雙邊匹配推薦模型應(yīng)用于人力資源行業(yè),讓人眼前一亮?!?/p>
BOSS 直聘 NLP 中心
BOSS直聘NLP中心成立于2017年7月,主要職能是面向BOSS直聘全場(chǎng)景的文本數(shù)據(jù)資源開展基礎(chǔ)算法研究以及應(yīng)用服務(wù)開發(fā)。
根據(jù) AI 開發(fā)者了解,該中心負(fù)責(zé)研究求職期望文本信息與崗位描述文本信息之間的雙邊匹配算法,比如求職期望解析、職位描述的結(jié)構(gòu)化信息提取、雙方交互行為信息挖掘、知識(shí)圖譜、智能客服等等。
宋洋博士表示,除了與NLP相關(guān)的工作外,中心還會(huì)涉及圖像算法以及安全風(fēng)控方面的工作。未來(lái),BOSS直聘NLP中心將繼續(xù)圍繞求職招聘的場(chǎng)景,聚焦于遷移學(xué)習(xí)、異構(gòu)信息網(wǎng)絡(luò)推薦等多個(gè)方向做更深入的探索實(shí)踐。在本次采訪中,宋洋博士也對(duì)這兩個(gè)方向的研究做了詳細(xì)介紹:
遷移學(xué)習(xí)試圖解決的是部分崗位求職者信息不足所導(dǎo)致匹配效率低的問題,通過(guò)將某個(gè)文本信息更加豐富的崗位/行業(yè)場(chǎng)景遷移到文本信息相對(duì)匱乏的崗位/行業(yè)場(chǎng)景,提高雙邊匹配推薦效率。
異構(gòu)信息網(wǎng)絡(luò)推薦是近幾年在推薦算法領(lǐng)域比較前沿的研究方向,所以希望能沿著該方向做一些探索實(shí)踐。
宋洋博士告訴 AI 開發(fā)者,BOSS直聘NLP中心將近40人,目前團(tuán)隊(duì)在NLP算法、圖像算法、安全風(fēng)控算法、知識(shí)圖譜、智能客服、圖數(shù)據(jù)庫(kù)等方面都有招人需求,對(duì)此感興趣的同學(xué),可以密切保持關(guān)注。
在問及有何建議給到年輕的 AI 開發(fā)者們,宋洋博士表示,“盡量多做一些與工業(yè)界實(shí)際業(yè)務(wù)場(chǎng)景相關(guān)的核心問題,才能做出更多具有工業(yè)價(jià)值的貢獻(xiàn)?!?/p>
封面圖來(lái)源:https://www.enago.cn/academy/tips-on-writing-a-resume-for-an-industrial-research-job/
雷鋒網(wǎng) AI 開發(fā)者雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章