丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融數(shù)智化 正文
發(fā)私信給周蕾
發(fā)送

0

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

導(dǎo)語:網(wǎng)頁內(nèi)容越來越多,搜索引擎的出現(xiàn),成為信息爆炸必經(jīng)之路。

近期,虎博科技技術(shù)副總裁譚悅做客雷鋒網(wǎng)AI金融評論公開課,以“如何利用NLP釋放搜索框潛能,提升金融業(yè)客戶服務(wù)品質(zhì)”為題,從NLP在金融領(lǐng)域的落地出發(fā),詳細(xì)分析了面向行業(yè)的搜索框需求所在,以及打造搜索框的技術(shù)門檻。

關(guān)注微信公眾號  AI金融評論 ,在公眾號聊天框回復(fù)“聽課”,進(jìn)群可收看本節(jié)課程視頻回放。

以下是譚悅演講全文與精選問答內(nèi)容:

NLP+金融的6大應(yīng)用場景

人工智能這個(gè)概念已經(jīng)火了很長一段時(shí)間,但自然語言處理的應(yīng)用其實(shí)才剛剛開始。

從技術(shù)和應(yīng)用具體劃分,一般來講金融科技分成三層。最底層的基礎(chǔ)設(shè)施,主要就是現(xiàn)在的云計(jì)算平臺,比如阿里云、騰訊云、華為云等,很多大金融機(jī)構(gòu)也開始自建私有云。

大數(shù)據(jù)的技術(shù)越來越成熟,算力、計(jì)算平臺的解決方案通用化,使得大家能夠像一個(gè)組件一樣快速地應(yīng)用到大數(shù)據(jù)。

另外,在芯片層面,包括GPU,和一些專門針對AI進(jìn)行優(yōu)化的芯片,可以把原先很多算法層面的東西通過硬件來加速、實(shí)現(xiàn),大大提高了我們的算力水平。

基于這些基礎(chǔ)設(shè)施之上,又具體衍生出了很多技術(shù),包括像計(jì)算機(jī)視覺、生物識別、語音識別、語音合成,還有自然語言處理、知識圖譜,以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí),它們都層出不窮地開始爆發(fā)出來,還不僅僅是停留在論文層面,而是可以逐漸地真正地落地到實(shí)際的業(yè)務(wù)場景當(dāng)中,發(fā)揮真實(shí)的作用。

在應(yīng)用層的話,有智慧銀行,各種業(yè)務(wù)都可以直接語音來辦理,甚至有些機(jī)器人客服可以幫你完成很多操作;智能保險(xiǎn)在保前、保中、保后都會有各種智能化的一些產(chǎn)品或服務(wù)。虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

智能投顧和投研比較偏向于在投資領(lǐng)域,像券商能夠利用一些歷史大數(shù)據(jù),同時(shí)針對不同用戶對風(fēng)險(xiǎn)、偏好的一些分析,來提供有針對性的投顧和投研產(chǎn)品;智能監(jiān)管在監(jiān)管層面越來越多地開始在應(yīng)用。

AI的技術(shù)是有生命周期的,從剛剛研發(fā)出來,可能是理論層面或?qū)W術(shù)界討論很多,當(dāng)它真正有技術(shù)、有推出、可以落地后,會逐漸在某一個(gè)階段開始有一個(gè)爆發(fā)性的增長,再進(jìn)入一個(gè)成熟期,逐漸地這個(gè)技術(shù)再進(jìn)行衰退。

人工智能技術(shù)從整體上來講,這個(gè)技術(shù)的生命周期有過三波,我們現(xiàn)在已經(jīng)是在第三波的生命周期當(dāng)中了,我們現(xiàn)在所說人工智能是基于最新的大數(shù)據(jù)、云平臺和深度學(xué)習(xí)等各種各樣的技術(shù)整合出的新一代的人工智能技術(shù)。具體的各項(xiàng)技術(shù)所處的生命周期階段也不一樣。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

最近一段時(shí)間大家可能感受到比較多的還是在計(jì)算機(jī)視覺、語音識別、語音合成方面的應(yīng)用,基本上你在銀行上辦一個(gè)業(yè)務(wù),給你人臉識別一下,身份校驗(yàn),這都是很常見的。

還有語音的識別可以直接地語音發(fā)問題,甚至有的時(shí)候有一些業(yè)務(wù)員打電話你跟他聊兩句發(fā)現(xiàn)這原來是個(gè)機(jī)器人,一開始都沒有聽出來。這都說明現(xiàn)在這兩種技術(shù),其實(shí)相對是已經(jīng)在一個(gè)從初級到成熟的過程當(dāng)中,也就是在高速增長,這部分也催生了非常多的AI的一些獨(dú)角獸公司。

虎博科技現(xiàn)在主要聚焦在NLP,即自然語言處理,有一些項(xiàng)目的落地,并還在不斷地摸索和創(chuàng)新,尋找比較成熟的能夠真正推進(jìn)業(yè)務(wù)的一些使用場景。

我們現(xiàn)在能夠看到的在金融領(lǐng)域一些最常見的應(yīng)用場景,總結(jié)下來大概是這么幾項(xiàng):

首先,智能搜索。這種企業(yè)級的垂直類搜索,不再僅僅是網(wǎng)頁、新聞,而可以是很多垂直的深度信息,比如說證券、研究報(bào)告、大宗商品、理財(cái)產(chǎn)品等等各種行業(yè)的垂直的信息搜索。

第二,智能營銷?,F(xiàn)在很多產(chǎn)品在推薦時(shí)都進(jìn)行了深度的用戶畫像分析,知道你是什么樣的風(fēng)險(xiǎn)傾向、偏好、消費(fèi)能力、家庭情況等等,這樣銷售推薦的商品就非常定制化。

比如說你剛工作,可能就會給你推薦保險(xiǎn)類;等到你工作小有基礎(chǔ),就開始推薦理財(cái)產(chǎn)品,看儲蓄是不是可以得到更多的收益;等到它預(yù)測你應(yīng)該要結(jié)婚、生小孩了,就開始推薦兒童保險(xiǎn),或是給孩子未來的儲蓄等等——很多時(shí)候你接到這樣的信息,就已經(jīng)是被精準(zhǔn)定向到了一個(gè)范圍內(nèi)。

第三,智能輿情?,F(xiàn)在很多的信息和事件,都是從網(wǎng)絡(luò)上先爆發(fā)起來的。如何通過全網(wǎng)的信息,不僅是傳統(tǒng)媒體,還有自媒體,快速識別和預(yù)測潛在風(fēng)險(xiǎn),風(fēng)險(xiǎn)可能是跟個(gè)人關(guān)聯(lián)、企業(yè)、產(chǎn)品相關(guān)聯(lián)。

有了這些輿情的信息以后,金融機(jī)構(gòu)做智能風(fēng)控,就可以把信息用于一些風(fēng)控和預(yù)警的場景,比如說銀行的貸款客戶,或者是供應(yīng)鏈上下游關(guān)系,比如簽訂合同前需要知道公司前景。

當(dāng)然現(xiàn)在一些企業(yè)征信數(shù)據(jù)可以查到,但更難的地方在于怎么樣通過一些線索來預(yù)測——不僅是感知,而且能夠預(yù)測潛在要爆發(fā)風(fēng)險(xiǎn)的可能。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

前面說到的兩個(gè)應(yīng)用偏向于如何控制風(fēng)險(xiǎn),接下來說到的應(yīng)用偏向于如何提升我們的服務(wù)質(zhì)量。

現(xiàn)在像C端用戶用得比較多的頭條、抖音,其實(shí)很多信息原先也在那里,但能夠根據(jù)用戶偏好做定制。

這種通過機(jī)器深度加工之后的服務(wù),給人的感覺會跟原先的不一樣。比如去銀行開卡,可能需要取號排隊(duì),現(xiàn)在機(jī)器上身份證輸入,人臉識別掃一下,人工摁個(gè)指紋,整個(gè)流程就辦完了。不僅在銀行,包括政府,越來越多的流程都在應(yīng)用這些智能服務(wù),簡化流程,提高效率。

公司智能運(yùn)營方面,以前可能是大家開會探討運(yùn)營和推廣,現(xiàn)在很多運(yùn)營都是數(shù)據(jù)來推動(dòng)的,比如說文檔審閱、機(jī)器翻譯、信息抽取、市場熱點(diǎn)的判斷等等。只有通過這種全網(wǎng)的信息不斷地反饋,監(jiān)控現(xiàn)在的市場熱點(diǎn),才能更好調(diào)整運(yùn)營的步驟,人力也可以減少。

比如車險(xiǎn)出保,以前要有專門的審核員,現(xiàn)在手機(jī)拍一下車輛就知道這個(gè)情況能不能出保,流程就自動(dòng)進(jìn)行下去了,這就大大減輕運(yùn)營的成本。 

智能搜索的價(jià)值釋放

大家在移動(dòng)端產(chǎn)品上獲取信息或者接受服務(wù)時(shí),主要有三種路徑。從銀行、券商APP或者是美團(tuán)、支付寶等APP上都能夠看到,幾種交互方式是并存的,在不同的場景下發(fā)揮自己擅長的作用。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

首先是卡片式,或者九宮格的門戶,它有很多功能羅列出來,這種一般都是比較大的板塊,可以在首頁提供各種各樣的服務(wù)。

但幾十個(gè)圖標(biāo)在上面,不好找?,F(xiàn)在的改進(jìn)方式是,可以對菜單進(jìn)行個(gè)性化的定制,這比單獨(dú)列出來會好一點(diǎn),但肯定還不夠。

用戶看完菜單,可能需要進(jìn)去做事情或者找點(diǎn)信息,那么第二種方式就來了——它是一種類似于智能客服的方式,比如現(xiàn)在一些移動(dòng)運(yùn)營商的APP,可以通過客服對話的方式來獲取一些服務(wù),也許是人工直接對接,也許一些常提的問題可以通過機(jī)器的服務(wù)解決。

最后還有一種方式,當(dāng)你想要的服務(wù)、你的問題開放性更強(qiáng),也可以通過搜索框來提出你感興趣的問題,直接在搜索框里面搜索。

這搜的可能就不僅是一個(gè)內(nèi)容、一條新聞,還可能是某個(gè)產(chǎn)品、某個(gè)功能,你想做的一件事情等等,這都可以通過搜索框來統(tǒng)一觸達(dá)。

總結(jié)來說,卡片式門戶只能是最基礎(chǔ)的大類功能,如果把所有小類放上去,最后就變成大迷宮,找不到自己想要的東西是什么。但它能列的基礎(chǔ)功能又很有限,很難承接現(xiàn)在越來越豐富的服務(wù)和產(chǎn)品。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

這有點(diǎn)像是互聯(lián)網(wǎng)爆發(fā)時(shí)期,一開始可能是通過產(chǎn)品黃頁或者門戶網(wǎng)站就解決問題了。

但隨著網(wǎng)頁內(nèi)容越來越多,這時(shí)候谷歌、百度這樣的搜索引擎就開始出現(xiàn)了,這是信息爆炸必經(jīng)的一個(gè)路徑。

智能客服,已經(jīng)有一些智能化的人機(jī)交互,基本上是多輪的問答方式,一個(gè)問題過去以后得到的信息是相對比較明確也有限的,不可能一下子把很多信息都給到用戶。

這里更常見的是相對簡單的操作,可以在一輪或幾輪對話之后就完成的工作。比如你只是想把手機(jī)流量套餐改一下,插敘出行路線是否符合國家疫情防控的需要。但如果你是想寫行業(yè)研究報(bào)告,那這種對話式的搜索結(jié)果其實(shí)解決不了問題。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

最后就是搜索框,它的好處就是只有一個(gè)單一的入口,非常簡單,基本上用過搜索引擎的人都知道它是做什么的,是一種下意識的選擇,有什么問題就提。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

它能夠呈現(xiàn)的答案也非常豐富,可能是一個(gè)搜索列表,也可能是直接給你轉(zhuǎn)跳到某一個(gè)業(yè)務(wù)辦理的地方,或把各種內(nèi)容通過多類卡片的融合來展現(xiàn),這個(gè)取決于應(yīng)用提供的內(nèi)容本身。

整體來講,搜索框的優(yōu)勢還是比較明顯:它可以提高用戶的使用體驗(yàn),把很多隱藏比較深的功能觸達(dá)到用戶。

大家如果經(jīng)常用電商產(chǎn)品,就會發(fā)現(xiàn)它不僅僅是個(gè)搜索框,它會不斷地推薦出熱門內(nèi)容和你可能會感興趣的內(nèi)容,已經(jīng)變成了人機(jī)或人和產(chǎn)品之間交互的一個(gè)小窗口。這也是一種可以用于營銷、觸達(dá)用戶、推薦產(chǎn)品和優(yōu)質(zhì)內(nèi)容的入口。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

不過搜索框其實(shí)也有一定的技術(shù)門檻。用戶提問五花八門,同一個(gè)事情有十幾種講法,甚至可能用不同的語言來問,怎么真正理解用戶的意圖、關(guān)聯(lián)到最相關(guān)的內(nèi)容上?

智能搜索背后需要哪些技術(shù)支持?

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

具體有哪些技術(shù),是在面向行業(yè)的搜索產(chǎn)品需要用到的?

在談技術(shù)門檻之前,先說說行業(yè)垂直搜索,和像百度、谷歌這樣的網(wǎng)頁搜索,或通用搜索引擎,它的差別在哪里?

大家經(jīng)常用的話,可以感覺到,像百度、谷歌基本上能搜到的內(nèi)容,像網(wǎng)頁、知道、貼吧、地圖、圖片等等,基本上是相對比較通用的圖片、文字及地理信息檢索的一個(gè)入口。

但要在金融,或是其他一些行業(yè)垂直領(lǐng)域,它要搜的東西其實(shí)是非常專業(yè)的。

舉個(gè)例子,比如說最近疫情,有些上市公司現(xiàn)在開始調(diào)整經(jīng)營策略,開始來生產(chǎn)防疫設(shè)備,比如口罩、呼吸機(jī)。你想知道,最近一段時(shí)間在生產(chǎn)口罩的公司,或者開始轉(zhuǎn)型做醫(yī)療設(shè)備的公司有哪些。

當(dāng)你提問,比如問的是“醫(yī)療設(shè)備”,那么要搜的內(nèi)容就不能僅僅是醫(yī)療設(shè)備這四個(gè)字,而是要能夠理解醫(yī)療設(shè)備這個(gè)概念背后所代表的產(chǎn)業(yè)鏈。這是一個(gè)實(shí)體,它對應(yīng)的關(guān)系和關(guān)聯(lián)到的其他實(shí)體有哪些。

口罩也好,呼吸機(jī)也好,這些內(nèi)容如果只是單純地通過關(guān)聯(lián)次層面,你是無法感知到的。

所以底層需要一個(gè)針對特定領(lǐng)域的、比較專業(yè)的語義模型和知識圖譜來支撐,才能在用戶有類似提問時(shí),一瞬間理解到醫(yī)療防疫設(shè)備代表哪些內(nèi)容,同時(shí)又有哪些公司和這些內(nèi)容相關(guān)聯(lián)。

但這些信息,其實(shí)是出現(xiàn)在很多相對專業(yè)的內(nèi)容里面,比如公司公告、行業(yè)研究報(bào)告,或者是一些招投標(biāo)的信息。

這些數(shù)據(jù)本身是深埋在很多深度的文檔里的,它可能是一個(gè)PDF文件,也可能是一個(gè)Excel表格,也可能是一個(gè)網(wǎng)頁的公告,這些東西如果沒有全盤整合、做數(shù)據(jù)或者知識的深度挖掘和提取,是很難直接匹配到的。

這個(gè)過程需要有一些技術(shù)。

虎博科技技術(shù)副總裁譚悅:為什么你需要一個(gè)金融版「谷歌」?

首先,數(shù)據(jù)方面,從傳統(tǒng)的金融數(shù)據(jù)到一些非結(jié)構(gòu)化的文檔,甚至還有另類數(shù)據(jù)全盤的覆蓋,深度理解這些信息,把不同格式、不同類型的內(nèi)容里涉及到的關(guān)鍵實(shí)體、主題、知識提取出來。

提取出來之后能夠通過一些大數(shù)據(jù)、NLP的方法形成信息數(shù)據(jù)中臺,還要保證時(shí)效性。

同時(shí),各種類型的內(nèi)容要通過綜合化的排序整合,這個(gè)也是虎博搜索一直在做的、在深度優(yōu)化的工作。

第一步,就是底層的文檔的加工,從文檔的格式轉(zhuǎn)化、知識圖譜的挖掘、語義模型的訓(xùn)練到知識條目的整理,因?yàn)閿?shù)據(jù)量很大,從工程角度來講也會優(yōu)化索引數(shù)據(jù)的一個(gè)構(gòu)建,這些步驟基本上是缺一不可的。

  • 用戶口語化搜索意圖理解

整理清楚數(shù)據(jù)之后,第二步就是怎么更好理解用戶的提問意圖。

有時(shí)候用戶想要的是一個(gè)具體的實(shí)體,有些時(shí)候是想要你幫他做一件事情,有些時(shí)候是一些條件的篩選。

為了讓搜索引擎更加智能,更像是獨(dú)家顧問的角色,就需要去理解很多用戶的問題當(dāng)中所涉及到的實(shí)體、含義,或者是一些指標(biāo)或條件的篩選,并且把它轉(zhuǎn)化成底層搜索引擎能理解的條件,最終從知識庫里面把海量的信息能夠召回,再整合,并進(jìn)行重現(xiàn)。

  • 文檔信息深度提取

這當(dāng)中涉及到的核心技術(shù),剛才也陸續(xù)提到了一些,比如說PDF文檔的深度提取,比較完美的還原,表格、文字、圖片,甚至是目錄結(jié)構(gòu)、核心觀點(diǎn),都從這種非結(jié)構(gòu)化的報(bào)告、文檔中提取出來,其實(shí)這就是把非結(jié)構(gòu)化文檔變成類似于半結(jié)構(gòu)化的知識,這樣才能在后續(xù)里更好分析和檢索。

  • 金融NLP語義模型

我們針對金融領(lǐng)域,也做了比較多的預(yù)訓(xùn)練模型。如果所有的模型都等到用的時(shí)候,再去訓(xùn)練或迭代,它本身更新的時(shí)效性肯定沒有辦法達(dá)到要求。

所以我們針對金融領(lǐng)域這些海量語料,包含數(shù)百億字的內(nèi)容,進(jìn)行深入的訓(xùn)練,得到了專門針對中文的金融領(lǐng)域的語義模型,包括詞向量及現(xiàn)在比較主流的BERT等等,這樣再應(yīng)用到算法層就會非???。

  • 實(shí)體關(guān)系識別/抽取

從非結(jié)構(gòu)文檔中提取知識,比如從新聞中通過模型自動(dòng)預(yù)測或識別實(shí)體、人名、關(guān)系、數(shù)字、指標(biāo)等等信息,這些信息后續(xù)是可以通過半自動(dòng)的方式,自動(dòng)構(gòu)建出一些知識圖譜。

以前這種知識圖譜的構(gòu)建還是偏向于專家的系統(tǒng),然后通過專家意見來構(gòu)建,這種方式對預(yù)先知道的知識依賴非常大,人力投入也相當(dāng)巨大,可以借助自動(dòng)化的方式大大縮短這個(gè)過程。

  • 智能語義標(biāo)簽

我們也在研發(fā)一些標(biāo)簽的體系。標(biāo)簽最大的好處就是,可以把語義相關(guān)的概念抽象出來。

比如剛才提到的醫(yī)療設(shè)備,就是一個(gè)非常典型的概念標(biāo)簽、行業(yè)標(biāo)簽,還有最近比較熱門的原油,這是一個(gè)相對短期的事件,但也可以成為一個(gè)熱門的標(biāo)簽。

  • 情感/風(fēng)險(xiǎn)分析

很多內(nèi)容大家表述的時(shí)候,都是帶著自己的情感的。比如說瑞幸咖啡的財(cái)務(wù)造假,大部分可能是負(fù)面的;但換成其他事情,可能是中性的,或正面的。

如何來評價(jià)大家對信息的情感?

首先,你的情感正負(fù)面是如何來去衡量?當(dāng)這類事情發(fā)生,一般資本市場的反應(yīng),一個(gè)人看到這種信息以后的第一反應(yīng)是什么,這需要通過大量的歷史數(shù)據(jù)來訓(xùn)練。

這樣,當(dāng)同類的事情再發(fā)生,就會首先有一個(gè)基本的判斷。

當(dāng)然這個(gè)基本的判斷,不一定跟市場的資產(chǎn)的股價(jià)、走勢完全一致,但會提供非常好的信號,幫助投資者或者信息檢索的用戶做初步的判斷。

  • 用戶畫像與個(gè)性化推薦

最后一個(gè)核心的技術(shù):很多情況下用戶不一定知道自己想要搜什么。這個(gè)時(shí)候,搜索技術(shù)和個(gè)性化推薦的是要相互結(jié)合的。

一方面是,用戶可能之前已經(jīng)搜過、看過一些內(nèi)容;另一方面,當(dāng)有同類型的信息出現(xiàn),我們又可以第一時(shí)間地去把這信息推薦出來。

這里運(yùn)用到很多基于內(nèi)容的、協(xié)同過濾的算法,還有現(xiàn)在深度學(xué)習(xí)也有一些推薦的模型,可以用到這里面來。

最關(guān)鍵兩個(gè)信息,其實(shí)還是要把內(nèi)容、產(chǎn)品的特征庫,和用戶畫像的畫像庫先構(gòu)建起來,然后通過各種方式去做匹配。

為用戶推薦到比較好的內(nèi)容以后,就會源源不斷地有更多的瀏覽,甚至是產(chǎn)生更多的搜索行為,這就形成一個(gè)正向的循環(huán),不斷地增加用戶的黏性。

總體來說,虎博科技現(xiàn)在整體的產(chǎn)品和解決方案是分為五大類的,包括剛才提到的垂直搜索引擎、NLP算法中臺、個(gè)性化的推薦引擎、智能問答機(jī)器人、面向企業(yè)的輿情監(jiān)控的系統(tǒng)。

自研的技術(shù)和系統(tǒng),使得我們有非常靈活的、可以優(yōu)化和定制的空間。比如說券商或者股債基領(lǐng)域,當(dāng)大宗商品行業(yè)有需求,就可以快速迭代,適配新場景。也會針對某個(gè)特定行業(yè),一些具體應(yīng)用場景怎么落地算法,做非常多的優(yōu)化。

真正推動(dòng)我們社會不斷進(jìn)步、不斷進(jìn)展的不僅僅是互聯(lián)網(wǎng)公司,還有很多傳統(tǒng)行業(yè)的公司,他們也需要智能化的升級和改造,這些技術(shù)其實(shí)能夠用在各行各業(yè)里面讓它才發(fā)揮更大的價(jià)值。

另外,我們致力于深入深度挖掘各領(lǐng)域應(yīng)用場景,滿足客戶及用戶的多元實(shí)際需求,讓技術(shù)實(shí)地賦能商業(yè)。最后,基于我們的技術(shù)壁壘和對大數(shù)據(jù)的洞察,可以融合多項(xiàng)核心優(yōu)勢進(jìn)行場景應(yīng)用融合式創(chuàng)新,帶來顛覆傳統(tǒng)的信息獲取方式和方法。

互動(dòng)環(huán)節(jié)精選

問題1:對于企業(yè)級用戶來說,智能搜索能夠解決什么痛點(diǎn)?

譚悅總結(jié)一句話。數(shù)據(jù)密集型企業(yè)和政務(wù)機(jī)構(gòu)都需要智能搜索。

首先要知道是什么企業(yè),所處在什么行業(yè),不同的公司痛點(diǎn)肯定是不一樣的。對自然語言處理來說,什么樣的公司會有比較大的痛點(diǎn)呢?

首先它應(yīng)該有比較多的文字類的信息(這些信息最好是線上化的,如果非線上化的話,我們也可以逐漸地把它變成線上化,但這就需要一個(gè)預(yù)處理過程),并且需要有大量的一些人工來處理這些信息。

原先處理這些信息或者獲取這些信息的效率是比較低的,當(dāng)效率提升以后能創(chuàng)造出極大的收益。比如金融機(jī)構(gòu)中投資、投研就是非常典型的。

問題2:智能搜索里如何運(yùn)用知識圖譜?

譚悅:智能搜索里我們其實(shí)主要用了兩類不同的技術(shù),一個(gè)語義模型,一個(gè)知識圖譜,兩者相互配合。

知識圖譜其實(shí)出現(xiàn)得非常早,很早的時(shí)候包括從谷歌大腦、百度知心,希望把世界上主要的知識都通過一個(gè)圖譜歸納,這個(gè)理想實(shí)現(xiàn)也是有很多困難。

這個(gè)世界上面的知識其實(shí)是非常龐雜的,熱門的大家都知道的有很多,但是有很多其實(shí)都隱藏的很深或者需要一些特別精通熟悉某個(gè)領(lǐng)域的人士才會知道了解。所以要把開放域全部知識放在圖譜里面是很難的。

但是一些特定領(lǐng)域的知識圖譜是可以去構(gòu)建的,比如說基于公司行業(yè)概念,基于供應(yīng)鏈上下游,基于一些人物和實(shí)體關(guān)系的這些圖譜,現(xiàn)在我們無時(shí)無刻都在用到。

我們通過一些語義模型,從海量數(shù)據(jù)的統(tǒng)計(jì)意義上來構(gòu)建對這個(gè)世界的認(rèn)知。當(dāng)知識圖譜能夠明確關(guān)聯(lián)的時(shí)候最好,如果沒有,那么通過語義模型來進(jìn)入一個(gè)概率上面的關(guān)聯(lián),甚至可以用這些概率上的關(guān)聯(lián)來幫助逐漸地構(gòu)建和拓展知識圖譜,所以這二者之間就可以相互配合。

具體來講,一般會在什么領(lǐng)域用到呢?比如,底層的信息挖掘、用戶的理解、召回、排序,甚至做一些推演和比較的時(shí)候,都可以用到這樣的技術(shù)。

問題3:虎博搜索的智能搜索方案目前已經(jīng)輸出了嗎,在哪些機(jī)構(gòu)用了,效果怎么樣?

譚悅:我們第一個(gè)切入的場景是金融,已經(jīng)向很多知名機(jī)構(gòu)輸出了我們的智能搜索方案并達(dá)成合作。例如,我們已經(jīng)與50%的國內(nèi)頭部券商達(dá)成合作,目前也開始覆蓋到了大宗商品、交易商、保險(xiǎn)、基金、代銷、銀行等客戶。除此之外,我們正在向更多的領(lǐng)域擴(kuò)展,比如政務(wù)、大數(shù)據(jù)中心、媒體、醫(yī)藥等。

整體來看,項(xiàng)目在實(shí)施的時(shí)候并不是一次性地全部做完的,會根據(jù)不同的場景需求,分階段進(jìn)行。公司從去年初開始商業(yè)化,目前我們很多客戶都已經(jīng)進(jìn)入到二期、三期的階段了。

問題4:智能搜索的思路和做智能營銷的思路是不是差不多?

譚悅:用戶產(chǎn)品和商業(yè)產(chǎn)品是兩條非常不一樣的思路,對于用戶產(chǎn)品也就是我們說的智能搜索來講,最關(guān)鍵的優(yōu)化目標(biāo),能不能夠比較準(zhǔn)確、快速、全面的找到用戶感興趣的信息。

所以它的評價(jià)指標(biāo)是準(zhǔn)確率、召回率、用戶點(diǎn)擊率、停留時(shí)間等等,當(dāng)然如果有一些顯式反饋的機(jī)制,如打叉關(guān)閉的這種機(jī)制的話當(dāng)然也可以。

對于智能營銷來講,它其實(shí)跟廣告就很像了,它最終考慮的是一個(gè)商業(yè)收益,也就是轉(zhuǎn)化率,你點(diǎn)得再多,最后沒人買單那是不行的?;蛘哒f買了單,但是你的投入產(chǎn)出比不行,那么營銷策略就是有問題的。

所以在這個(gè)過程當(dāng)中,底層算法是有一些類似,但最終要優(yōu)化的目標(biāo)不一樣,就決定了在這個(gè)產(chǎn)品當(dāng)中運(yùn)用算法的方式和優(yōu)化算法的目標(biāo)有所不同。

問題5:訓(xùn)練算法要怎么解決和客戶合作的數(shù)據(jù)安全問題,尤其是金融行業(yè)?

譚悅:第一,我們提供私有化部署和定制化開發(fā)的空間。

第二,為了能讓上述過程更高效,我們把很多功能變成工具化的,把很多算法變成有預(yù)訓(xùn)練的,這樣可以用于金融機(jī)構(gòu)的內(nèi)部,對接到機(jī)構(gòu)自己的數(shù)據(jù)中,在機(jī)構(gòu)自己的系統(tǒng)里進(jìn)行更新,快速地適配到那個(gè)環(huán)境里面去。

問題6:自然語言處理項(xiàng)目落地是公有云還是私有化多,如果是私有化的話應(yīng)該怎么去迭代模型?

譚悅:如果是從全行業(yè)來講,其實(shí)公有云和私有化都有,具體到金融行業(yè),私有化比較多。公有云現(xiàn)在處在一個(gè)被逐漸理解和接受的過程當(dāng)中。一方面因?yàn)閿?shù)據(jù)安全性,另外一方面某些核心業(yè)務(wù)從法律法規(guī)的要求上來講也需要私有化。

但如果是私有化,怎么去迭代模型?我們模型的迭代,已經(jīng)不一定非要通過公有云的方式才能夠提供,我們有自動(dòng)化的迭代模型工具,可以理解為只要有源源不斷地把數(shù)據(jù),我們經(jīng)過工具化的調(diào)參、優(yōu)化就可以有一個(gè)模型更新出來。

如果原來已經(jīng)有的一些技術(shù),我們可以先做完全的重構(gòu)以后,再到金融機(jī)構(gòu)內(nèi)部來進(jìn)行測試和重新部署。

問題7:自然語言處理在風(fēng)控領(lǐng)域的落地場景有哪些?

譚悅:傳統(tǒng)的銀行業(yè)務(wù)里有自己的風(fēng)控模型的定義,主要是基于資金、交易、用戶或者企業(yè)賬戶的信息。自然語言處理是新涌現(xiàn)出的,用于輔助風(fēng)控的技術(shù)。

現(xiàn)在很多風(fēng)險(xiǎn)的來源并不是來自于欠款沒還,或者消費(fèi)陡增,亦或是有訴訟官司,更多的是來自于全網(wǎng)的另類數(shù)據(jù),比如說企業(yè)的涉訴信息、自媒體評論等,甚至很多數(shù)據(jù)可能出現(xiàn)在微博、知乎、公眾號、貼吧甚至是天貓商品評論里面。

利用自然語言處理技術(shù)可以對這些數(shù)據(jù)進(jìn)行全面、系統(tǒng)的分析,以提前預(yù)判潛在風(fēng)險(xiǎn),升級風(fēng)控等級,這就是一個(gè)典型的應(yīng)用場景。

欲獲得譚悅的課件,請?jiān)诠娞柡笈_回復(fù)「譚悅」以獲取下載鏈接。

封面圖片來源:電影《華盛頓郵報(bào)》

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

云計(jì)算/To B/金融科技丨微信:LorraineSummer
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說