0
本文作者: AI研習社-譯站 | 2020-12-04 11:41 |
譯者:AI研習社(Icarus、)
雙語原文鏈接:The State of Enterprise NLP in 2020
2020年對于公共衛(wèi)生、職業(yè)生活、經(jīng)濟以及日常生活的幾乎所有其他方面來說,都是獨一無二的一年。雖然一些機會正在消失,另一些則正在轉(zhuǎn)變其商業(yè)模式,罕見沒有受到?jīng)_擊的企業(yè)。盡管如此,還是有一些行業(yè)正在蓬勃發(fā)展,不僅僅是虛擬會議或醫(yī)療保健。
自然語言處理(NLP)就是其中一個領(lǐng)域。事實上,根據(jù)MarketsandMarkets?的研究,NLP市場規(guī)模預計將從2019年的102億美元增長到2024年的264億美元。使用用例在醫(yī)療保健環(huán)境中幫助患者和從業(yè)者,簡化客戶服務查詢,甚至虛擬幫助購物者,有幾個增長因素推動了NLP技術(shù)的增長。無論你是新手還是有經(jīng)驗的數(shù)據(jù)科學家,NLP都能幫助用戶更快、更聰明、更準確地工作。
要想了解NLP在未來幾年的發(fā)展狀況,我們首先需要了解NLP現(xiàn)在的狀況——從挑戰(zhàn)、成功、最普遍的使用案例等方面。為此,John Snow實驗室與Gradient Flow合作,最近發(fā)布了新的研究報告,探討了NLP在不同行業(yè)、不同地域、不同應用水平的使用情況。知識就是力量,這項調(diào)查的目標是通過了解組織如何使用NLP技術(shù),幫助IT領(lǐng)導者實現(xiàn)NLP的全部潛力。
這項全球調(diào)查詢問了來自50多個國家的近600名受訪者,全面了解了2020年NLP的采用和實施狀況。下面的關(guān)鍵調(diào)查結(jié)果將有助于為行業(yè)樹立一個基準,并預測我們在未來一年內(nèi)NLP的發(fā)展方向。
NLP支出正在上升:盡管今年IT支出不景氣,但有趣的是,NLP預算全面增加,報告的NLP技術(shù)預算比去年增加了10-30%??紤]到該調(diào)查是在全球COVID-19大流行的高峰期進行的,而當時全球的IT支出都在下降,這一點尤其重要(Gartner)。53%的受訪者是技術(shù)領(lǐng)導者,他們表示他們的NLP預算與2019年相比至少增加了10%,其中31%的受訪者表示他們的預算比前一年至少增加了30%。同樣的趨勢也適用于大公司(員工人數(shù)超過5000人的公司),其中61%的受訪者表示2020年的預算會增加。
云計算的使用帶來了挑戰(zhàn)。77%的受訪者表示,他們至少使用列出的四種NLP云服務中的一種——谷歌、AWS、Azure或IBM。盡管基于云的服務很受歡迎,但受訪者認為成本是他們在使用NLP云服務時面臨的主要挑戰(zhàn)。此外,人們還擔心可擴展性,因為許多NLP應用依賴于特定領(lǐng)域的語言使用,而云提供商在服務這些市場需求方面進展緩慢。盡管如此,53%的受訪者表示至少使用了兩大NLP庫中的一個,即Spark NLP和spaCy,這是一個更準確和更具成本效益的選擇,做出這個選擇這并不奇怪。
準確性很重要,也很有挑戰(zhàn)性。超過40%的受訪者指出,準確性是他們評估NLP庫的最重要標準??紤]到NLP在關(guān)鍵應用中的使用,如電子健康記錄或在醫(yī)療環(huán)境中檢測不良藥物事件,這一點尤為重要。另一方面,準確性也是所有受訪者最常提到的挑戰(zhàn)。然而,當觀察技術(shù)領(lǐng)導者時,這種情況略有改變。集成問題、語言支持和可擴展性與準確性并列成為緊迫的挑戰(zhàn)。幸運的是,語言支持等領(lǐng)域正在大幅改善。谷歌和Facebook等公司正在發(fā)布150多種語言的預訓練嵌入。而NLP庫也在跟進。
分類和NER是主要用例。NLP最受歡迎的四個應用是文檔分類、命名實體識別(NER)、情感分析和知識圖譜。來自醫(yī)療保健領(lǐng)域的受訪者認為,去識別是另一個常見的NLP用例。自動化的NLP曾經(jīng)是一個極其人工和勞動密集型的過程,現(xiàn)在已經(jīng)使這一負擔大大減輕。NER和分類是醫(yī)療機構(gòu)看到巨大價值的另外兩個NLP用例。例如,這些應用可以幫助醫(yī)療專業(yè)人員快速、準確地識別患者的藥物不良事件(ADE),改善醫(yī)療服務,減輕醫(yī)療系統(tǒng)的負擔和成本。
數(shù)據(jù)來源。來自文件(如pdf、txt、docx等)和數(shù)據(jù)庫的數(shù)據(jù)在NLP項目中使用的數(shù)據(jù)來源中名列前茅(61%)。從法律合同和新聞文章,到醫(yī)療記錄和SEC文件,這些輸入文件通常以PDF格式存儲。雖然深度學習模型在過去幾年中有所改進,但在從PDF中提取文本時,有許多困難和數(shù)據(jù)質(zhì)量問題。有趣的是,仍在探索NLP的公司與那些在采用曲線上走得更遠的公司在數(shù)據(jù)源上存在一些差異。處于探索階段的受訪者報告使用音頻數(shù)據(jù)的比例(29% )高于那些更進一步的受訪者(22%)。
根據(jù)NLP在過去一年中的增長軌跡,其勢頭很明顯將持續(xù)到2021年。隨著時間的推移和即將到來的技術(shù)增強,采用和使用案例如何發(fā)展將是有趣的。NLP有能力改變我們的工作方式,給予和接受醫(yī)療護理,購物,以及與客戶服務的接口。雖然其中一些案例可能比其他案例更具影響力,但它們都將塑造我們更好的工作和生活方式。
AI研習社是AI學術(shù)青年和AI開發(fā)者技術(shù)交流的在線社區(qū)。我們與高校、學術(shù)機構(gòu)和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務,為AI學術(shù)青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。