0
雷鋒網(wǎng) AI 科技評(píng)論消息,7 月 3 日,一年一度的百度 Create 2019 AI 開發(fā)者大會(huì)如期而至,在上午展示了百度音箱的系列更新、發(fā)布鴻鵠芯片、宣布自動(dòng)駕駛方面的多項(xiàng)合作之后,下午的百度大腦論壇重磅開幕。
作為首位出場嘉賓,百度 CTO 王海峰博士表示,在上午,大家看到了百度 AI 技術(shù)在各行各業(yè)的應(yīng)用,如小度音響、自動(dòng)駕駛,這些都承載在全新升級(jí)的百度大腦 5.0 上,上午只是管中窺豹,不足以看到所有技術(shù)進(jìn)展。這場論壇將從算力到平臺(tái)再到生態(tài),為在場觀眾帶來百度大腦的更詳細(xì)解讀。
隨后,百度飛槳(PaddlePaddle)、百度 AutoDL、百度機(jī)器人技術(shù)、百度語音、百度地圖、百度智能視覺交互、百度大數(shù)據(jù)技術(shù)等諸多團(tuán)隊(duì)負(fù)責(zé)人一一上場,為在場觀眾帶來了一場全面的技術(shù)盛宴。
百度飛槳最新進(jìn)展及其應(yīng)用
作為百度極力推薦的深度學(xué)習(xí)平臺(tái),飛槳自然是此次論壇的重點(diǎn)。百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍詳細(xì)介紹了飛槳在圖像搜索、目標(biāo)檢測、工業(yè)質(zhì)檢方面的三大進(jìn)展。隨后,他又一次談到飛槳的五大核心優(yōu)勢:全面支持動(dòng)態(tài)圖&靜態(tài)圖兩種計(jì)算圖,官方支持模型目前已有超過 70 個(gè),支持大規(guī)模分布式訓(xùn)練,提供非常強(qiáng)的端到端部署能力,提供系統(tǒng)化深度學(xué)習(xí)技術(shù)服務(wù)。
馬艷軍博士表示,官方模型覆蓋三大主流任務(wù),PaddleNLP 目前已支持超過 20 種模型,PaddleCV 支持超過 50 種模型,Paddlehub 提供在線部署能力,支持 40+預(yù)訓(xùn)練模型。
他隨后介紹,百度產(chǎn)品系統(tǒng)目前面臨了一系列挑戰(zhàn),諸如數(shù)據(jù)量在萬億級(jí)、訓(xùn)練數(shù)據(jù)量在百億級(jí)等,在這些挑戰(zhàn)下,他們設(shè)置了大規(guī)模參數(shù)服務(wù)器解決方案。在最新發(fā)布的飛槳核心框架 Paddle Fluid v1.5 版本中,也更新了針對分布式訓(xùn)練的 API。
而談到工具的發(fā)展,與開發(fā)者息息相關(guān)的必然是開發(fā)者培訓(xùn),飛槳目前有三大培養(yǎng)體系,黃埔學(xué)院、AI 快車道、PaddleCamp。在最后,他提到 2019 百度之星,這包括百度之星編程賽(基礎(chǔ)算法+AI 對抗賽)與百度之星開發(fā)賽(基于飛槳的目標(biāo)檢測任務(wù)),這一賽事的報(bào)名會(huì)在本月截止,今年十月會(huì)進(jìn)行全國總決賽。
百度發(fā)布行業(yè)知識(shí)圖譜平臺(tái)和智能創(chuàng)作平臺(tái) 2.0
百度 AI 技術(shù)平臺(tái)體系執(zhí)行總監(jiān)吳甜在會(huì)上帶來了百度語言與知識(shí)技術(shù)平臺(tái)的最新進(jìn)展。她表示,自然語言處理、知識(shí)圖譜等技術(shù)都屬于認(rèn)知層面的技術(shù),這些技術(shù)讓機(jī)器學(xué)會(huì)如何運(yùn)用人類的語言和知識(shí),進(jìn)而能夠在此基礎(chǔ)上進(jìn)行思維。隨后,她詳細(xì)介紹了百度最近開源的 ERNIE 模型,該模型不僅在學(xué)術(shù)界的一些任務(wù)上表現(xiàn)出眾,也有非常強(qiáng)大的應(yīng)用能力,在智能問答、CTR 預(yù)估、文本潤色、對話理解等百度產(chǎn)品中表現(xiàn)出色。
作為此次論壇的重點(diǎn),吳甜正式發(fā)布行業(yè)知識(shí)圖譜和智能創(chuàng)作平臺(tái) 2.0。她表示,行業(yè)知識(shí)圖譜平臺(tái)是為了解決行業(yè)在智能化過程中關(guān)于知識(shí)構(gòu)建和知識(shí)應(yīng)用的需求。智能創(chuàng)作平臺(tái)在本質(zhì)上是對信息的重組織和再加工,通過自然語言處理、知識(shí)圖譜等基礎(chǔ)技術(shù),將大量的原始信息進(jìn)行深度語義理解、邏輯分析,形成創(chuàng)作當(dāng)中所需的知識(shí)圖譜和素材庫,可以在創(chuàng)作的成文階段為創(chuàng)作者提供組稿、順稿、潤色等能力。智能創(chuàng)作平臺(tái) 2.0 具備如下三個(gè)新特性:實(shí)時(shí)熱點(diǎn)關(guān)聯(lián)豐富素材、全面的創(chuàng)作輔助能力、領(lǐng)先的多模生成技術(shù)。
大熱的自動(dòng)機(jī)器學(xué)習(xí)
隨著自動(dòng)機(jī)器學(xué)習(xí)的火熱,百度恰逢其時(shí)地帶來了這一技術(shù)的最新分享。
百度大數(shù)據(jù)實(shí)驗(yàn)室主任浣軍表示,自主人工智能有三項(xiàng)關(guān)鍵技術(shù):網(wǎng)絡(luò)結(jié)構(gòu)的自設(shè)計(jì)、學(xué)習(xí)自適應(yīng)、計(jì)算環(huán)境自我適配,AutoDL 1.0 展示了深度學(xué)習(xí)與人類專家相媲美,AutoDL 2.0 展示出深度學(xué)習(xí)已經(jīng)可以超過人類專家,AutoDL 3.0 則從設(shè)計(jì)、遷移、適配三個(gè)方面進(jìn)行了全新升級(jí)。在 AutoDL 設(shè)計(jì)上,百度提出 styleNAS(具有照片真實(shí)感的風(fēng)格遷移神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索),可以大大簡化計(jì)算量,圖像質(zhì)量也得到了進(jìn)一步提升。
他隨后提到自動(dòng)化建模的一些典型應(yīng)用場景,如語義分割、目標(biāo)檢測、圖像分類等,具體應(yīng)用如城市垃圾檢測、把攝像機(jī)布置在水里檢測魚類從而進(jìn)行生態(tài)保護(hù)。除了視覺上的一系列應(yīng)用,他也提到百度自動(dòng)化建模在 NLP 中的應(yīng)用,在中文情感分類任務(wù)中,這一技術(shù)取得了與專家手工調(diào)優(yōu)將近同樣精度的效果,但大大節(jié)省了人工。
百度語音技術(shù)解讀
隨著此次開發(fā)者大會(huì)的召開,我們也看到百度在語音上取得的諸多突破。百度語音技術(shù)部高級(jí)總監(jiān)高亮介紹了百度在語音方面的三大技術(shù)突破,他先是展望了百度從 2012 年至今的語音識(shí)別技術(shù)進(jìn)展,隨著模型的不斷改進(jìn),準(zhǔn)確率越來越高。
他重點(diǎn)談到 SMLTA 流式多級(jí)截?cái)嘧⒁饬δP停@是國際上首次實(shí)現(xiàn)局部注意力建模超越整句注意力模型,也是國際上首次在線語音大規(guī)模使用的注意力模型,不管是在輸入法還是在音箱上,有效產(chǎn)品相對準(zhǔn)確率均能得到較大提升。
隨后,他強(qiáng)調(diào)了 MEITRON 風(fēng)格遷移技術(shù),他們希望音箱在文字以外能傳達(dá)更多信息,但面臨三方面挑戰(zhàn):風(fēng)格遷移、音色模擬、情感擬人,具體來說,諸如能進(jìn)行音色的個(gè)性化設(shè)置,能表達(dá)除文字以外的意思,如高興、傷心等情緒。MEITRON 通過若干語句的空間建模,能輸出音色、韻律、情緒三個(gè)獨(dú)立的網(wǎng)絡(luò)。他表示,該網(wǎng)絡(luò)采用非監(jiān)督訓(xùn)練,不需要海量數(shù)據(jù),能進(jìn)行動(dòng)態(tài)分類。
關(guān)于百度鴻鵠智能語音芯片的技術(shù)細(xì)節(jié),他也在這次論壇上進(jìn)行了詳細(xì)說明。該芯片適合遠(yuǎn)場語音交互場景,支持深度學(xué)習(xí)計(jì)算過程和深度模型加載的高度并行。
核心參數(shù)如下:
指令集:HiFi4 自定義指令集,雙核 DSP
儲(chǔ)存:超大內(nèi)存,包含 TCM,Cache 和 SRAM
工藝:TSMC 40nm LP,功耗 100mW
符合車規(guī)可靠性標(biāo)準(zhǔn)
具備遠(yuǎn)場語音交互的邊緣計(jì)算能力,包括陣列信號(hào)處理、語音喚醒、離線語音識(shí)別。
視覺、機(jī)器人、智能地圖等更多技術(shù)
百度視覺技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤在論壇現(xiàn)場發(fā)布視覺語義化平臺(tái) 2.0,在 1.0 時(shí)代,我們的目標(biāo)是從看清到看懂,在 2.0 時(shí)代,要形成智能交互、軟硬件結(jié)合。
他表示,智能交互包括一體化人機(jī)交互系統(tǒng)(人臉、手勢、肢體、環(huán)境等),可以應(yīng)用于 AR 特效相機(jī)和智能車機(jī)、智能音箱等設(shè)備。談到軟硬結(jié)合的視覺解決方案,他提到 PaddleSlim 模型壓縮平臺(tái)、FaceID 多模態(tài)人臉識(shí)別組件、軟硬件一體的 AI 相機(jī)解決方案,也詳細(xì)介紹了這些產(chǎn)品的諸多優(yōu)勢。
百度三維視覺首席科學(xué)家楊睿剛對百度機(jī)器人技術(shù)進(jìn)行了分享。他表示,機(jī)器人就是一個(gè)智能體,目前,百度對智能體技術(shù)的研究主要集中在自動(dòng)駕駛 Apollo、工程機(jī)械和服務(wù)機(jī)器人三大方面。他談到工程機(jī)械智能化需要賦予智能體從感知到?jīng)Q策再到動(dòng)作的能力,隨后,他詳細(xì)帶來了這些能力所需要的技術(shù)細(xì)節(jié)。
他表示,上午主論壇中的「茶博士」,這是一種組合的 AI 能力,這里包括多引擎對話理解、多候選型應(yīng)答生成、位置敏感的指代消除、基于多輪對話的狀態(tài)更新與動(dòng)作觸發(fā)?;诎俣?3D 視覺,機(jī)器人可以進(jìn)行茶杯檢測和位置追蹤,基于機(jī)器人運(yùn)動(dòng)規(guī)劃和控制,機(jī)械臂可以對工作空間進(jìn)行碰撞檢測,避開障礙物。在實(shí)時(shí)規(guī)劃運(yùn)動(dòng)后,機(jī)器人可以自動(dòng)生成倒茶軌跡,隨后,機(jī)器人能感知水流變化,實(shí)時(shí)調(diào)整倒茶位置。他表示,在未來,AI 技術(shù)已經(jīng)不再是孤島,組合 AI 將推動(dòng)工程機(jī)械和其它應(yīng)用飛躍發(fā)展。
百度地圖事業(yè)部總經(jīng)理李瑩帶來了基于飛槳的百度地圖通行時(shí)間智能預(yù)估,她表示,新一代人工智能地圖結(jié)合了語音、AR、高精度知識(shí)圖譜等各種技術(shù),
百度地圖 ETA(Estimated Time of Arrival)是地圖路線規(guī)劃的主要特征,也是用戶出行決策的重要參考因素,這一技術(shù)可以讓用戶在出行時(shí)避免擁堵時(shí)段、了解擁堵時(shí)長、躲避擁堵路線,但同時(shí)也面臨很多挑戰(zhàn)和難點(diǎn),如變化大、因素多、時(shí)效性高、個(gè)性化強(qiáng)?;诖耍麄兲岢龌陲w槳的深度神經(jīng)網(wǎng)絡(luò)到達(dá)時(shí)間預(yù)估模型,可以實(shí)現(xiàn)實(shí)時(shí) ETA 精準(zhǔn)預(yù)估、擁堵路段時(shí)間預(yù)估,該模型融合了多層編碼、多層感知等。
最后,百度大數(shù)據(jù)部高級(jí)總監(jiān)郭謝帶來了百度點(diǎn)石大數(shù)據(jù)平臺(tái)的介紹,他也對該平臺(tái)的三大核心特性進(jìn)行了解讀,包括安全的數(shù)據(jù)融合加工環(huán)境、多層次開放的可定制組件,以及功能一體化的大數(shù)據(jù)開發(fā)平臺(tái)。
關(guān)于百度大腦的更多細(xì)節(jié),大家可以點(diǎn)擊如下地址進(jìn)一步了解。
在這次論壇上,除了看到百度強(qiáng)推的飛槳,以及在所有 AI 會(huì)議上避不開的計(jì)算機(jī)視覺、自然語言處理技術(shù),我們還看到了百度自動(dòng)機(jī)器學(xué)習(xí)、語音、機(jī)器人技術(shù)等的最新進(jìn)展。未來,百度大腦究竟會(huì)增加哪些功能,以及飛槳是否會(huì)向前跟進(jìn)一步,成為國產(chǎn)深度學(xué)習(xí)平臺(tái)之光,拭目以待。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。