丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給蔣寶尚
發(fā)送

0

深度學習模型那么多,科學研究選哪個?

本文作者: 蔣寶尚 2020-04-26 18:32
導語:深度學習助力科研!

深度學習模型那么多,科學研究選哪個?

以深度學習為代表的機器學習技術,已經(jīng)在很大程度顛覆了傳統(tǒng)學科的研究方法。然后,對于傳統(tǒng)學科的研究人員,機器學習算法繁雜多樣,到底哪種方法更適合自己的研究問題,常常是一大困擾。

從2006年到2020年,這15年內(nèi),深度學習經(jīng)歷了發(fā)展期、爆發(fā)期,期間誕生了許多算法原理,眾多神經(jīng)網(wǎng)絡也在多項人類任務上都表現(xiàn)優(yōu)異。例如,2012年,Hinton課題組為了證明深度學習的潛力,首次參加ImageNet圖像識別比賽,其通過構建的CNN網(wǎng)絡AlexNet一舉奪得冠軍,且碾壓第二名(SVM方法)的分類性能。

2013、2014、2015、2016年,通過ImageNet圖像識別比賽,DL的網(wǎng)絡結構,訓練方法,GPU硬件的不斷進步,促使其在其他領域也在不斷的征服戰(zhàn)場。

尤其是2016年3月,由谷歌旗下DeepMind公司開發(fā)的AlphaGo與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝之后,更是掀起了一陣深度學習高潮。

爆發(fā)之后回歸平靜,算法井噴之后,目前更多的是需求是面向產(chǎn)品,如何將算法集成起來包裝成產(chǎn)品?如何落地?如何促進其他領域的科學研究?能夠回答這樣的問題,才能更多增加AI價值。

更加具體一些,此類問題可以衍生為:在什么場景下,該應用什么樣的深度算法?或者,這些深度學習算法的特點適合什么領域的科學研究?

標準神經(jīng)網(wǎng)絡模型和任務 

關于標準的神經(jīng)網(wǎng)絡,普遍認為包括用于圖像預測和變換的卷積神經(jīng)網(wǎng)絡、用于化學領域的圖神經(jīng)網(wǎng)絡、專長于序列數(shù)據(jù)的transformer......最基本的深度神經(jīng)網(wǎng)絡當屬多層感知器,模型設置非常簡單,只有一堆非線性函數(shù)組成的全連接層。

雖然簡單,但是對付數(shù)據(jù)可能由一組截然不同的特征組成的問題很有用,例如表格數(shù)據(jù)。這個模型比邏輯回歸和線性回歸有更強的表達能力。但是在用的時候,需要對數(shù)據(jù)進行預處理,選擇一些特征集進行計算,并將其用作輸入。最近的一項研究是用在了藥物開發(fā)上面,研究機構是中藥質(zhì)量研究國家重點實驗室。

卷積神經(jīng)網(wǎng)絡

多層感知機只是簡單的深度網(wǎng)絡,在它的基礎上,卷積神經(jīng)網(wǎng)絡發(fā)展了起來,成為了最廣為人知的神經(jīng)網(wǎng)絡家族,其特有的卷積層允許許神經(jīng)網(wǎng)絡在圖像的不同空間位置重復使用參數(shù)。作為一種對圖像數(shù)據(jù)非常有用的歸納偏差,能夠幫助更加有效地學習一些好特征以應用層面來分,卷積神經(jīng)網(wǎng)絡派生了圖像分類、目標檢測、語義分割和實例分割、圖像超分辨率、圖像配準、姿勢估計......

深度學習模型那么多,科學研究選哪個?

其中四個的分類的區(qū)別大致可以用上圖表示他們之間的區(qū)別可以大致用上圖表示,在分類的時候整個圖像只有一個氣球標簽,而在目標檢測中,每個氣球都用一個邊界框進行定位。而在語義分割中,算法識別的是氣球?qū)乃邢袼?,在實例分割中分別識別每個單獨的氣球。

簡單來看,圖像分類是經(jīng)過一個函數(shù),輸入一個圖形,輸出一個類別。在醫(yī)學上將胸部X圖片映射到二進制疾病標簽,就是圖像分類的應用。

常見的用于圖像分類的神經(jīng)網(wǎng)絡有:VGG,這個模型在多個遷移學習任務中的表現(xiàn)要優(yōu)于googLeNet,缺點在于參數(shù)量有140M之多,需要更大的存儲空間;Resnet,能夠?qū)Ω短荻认Ш吞荻缺▎栴};DenseNet,其特色在于能夠通過特征在channel上的連接來實現(xiàn)特征重用;還有最新的ResNeXt和EfficientNets,其能夠?qū)W(wǎng)絡深度、寬度和輸入圖像的空間分辨率有單獨的縮放系數(shù)。圖像分類算法已經(jīng)應用于了許多不同的科學項目,例如分析低溫電子顯微鏡技術,但主要還是在醫(yī)學上應用廣泛,因為從眼科到放射科都需要通過圖像預測疾病標簽。

如果說圖像分類是對圖像做一個大致的總結,那么目標檢測就深入到圖像的一些細節(jié)中了。例如給定一張戶外圖片,里面有樹、人、狗,目標檢測算法的任務是分別同時識別出這三個物體,并用“圈圈”標記他們。

有很多卷積框架在目標檢測方向表現(xiàn)優(yōu)異,包括最早期的Faster R-CNN,后來在他基礎上改進的 Mask R-CNN斬獲了 ICCV2017 年的最佳論文,在實例分割、目標檢測、人體關鍵點檢測三個任務都取得了很好的效果。除此之外,很多改進的模型例如,YOLOv3、EfficientDets 以及剛剛開源的 YOLOv4 也是做目標檢測的很好選擇。

目標檢測也是醫(yī)學方向大愛,在跨模式的腫瘤細胞識別,放射學中的骨折判斷都已經(jīng)有相關研究發(fā)布。如果更加深入到圖像的底層細節(jié),對圖像的像素進行分類,那么這就涉及到語義分割技術了。如果有一張街道圖片,里面有道路、車輛、行人等,語義分割算法的目的是確定圖片中像素的歸屬,即是屬于車輛,還是屬于道路,亦或者屬于行人。而實例分割則更加復雜,它要弄明白的是這個像素是屬于行人一,還是行人二,還是行人三。

綜上,分割模型需要對每個像素進行分類,所以它們輸出的不是單個類別的標簽和邊界框,而是完整的圖像。設計分割模型時要求算法能夠保存圖片的空間信息。當前比較常用的架構是U-net,主要由卷積層、最大池化層(下采樣)、反卷積層(上采樣)以及ReLU非線性激活函數(shù)組成。

FCN,此架構不含全連接層的全卷積網(wǎng)絡,可適應任意尺寸輸入;增大數(shù)據(jù)尺寸的反卷積層,能夠輸出精細的結果;結合不同深度層結果的skip結構,同時確保魯棒性和精確性。

此外,還有Segnet模型,它在FCN的語義分割任務基礎上,搭建編碼器-解碼器對稱結構,實現(xiàn)端到端的像素級別圖像分割。

最后,做實例分割,首選 Mask R-CNN和最近的Detectron2框架。值得一提的是Detectron2 與其他框架不同,其還包含了全景分割這一任務。

分割任務在醫(yī)學界應用也非常廣泛,分割大腦MR圖像,識別不同組織中細胞的關鍵區(qū)域,甚至研究骨骼結構等方向已經(jīng)發(fā)表了許多論文。

除了上述四個,圖像超分辨率也是卷積神經(jīng)網(wǎng)絡的一個分支應用。對于低分辨率圖像,傳統(tǒng)的解決方案是想法辦在圖片上思佳一些約束條件,如稀疏度等。卷積神經(jīng)網(wǎng)絡家族中的SRCNN找到了稀疏編碼和卷積神經(jīng)網(wǎng)絡之間的對應關系。RDN網(wǎng)絡已經(jīng)成為實現(xiàn)超分辨率的流行方法。此外,預測濾波流(Predictive Filter Flow)在圖像去噪和去模糊化方向也非常棒。

圖像配準是數(shù)字圖像處理的一種重要應用,用于對齊兩幅或多幅相同場景的圖片。圖像配準需要輸入圖像與參考圖像。輸入圖像是我們希望變換的圖像,參考圖像是想要配準輸入圖像的圖像。

這種需要讓兩幅圖像對齊的技術核心是卷積神經(jīng)網(wǎng)絡,通常需要的是編碼器-解碼器結構的神經(jīng)網(wǎng)絡,例如U-net。

深度學習模型那么多,科學研究選哪個?

姿勢估計也能看做卷積神經(jīng)網(wǎng)絡的應用,重點在于圖片中人物的關鍵節(jié)點,例如膝蓋、手肘、頭部等。2D的姿勢估計是計算機的核心問題,此類的數(shù)據(jù)集和卷積架構也比較多,早期的堆疊沙漏網(wǎng)絡結構衍生的各種變種算法,牢牢占據(jù)了姿態(tài)檢測的半壁江山。

最近的網(wǎng)絡 HRNet,能夠通過并行連接高分辨率到低分辨率卷積來保持高分辨率表示,并通過重復跨并行卷積執(zhí)行多尺度融合來增強高分辨率表示。另外,卡內(nèi)基梅隴大學也提供了端到端的多人姿勢檢測系統(tǒng),用自監(jiān)督學習實現(xiàn)了人類3D動作追蹤。值得一提的是,姿勢估計已經(jīng)在助力動物行為研究的相關項目了。

圖神經(jīng)網(wǎng)絡

圖是一種非常神奇的表示方式,生活中絕大多數(shù)的現(xiàn)象或情境都能用圖來表示,例如人際關系網(wǎng)、道路交通網(wǎng)、信息互聯(lián)網(wǎng)等等。相比于傳統(tǒng)的圖模型,圖網(wǎng)絡最大的優(yōu)勢在于它不只可以對一個節(jié)點進行語義表示。

可以把圖神經(jīng)網(wǎng)絡看做將深度學習技術應用到符號表示的圖數(shù)據(jù)上,或者說是從非結構化數(shù)據(jù)擴展到了結構化數(shù)據(jù)。應用特點:數(shù)據(jù)具有固有的圖形結構特點,能夠在圖結構上學習到一些函數(shù),無論是某些頂點,還是全局都可以。

對隨時間演變的圖結構執(zhí)行預測可以使用時空圖神經(jīng)網(wǎng)絡。技術參考:大多數(shù)圖神經(jīng)網(wǎng)絡遵循從頂點鄰域聚集信息并使用這些信息來更新特征向量的高級結構。

當前也有一些結構變體與其他的神經(jīng)網(wǎng)絡模型相聯(lián)系,例如卷積神經(jīng)網(wǎng)絡和遞歸模型,還有時空圖網(wǎng)絡已經(jīng)用來解決視頻中動作識別問題。有兩篇文章做了很好的總結,第一篇總結了早期的一些流程方法,第二篇對不同類型的架構、問題、基準數(shù)據(jù)集和開源資料進行了整理。

文章1:Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. In Proceedings of the 34th International Conference on Machine LearningVolume 70, pages 1263–1272. JMLR. org, 2017.

文章2:Zonghan Wu, Shirui Pan, Fengwen Chen, Guodong Long, Chengqi Zhang, and Philip S Yu. A comprehensive survey on graph neural networks. arXiv preprint arXiv:1901.00596, 2019.圖神經(jīng)網(wǎng)絡在自然語言處理中的應用包括多跳閱讀、實體識別、關系抽取以及文本分類等。在計算機視覺中的應用是根據(jù)語義生成圖像。 在生物醫(yī)療領域包括新藥物的發(fā)現(xiàn)、化合物篩選、蛋白質(zhì)相互作用點檢測、以及疾病預測。

用于序列數(shù)據(jù)的神經(jīng)網(wǎng)絡

數(shù)據(jù)的一個非常常見的屬性是具有順序結構,例如視頻中的幀、蛋白質(zhì)的氨基酸序列或句子中的單詞。開發(fā)神經(jīng)網(wǎng)絡模型來處理序列數(shù)據(jù)一直是過去幾年來最廣泛的研究領域之一。其中很大一部分是由自然語言處理任務的進展所推動,該領域的重點是讓計算機讀懂人的工作。這個領域的機器翻譯和問題回答兩個熱門的任務已經(jīng)取得了一些進展。當前需要處理序列數(shù)據(jù)的核心人物包括:語言建模、序列到序列轉(zhuǎn)換、問答等

深度學習模型那么多,科學研究選哪個?

序列到序列預測任務的圖示語言建模(Next Token Prediction)作為一種訓練方法,將時間或者位置t的序列標記作為輸入,然后用這些標記來預測t+1的標記。在NLP任務中,該方法體現(xiàn)在:將句子或者單詞作為輸入送到神經(jīng)網(wǎng)絡中,然后預測下一個單詞。

具體例子,如:給定一個句子 "The cat sat on the roof", "The "作為作為神經(jīng)網(wǎng)絡的輸入,要求預測 "cat",然后被喂入 "The cat",并要求預測 "sat",以此類推。這種方法已經(jīng)成為自然語言中流行的方法,另外,在一些科學項目中也應用廣泛,例如蛋白質(zhì)功能預測,AlphaFold預測蛋白質(zhì)結構中部分使用此方法。

序列到序列:處理序列數(shù)據(jù)

另一個比較流行的方法是序列到序列的轉(zhuǎn)換,即將一個序列轉(zhuǎn)換為另一個序列。此方法一般機器翻譯常用,通常依賴于具有編碼器-解碼器結構的神經(jīng)網(wǎng)絡模型,其中編碼器神經(jīng)網(wǎng)絡接收輸入序列并學習提取重要特征,然后解碼器神經(jīng)網(wǎng)絡使用該特征來產(chǎn)生目標輸出。該范式已經(jīng)用于生物學和能源預測,其中在里面發(fā)揮重要作用的是Attention技術。

深度學習模型那么多,科學研究選哪個?

遞歸神經(jīng)網(wǎng)絡模型的示意圖問答也能夠作為處理序列數(shù)據(jù)的一個基準,此類神經(jīng)網(wǎng)絡模型的標準是:一段文字(作為上下文)和一個具體的問題作為輸入,回答的段落作為輸出。值得一提的是,問答模型要求的神經(jīng)網(wǎng)絡模型必須能夠理解不同序列集的相關性和相似性。

處理序列數(shù)據(jù)比較強大的神經(jīng)網(wǎng)絡有遞歸神經(jīng)網(wǎng)絡、注意力機制、Transformers。遞歸神經(jīng)網(wǎng)絡(RNN)包括一層內(nèi)的加權連接(與傳統(tǒng)前饋網(wǎng)絡相比,連接僅饋送到后續(xù)層)。因為RNN包含循環(huán),所以它們可以在處理新輸入的同時存儲信息。

這種記憶使它們非常適合處理必須考慮事先輸入的任務(比如時間序列數(shù)據(jù))。遞歸神經(jīng)網(wǎng)絡(RNN)非常適合處理文本、語音、視頻等時間序列數(shù)據(jù)樣本。注意力在深度學習中可以大致理解為對于某一個向量關注的程度如何,這個向量可能表示的是圖像中的某一局部區(qū)域或是句子中的某個詞,使用注意力向量來估計關注的部分和其他元素之間的關系強弱,并將不同部分的值的和用注意力向量加權得到的結果作為目標的近似值。

雖然注意力有助于解決遠程依賴中的挑戰(zhàn),但RNN訓練起來仍然很慢,NLP中的Transformer是全新的框架,旨在解決序列到序列的任務,同時輕松處理長時依賴。其用全attention的結構代替了lstm,能夠在翻譯任務上取得了更好的成績。在科研中也有幾個有趣的例子,如在蛋白質(zhì)序列上進行訓練并找到編碼有意義的生物特性的表征、通過語言建模生成蛋白質(zhì)、在生物醫(yī)學數(shù)據(jù)中進行文本挖掘的bioBERT......


如何減少對數(shù)據(jù)標簽的依賴?


上述提到神經(jīng)網(wǎng)絡和方法,都比較依賴于數(shù)據(jù)的標簽,下面將討論如何減少對標簽的依賴,具體內(nèi)容包括:遷移學習、領域自適應、多任務學習、弱監(jiān)督。遷移學習(Transfer Learning)是一種機器學習方法,是把一個領域(即源領域)的知識,遷移到另外一個領域(即目標領域),使得目標領域能夠取得更好的學習效果。

通常,源領域數(shù)據(jù)量充足,而目標領域數(shù)據(jù)量較小,這種場景就很適合做遷移學習,例如我們我們要對一個任務進行分類,但是此任務中數(shù)據(jù)不充足(目標域),然而卻又大量的相關的訓練數(shù)據(jù)(源域),但是此訓練數(shù)據(jù)與所需進行的分類任務中的測試數(shù)據(jù)特征分布不同(例如語音情感識別中,一種語言的語音數(shù)據(jù)充足,然而所需進行分類任務的情感數(shù)據(jù)卻極度缺乏),在這種情況下如果可以采用合適的遷移學習方法則可以大大提高樣本不充足任務的分類識別結果。領域自適應是遷移學習中的一種代表性方法,指的是利用信息豐富的源域樣本來提升目標域模型的性能。

領域自適應問題中兩個至關重要的概念:源域(source domain)表示與測試樣本不同的領域,但是有豐富的監(jiān)督信息;目標域(target domain)表示測試樣本所在的領域,無標簽或者只有少量標簽。源域和目標域往往屬于同一類任務,但是分布不同。 

關于領域自適應的一些常見操作和方法,都可以在下面的鏈接中找到

https://towardsdatascience.com/deep-domain-adaptation-in-computer-vision-8da398d3167f

多任務學習的目標是利用多個學習任務中所包含的有用信息來幫助為每個任務學習得到更為準確的學習器。與傳統(tǒng)遷移學習、領域自適應等方法不同,多任務學習是一種并行遷移模式。

在多任務學習中,任務之間的信息相互共享,知識在不同的任務中互相遷移,因此多任務學習也被叫做并行遷移學習。多任務學習方法通過多任務信息共享提升整體的學習效果,這對于小樣本上的學習尤其有效。

更多多任務學習請參見:

https://ruder.io/multi-task/index.html#fn4

弱監(jiān)督通常分為三種類型:不完全監(jiān)督、不確切監(jiān)督、不準確監(jiān)督。

不完全監(jiān)督,指的是訓練數(shù)據(jù)只有部分是帶有標簽的,同時大量數(shù)據(jù)是沒有被標注過的;不確切監(jiān)督,即訓練樣本只有粗粒度的標簽;不準確監(jiān)督,即給定的標簽并不總是真值。其中比較著名的一個工具是Snorkel ,由斯坦福 AI 實驗室創(chuàng)建,在這個系統(tǒng)中,可以不使用手動標注的訓練數(shù)據(jù),而是要求用戶編寫標注函數(shù)即可。關于弱監(jiān)督與其他領域的聯(lián)系請參見:

https://hazyresearch.github.io/snorkel/blog/ws_blog_post.html


高級深度學習方法


上面的方法能夠解決大多數(shù)的深度學習問題,但是偶爾會求助到更高級的深度學習方法,特別是生成模型和強化學習。不過這些方法通常需要更復雜的實現(xiàn),可能需要問題的特定屬性才能有用,例如強化學習對優(yōu)秀環(huán)境模型/模擬器要求比較高。

生成性建模有兩個基本目標。首先,從高維數(shù)據(jù)分布(如自然圖像)中建模并實現(xiàn)采樣。其次,學習數(shù)據(jù)的低維潛在編碼,從而找到關鍵屬性。

深度學習模型那么多,科學研究選哪個?

StyleGAN2模型生成的

比較著名的生成模型有對抗生成模型(GAN)、變分自動編碼器、自動回歸模型。其中GAN的應用比較廣泛,假新聞、假圖片都會以他為基礎,但是需要注意的是區(qū)分無條件GAN與條件GAN。前者僅用隨機噪聲矢量作為輸入來生成數(shù)據(jù),后者是前者的變體,生成以附加信息為條件。

變分自動編碼器和GAN的目標是一致的,希望構建一個從隱變量 Z 生成目標數(shù)據(jù) X 的模型,但是實現(xiàn)上有所不同。它本質(zhì)上就是在我們常規(guī)的自編碼器的基礎上,對 encoder 的結果(在VAE中對應著計算均值的網(wǎng)絡)加上了“高斯噪聲”,使得結果 decoder 能夠?qū)υ肼曈恤敯粜浴?/p>

近年來也出現(xiàn)了不少基于自回歸思路的深度生成模型如PixelRNN,PixelCNN,NADE,MADE等,但是由于AutoRegressive模型一個很大的缺點是AR模型需要逐pixel的生成(后面pixel的生成依賴于前面的pixel),這也導致了生成過程比較慢。

最后,相比于GAN和VAE,基于流的生成模型(也被稱作reversible generative models)得到的關注比較少,它主要是利用了Normalizing flow(由多個可逆的變換函數(shù)組成序列,稱為流)來對訓練數(shù)據(jù)分布進行建模。

強化學習的常見模型是標準的馬爾可夫決策過程 。按給定條件,強化學習可分為基于模式的強化學習(model-based RL)和無模式強化學習(model-free RL),以及主動強化學習(active RL)和被動強化學習 (passive RL) 。強化學習的變體包括逆向強化學習、階層強化學習和部分可觀測系統(tǒng)的強化學習。求解強化學習問題所使用的算法可分為策略搜索算法和值函數(shù)(value function)算法兩類。深度學習 模型可以在強化學習中得到使用,形成 深度強化學習 。

強化學習模型設計需要考慮三方面:一,如何表示狀態(tài)空間和動作空間。二,如何選擇建立信號以及如何通過學習來修正不同狀態(tài)-動作對的值。三如何根據(jù)這些值來選擇適合的動作。用強化學習方法研究未知環(huán)境下的機器人導航,由于環(huán)境的復雜性和不確定性,這些問題變得更復雜。

(雷鋒網(wǎng))(雷鋒網(wǎng))(雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度學習模型那么多,科學研究選哪個?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說