0
本文作者: camel | 2018-02-26 22:33 |
雷鋒網(wǎng) AI 科技評(píng)論按:近期來(lái)自紐約雪城大學(xué)的 Daniel Acuna 等人在 bioRxiv 上發(fā)表了一篇文章,作者在文章提出了一種機(jī)器學(xué)習(xí)算法,該算法能夠自動(dòng)進(jìn)行論文圖片查重,其目的旨在解決文獻(xiàn)查重中的一個(gè)死角——圖片查重。
目前許多期刊都會(huì)對(duì)一些圖片進(jìn)行查重,但只有極少數(shù)的期刊有自動(dòng)化的查重流程。例如《Nature》期刊對(duì)收到的稿件一般會(huì)進(jìn)行隨機(jī)抽樣檢測(cè),《Journal of Cell Biology》以及《The EMBO Journal》等期刊則對(duì)稿件中的大部分圖片進(jìn)行手工查重。顯然手工查重費(fèi)時(shí)費(fèi)力,這也是為什么到目前為止大部分期刊都沒有圖片查重這一項(xiàng)。
然而這并不意味著圖片查重不重要;如果能夠及時(shí)發(fā)現(xiàn)不當(dāng)?shù)膱D片抄襲(重用),那么可能會(huì)制止許多學(xué)術(shù)不端行為。
以 2014 年轟動(dòng)學(xué)術(shù)圈的小保方晴子(Haruko Obokata)學(xué)術(shù)造假丑聞為例,當(dāng)時(shí)小保方團(tuán)隊(duì)同一天在《Nature》上發(fā)表了兩篇文章,文章稱他們從新生小鼠身上分離的細(xì)胞通過(guò) STAP 方法能夠獲得胚胎干細(xì)胞。
據(jù)后來(lái)人們的調(diào)查發(fā)現(xiàn),在文章中竟赫然有兩張圖片使用了她在博士學(xué)位論文中的圖片,而這些圖片當(dāng)時(shí)是用于表示細(xì)胞原本就處于胚胎狀態(tài)的,而非 STAP 之后變?yōu)榕咛顟B(tài)。在這個(gè)事件中,如果《Nature》期刊能夠在發(fā)表之前檢測(cè)出文章中的圖片重用,那么這個(gè)讓整個(gè)學(xué)術(shù)圈震驚的造假丑聞也許就能扼殺于搖籃之中了。
然而事實(shí)是,沒有。
再說(shuō)一下美國(guó)研究誠(chéng)信辦公室(US Office of Research Integrity, ORI)。ORI 有多種工具來(lái)協(xié)助工作人員進(jìn)行圖片查重,但每年他們也只報(bào)告了大約 10 例的學(xué)術(shù)不端行為;為了這少數(shù)的幾例報(bào)告,不知道他們要查閱多少案例/文件以及對(duì)比多少圖片。不過(guò)需要說(shuō)明的是,ORI 并不會(huì)去主動(dòng)審查學(xué)術(shù)不端(成本有點(diǎn)高),除非有匿名檢舉。
顯然,他們期待自動(dòng)圖片查重程序的出現(xiàn)。
Daniel Acuna 等人發(fā)表在 bioRxiv 上的這篇預(yù)印文章或許為此提供了一線希望。
總的來(lái)說(shuō),作者首先分析了 PubMed Open Access Subset(PMOS)數(shù)據(jù)集(2015)中包含的 200 多萬(wàn)張圖片,通過(guò)他們開發(fā)的自動(dòng)查重管道能夠自動(dòng)檢測(cè)出由相同的第一(最末)作者發(fā)布的多組論文的圖片重用。之所以做出「相同的第一(最末)作者」的限定,是為了降低模型的時(shí)間復(fù)雜度。由于缺乏相應(yīng)的測(cè)試數(shù)據(jù)集,作者就制定一個(gè)標(biāo)準(zhǔn),然后讓一群人類審閱者手工來(lái)檢查這些檢測(cè)到的圖片是否真的有重用,以此來(lái)評(píng)價(jià)自動(dòng)查重管道的有效性。
下面我們來(lái)看這篇論文的詳細(xì)內(nèi)容。
作者分析了 PMOS(2015)上來(lái)自 4324 個(gè)期刊的 760036 篇論文,其中有 2,628,959 張圖片。當(dāng)然并不是所有的圖片都會(huì)被用到,例如有些是和公式相關(guān);將這些圖片從中清除掉。平均來(lái)說(shuō)大約每篇論文包含 4.78 張圖片。
文章中使用的方法包括:復(fù)制-移動(dòng)檢測(cè)算法(Copy-move detection algorithm)、生物醫(yī)學(xué)補(bǔ)丁檢測(cè)(Biomedical patches detector)、人工評(píng)估算法的有效性。
作者在這里使用了和 V. Christlein et al.(2012) 相同的算法:基于關(guān)鍵點(diǎn)的檢測(cè)方法。這有以下幾個(gè)流程:
(Fig A)使用低閾值 SIFT 關(guān)鍵點(diǎn)檢測(cè)算法計(jì)算關(guān)鍵點(diǎn)。
(Fig B)找到歐氏空間中圖片上的所有關(guān)鍵點(diǎn)中兩兩鄰近的點(diǎn),這些關(guān)鍵點(diǎn)對(duì)的間距要小于等于第二近鄰距離的 60%。將其他沒有匹配或匹配程度小于 40 個(gè)像素的關(guān)鍵點(diǎn)移除。
(Fig C)對(duì)關(guān)鍵點(diǎn)進(jìn)行平面聚類,移除聚類面積小于 40x40 平方像素的集群。如果再一個(gè)集群中,有超過(guò)三個(gè)關(guān)鍵點(diǎn)與同一個(gè)集群相匹配,那么就將這兩個(gè)集群定義為匹配集群。
(Fig D)使用 RanSac 算法找到匹配的簇之間的仿射變換。
如我們前面所說(shuō),考慮到在數(shù)百萬(wàn)張圖片上進(jìn)行最近鄰搜索的時(shí)間復(fù)雜度,作者在這里只分析了第一(最末)作者的數(shù)據(jù)。雷鋒網(wǎng)認(rèn)為,如果想要將這種算法應(yīng)用到實(shí)際應(yīng)用中,可能還需要考慮如何降低該算法的時(shí)間復(fù)雜度。
在科學(xué)文章中,許多圖片都有著極為相似的區(qū)域,例如許多圖片會(huì)使用相似的文本和形狀來(lái)描述圖形的某些區(qū)域(軸標(biāo)簽、箭頭等),因此前面的算法發(fā)現(xiàn)的許多匹配可能就是這些內(nèi)容。于是作者開發(fā)了另外一個(gè)額外的步驟。
作者首先從上一步「復(fù)制-移動(dòng)檢測(cè)」結(jié)果中抽取 20k 的樣本,讓隨機(jī)森林來(lái)預(yù)測(cè)一個(gè)匹配是生物醫(yī)學(xué)匹配的概率,然后根據(jù)預(yù)測(cè)的熵對(duì)這些匹配進(jìn)行排序,選擇出熵值較高的匹配,然后讓一些論文作者來(lái)標(biāo)記(哪些是生物醫(yī)學(xué)匹配)。人工標(biāo)記后,將這些數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)集中,然后重復(fù)這個(gè)過(guò)程。通過(guò)這種方式來(lái)清除掉非生物醫(yī)學(xué)的匹配。
這種方法明顯有一個(gè)很大的不足之處,即需要專業(yè)知識(shí)才能進(jìn)行人工標(biāo)注。這大大限制了本文方法的廣泛應(yīng)用。這個(gè)作者在文章中也有提到。
論文圖片查重研究的一個(gè)很大問(wèn)題是,沒有測(cè)試集。于是 Daniel Acuna 他們?nèi)司蛽?dān)任了這個(gè)人類評(píng)估器。他們制作了一個(gè)基于網(wǎng)絡(luò)的工具,這個(gè)工具包含了上述匹配結(jié)果中的 10000 個(gè)可能有問(wèn)題的案例,并且提供了與 PUBMED 的鏈接,能夠看到相應(yīng)圖片的標(biāo)題、說(shuō)明以及文章本身。三個(gè)人獨(dú)立審查了所有這些案例,并按照 No problem、suspicious、potential fraud、fraud 來(lái)給這些匹配結(jié)果進(jìn)行評(píng)估。
經(jīng)過(guò)以上三個(gè)步驟以及相關(guān)細(xì)節(jié)的約束,作者得出如下圖所示的結(jié)果。
其中左側(cè) A 圖為生物醫(yī)學(xué)圖被重用的比例??梢钥闯?,在所有這些論文中有大約 1.5%(0.6%+0.9%)的論文是需要考察其論文是否存在欺騙,其中有 0.6% 的論文存在明顯的圖片重用。
另一方面,從右側(cè)的 B 圖,我們可以看出一個(gè)有意思的現(xiàn)象:跨論文的圖片重用匹配更有可能屬于學(xué)術(shù)不端行為(43.1%)。
這篇論文的意義一方面指出了 PubMed 開放獲取的論文中,有相當(dāng)多的論文(0.59%)被三位科學(xué)家一致認(rèn)為存在欺詐行為,另一方面它提出了一種大規(guī)模分析文獻(xiàn)圖片重用(抄襲、欺詐)的方法,為各類期刊及研究誠(chéng)信機(jī)構(gòu)提供了可行的、節(jié)省成本的方法。
當(dāng)然(我們也在上文中部分指出了)這項(xiàng)工作還存在著許多有待改進(jìn)的地方:
在標(biāo)記非生物醫(yī)學(xué)補(bǔ)丁時(shí),需要有專業(yè)背景知識(shí)的專家的參與,這大大限制了這種方法擴(kuò)展到其他領(lǐng)域。如何改進(jìn)算法或框架,從而不再需要專家知識(shí),是接下來(lái)研究的重點(diǎn)之一。
Daniel Acuna 等人的這項(xiàng)工作為了降低時(shí)間復(fù)雜度,一方面只選擇了少量的生物醫(yī)學(xué)的出版物(4324 個(gè)期刊的 760036 篇論文),另一方面只考慮了第一(末位)作者自身論文中的圖片重用現(xiàn)象。能否將這種方法應(yīng)用到億級(jí)規(guī)模的出版文獻(xiàn)庫(kù)中,還有待觀察。不管怎么來(lái)說(shuō),降低模型的復(fù)雜度,是將這種方法推廣到工業(yè)級(jí)的必由之路。
還有一點(diǎn),也是這種方法的一個(gè)痛點(diǎn),即沒有測(cè)試集。如何構(gòu)建訓(xùn)練-測(cè)試集,可能是促進(jìn)相關(guān)研究的一項(xiàng)重要工作。雷鋒網(wǎng)認(rèn)為,從利益相關(guān)的角度來(lái)說(shuō),可能期刊和研究誠(chéng)信機(jī)構(gòu)更應(yīng)該在這些方面做出努力和嘗試。
但是不管怎么說(shuō),這篇文章所構(gòu)建的這種方法可能將是實(shí)現(xiàn)針對(duì)學(xué)術(shù)文獻(xiàn)中圖片查重漫長(zhǎng)而艱辛的征程中的第一步。
科研人員為什么會(huì)在學(xué)術(shù)文獻(xiàn)中造假不得而知,但是無(wú)論動(dòng)機(jī)如何,隨著機(jī)器學(xué)習(xí)以及人工智能的發(fā)展,可能做這種行為之前就需要慎重考慮了。
據(jù)《Nature》新聞介紹,Daniel Acuna 他們還沒有公開他們的算法,但已經(jīng)和芝加哥西北大學(xué)研究誠(chéng)信辦公室主任、美國(guó)研究誠(chéng)信官員聯(lián)合會(huì)副主席 Lauran Qualkenbush 進(jìn)行了討論。后者表示:「這對(duì)研究誠(chéng)信辦公室非常有用,我非常希望今年我的辦公室可以成為 Daniel 這項(xiàng)工具的試點(diǎn)單位?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。