丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

本文作者: 楊鯉萍 2019-12-31 18:10
導(dǎo)語(yǔ):讓我康康是誰(shuí)在劇透?

每次說(shuō)到劇透,相信很多朋友和我一樣,心底都泛起了陣陣憂傷。

最近有部火熱的劇《慶余年》,那陣容、那演技、那劇情,真是每一集都一波三折,時(shí)刻牽動(dòng)著觀眾的心弦,讓人欲罷不能。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

然而,在我們還沉浸在對(duì)故事劇情的 YY 中時(shí),有人在網(wǎng)上劇透了大結(jié)局!這就相當(dāng)于奧特曼打怪獸時(shí)直接甩出大招,于是怪獸被秒殺。故事仿佛還沒(méi)開(kāi)始就已經(jīng)結(jié)束,這讓我們這些影迷一時(shí)根本無(wú)法接受!

正因如此,AI 研習(xí)社的大賽管理員們想出了全新的應(yīng)對(duì)策略,何不利用現(xiàn)有的技術(shù)來(lái)做出識(shí)別劇透類影評(píng)的初步 demo——「劇透判別器」呢?

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

文字識(shí)別與檢測(cè)背景

文字作為載體和線索,在很多情況下,能夠提供比圖像更多的信息。因此,作為計(jì)算機(jī)視覺(jué)中一個(gè)重要的研究課題,文字檢測(cè)和識(shí)別也隨深度學(xué)習(xí)的興起和發(fā)展,一起進(jìn)入了全新的時(shí)代。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

從技術(shù)的角度而言,文字檢測(cè)通常是通過(guò)算法計(jì)算判斷在單詞或者文字行層面是否含有文字實(shí)例(如果有,則標(biāo)出位置)的過(guò)程;而文字識(shí)別則更進(jìn)一步,它會(huì)在文字檢測(cè)基礎(chǔ)之上,再將文字區(qū)域轉(zhuǎn)化為計(jì)算機(jī)可讀取和編輯的符號(hào)。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

目前,文字檢測(cè)與識(shí)別主要存在三個(gè)方面的重大挑戰(zhàn),即:場(chǎng)景文字的多樣性(如文字的顏色、大小、方向、語(yǔ)言、字體等)、圖像背景的干擾(與文字相似的其它物體)以及圖像本身質(zhì)量(噪聲、模糊、非均勻光照等)缺陷帶來(lái)的問(wèn)題。

文字識(shí)別與檢測(cè)算法

從上面的介紹來(lái)看,文字識(shí)別與圖像識(shí)別其實(shí)大同小異,都需要先抓取對(duì)象,再進(jìn)行判斷識(shí)別。具體而言,給定一張圖像,我們需要找出這張圖中文字出現(xiàn)的位置,再對(duì)位置框中文字類型進(jìn)行分類。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

因此,我們可以采用目標(biāo)檢測(cè)網(wǎng)絡(luò)來(lái)進(jìn)行文本檢測(cè),如 Faster RCNN。但由于文本與物體之間有很多不同特征,如:文字形式、邊緣輪廓、間隔等,該技術(shù)應(yīng)用于文字檢測(cè)中的實(shí)際效果并不是特別理想。于是在此基礎(chǔ)上,更多適用于文本檢測(cè)的方法出現(xiàn)了。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

  • CTPN(Connectionist Text Proposal Network)

這一深度神經(jīng)網(wǎng)絡(luò)很好的解決了文本檢測(cè)中一大難點(diǎn),即:文本行的長(zhǎng)度變化問(wèn)題,并能夠生成更好的 text proposal。

具體而言,CTPN 提出了一個(gè)全新的想法,將文本檢測(cè)的任務(wù)拆分。首先,我們檢測(cè)文本框中的一部分,判斷其是否為文本內(nèi)容;然后我們將屬于同一文本框的每個(gè)小文本框合并,從而得到一個(gè)完整的文本框,最終完成文本檢測(cè)任務(wù)。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

除此之外,CTPN 還提出在文本檢測(cè)中加入 RNN 來(lái)進(jìn)一步提升效果。雖然 RNN 常用于序列模型;但在 CTPN 算法中,組成完整文本框的多個(gè)小文本框也可以屬于序列模型,因此使用 RNN 模型可以利用過(guò)去或未來(lái)的信息來(lái)學(xué)習(xí)和預(yù)測(cè),從而提升識(shí)別效果。

詳細(xì)論文參考:

https://arxiv.org/abs/1609.03605 

  • SegLink

盡管 CTPN 文本檢測(cè)方法能夠在自然場(chǎng)景下較好的實(shí)現(xiàn)對(duì)文字的檢測(cè),但在處理非水平文本時(shí),該算法則表現(xiàn)出了不太理想的效果。SegLink 正是為了解決這一問(wèn)題而生出的算法,它可以實(shí)現(xiàn)對(duì)各種角度文字的靈活檢測(cè)。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

該算法的檢測(cè)過(guò)程主要分為三部分,首先檢測(cè)生成的各個(gè)切片,即上圖中的所有黃色框;接著對(duì)這些屬于同一個(gè)文本行的黃色框進(jìn)行連接;最后再通過(guò)合并算法,將這些切片與鏈接合并為一個(gè)完整的文本行,得到完整文本行的檢測(cè)位置及旋轉(zhuǎn)角度。整個(gè)架構(gòu)采取了 SSD 的思路,在切片檢測(cè)上,通過(guò)「套框」的方式,對(duì)結(jié)果進(jìn)行回歸。

詳細(xì)論文參考:

https://arxiv.org/abs/1703.06520 

IMDB 影評(píng)劇透檢測(cè)

盡管檢測(cè)算法有些難度,但本次 AI 研習(xí)社(https://god.yanxishe.com/)推出的比賽主要考驗(yàn)的是大家的識(shí)別編碼能力,賽題將重心落在了判斷部分。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

本次大賽「IMDB 影評(píng)劇透檢測(cè)」的目標(biāo)為:正確識(shí)別測(cè)試集影評(píng)是否為包含劇透信息。因此,不必要考慮文字不工整、圖像清晰度差等更復(fù)雜的問(wèn)題。

開(kāi)始時(shí)間:2019-12-30 09:00:00

結(jié)束時(shí)間:2020-01-29 00:00:00

大賽提供了免費(fèi)云訓(xùn)練 GPU 資源,以及基礎(chǔ)獎(jiǎng)金池為 2000 元~比賽一共設(shè)置了三種獎(jiǎng)項(xiàng),包括了:參與獎(jiǎng)(30%)、突破獎(jiǎng)(20%)、排名獎(jiǎng)(50%),三種獎(jiǎng)項(xiàng)互不沖突。

數(shù)據(jù)集說(shuō)明

IMDB_movie_details 數(shù)據(jù)集里,包含 1572 部電影信息,train 和 test 都是影評(píng)信息,其中訓(xùn)練集有 473913 條,測(cè)試集有 100000 條。測(cè)試集、訓(xùn)練集正負(fù)樣本比例一致。

其中,一些關(guān)鍵字段說(shuō)明如下:

  • movie_id : 電影 ID

  • user_id: 用戶 ID

  • review_id: 影評(píng) ID

  • review_summary: 影評(píng)簡(jiǎn)介

  • review_text: 影評(píng)信息

  • is_spoiler: 是否劇透

  • review_data: 評(píng)論時(shí)間

  • rating : 評(píng)分

建議使用 Pandas 讀取數(shù)據(jù),如下所示:

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

數(shù)據(jù)集下載鏈接:

https://static.leiphone.com/IMDB.zip 

評(píng)審標(biāo)準(zhǔn)

最終提交結(jié)果文件如下所示,其中,第一個(gè)字段:測(cè)試集 review_id,ID 從 0 開(kāi)始;;第二個(gè)字段:評(píng)論是否包含劇透信息,0=沒(méi)有,1=劇透。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

整個(gè)比賽的評(píng)審?fù)耆该骰覀儗?huì)對(duì)比選手提交的 csv 文件,確認(rèn)正確識(shí)別樣本數(shù)量,按照如下公式計(jì)算得分,其中:

  • True:模型分類正確數(shù)量

  • Total :測(cè)試集樣本總數(shù)量

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

每日 24:00,我們也會(huì)將最新結(jié)果更新在官網(wǎng)排行榜上。

常見(jiàn)問(wèn)題 Q&A

1、提交結(jié)果無(wú)法評(píng)分是什么原因?

AI 研習(xí)社:請(qǐng)確認(rèn) csv 文件格式和預(yù)測(cè)樣本數(shù)量。格式要求不能含有引號(hào)、冒號(hào)、逗號(hào)、星號(hào)等字符。數(shù)量必須與測(cè)試集一致。檢查完畢還是無(wú)法評(píng)分的,請(qǐng)聯(lián)系慕慕。

2、提現(xiàn)遲遲不到賬如何處理?

AI 研習(xí)社:我們會(huì)在 3 個(gè)工作日內(nèi)處理提現(xiàn)申請(qǐng),后續(xù)還要經(jīng)過(guò)財(cái)務(wù)審核,一般不會(huì)超過(guò) 7 個(gè)工作日到賬。提現(xiàn)具體進(jìn)度可以咨詢慕慕。

3、為何 SkyDataLab-AI 云平臺(tái)使用時(shí)長(zhǎng)受限或沒(méi)有權(quán)限使用 GPU?

AI 研習(xí)社:想享有 SkyDataLab-AI 云平臺(tái)資源(不限時(shí)長(zhǎng)、GPU)的使用權(quán)限,需通過(guò)每個(gè)比賽的報(bào)名鏈接進(jìn)行跳轉(zhuǎn),即在每個(gè)比賽的開(kāi)始時(shí)間和結(jié)束時(shí)間期間內(nèi),均享有該權(quán)限,這是天數(shù) SkyDataLab-AI 云平臺(tái)給 AI 研習(xí)社提供的服務(wù)。

PS:通過(guò)一般注冊(cè)方式登錄平臺(tái)的用戶,只能免費(fèi)使用 20 小時(shí),且無(wú) GPU 使用權(quán)限

4、SkyDataLab-AI 平臺(tái)上傳大數(shù)據(jù)時(shí),瀏覽器為何會(huì)崩潰?

AI 研習(xí)社:正常情況下,大數(shù)據(jù)不建議通過(guò)瀏覽器上傳,因?yàn)闀?huì)導(dǎo)致瀏覽器內(nèi)存崩潰。

因此,針對(duì)超過(guò) 20M 的大數(shù)據(jù),可通過(guò)如下方式上傳:

sftp -P 59999 用戶名 @sdl.iluvatar.com.cn

5、SkyDataLab-AI 平臺(tái)新創(chuàng)建的任務(wù)/之前創(chuàng)建的任務(wù)在啟動(dòng)時(shí),為何一直顯示處于啟動(dòng)狀態(tài)?

AI 研習(xí)社:由于該平臺(tái)為多名用戶提供環(huán)境,資源為共享模式。當(dāng)任務(wù)一直處于啟動(dòng)狀態(tài)時(shí),說(shuō)明資源緊張,所申請(qǐng)的資源需要排隊(duì)等待。

PS:以上情況多存在于啟動(dòng)帶 GPU 的環(huán)境時(shí),由于 GPU 資源有限,且大部分編碼時(shí)間并不會(huì)使用 GPU,因此,建議在編碼階段創(chuàng)建非 GPU 的資源環(huán)境,使整個(gè)平臺(tái)資源得到最大利用。

6、SkyDataLab-AI 平臺(tái)無(wú)法解壓 zip 文件?

AI 研習(xí)社:平臺(tái)可直接上傳 zip 文件并提供解壓功能,具體操作如下:

上傳 zip 文件:數(shù)據(jù)管理 -->上傳 -->選擇本地文件 -->點(diǎn)擊需要上傳的 zip 文件;

解壓 zip 文件:數(shù)據(jù)管理 -->找到所需解壓的 zip 文件 -->點(diǎn)擊「操作」列解壓圖標(biāo)。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

更多信息,可進(jìn)入?yún)①愔黜?yè)查看:

https://god.yanxishe.com/20 

雷鋒網(wǎng) AI 開(kāi)發(fā)者 雷鋒網(wǎng)  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

用技術(shù)杜絕劇透,2020 新賽事「IMDB 影評(píng)劇透檢測(cè)」上線!

分享:
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)