0
互聯(lián)網(wǎng)時(shí)代,人們每天都會(huì)通過網(wǎng)絡(luò)獲取大量信息。微信、微博、各種新聞客戶端......我們不僅在這些 APP 上瀏覽新聞,有時(shí)也會(huì)發(fā)表自己的見解。
作為最受歡迎的社交應(yīng)用之一,微博是很多人獲取信息的重要渠道,很多用戶每天在上面發(fā)表大量言論。通常情況下,這些言論分為兩類,一類是對(duì)客觀事件的描述,另一類是主觀性描述。主觀性文本帶有作者的喜好、厭惡等情感傾向。
微博上的大量用戶積累豐富的語料數(shù)據(jù)。近年來,隨著自然語言處理技術(shù)的發(fā)展,利用海量的微博數(shù)據(jù)進(jìn)行情感分析已成為一項(xiàng)重要的研究課題。
情感分析技術(shù)
情感分析(Sentiment Analysis)的研究始于 2003 年 Nasukawa 和 Yi 兩位學(xué)者關(guān)于商品評(píng)論的論文,其目標(biāo)是從文本中分析出人們對(duì)于實(shí)體及其屬性所表達(dá)的情感傾向以及觀點(diǎn),帶有強(qiáng)烈的個(gè)人主觀因素。
作為自然語言處理的子任務(wù),根據(jù)處理文本粒度的不同,情感分析可以分為篇章級(jí)、句子級(jí)、詞語級(jí) 3 個(gè)研究層次:
篇章級(jí):獲取整個(gè)文檔或者段落的情感。篇章級(jí)的情感分析有一個(gè)前提假設(shè),那就是全篇所表達(dá)的觀點(diǎn)僅針對(duì)一個(gè)單獨(dú)的實(shí)體,且只包含一個(gè)觀點(diǎn)持有者的觀點(diǎn)。
句子級(jí):獲得單個(gè)句子的情緒。句子級(jí)分析與篇章級(jí)存在同樣的前提假設(shè),也就是說一個(gè)句子只表達(dá)了一個(gè)觀點(diǎn)和一種情感,并且只有一個(gè)觀點(diǎn)持有人。
詞語級(jí):獲得句子中,詞語表達(dá)的情感。在實(shí)際的語言表達(dá)中,一個(gè)句子中可能包含了多個(gè)不同情感傾向的觀點(diǎn),此時(shí)就需要進(jìn)行詞語級(jí)分析。
情感分析有多種類型和風(fēng)格,范圍從專注于極性(正面,負(fù)面,中立)到檢測(cè)情感和情緒(憤怒,快樂,悲傷等)或識(shí)別意圖(感興趣、不感興趣)。
據(jù)估計(jì),世界上 80% 的數(shù)據(jù)都是非結(jié)構(gòu)化的,沒有以預(yù)先定義的方式組織。 其中,大部分?jǐn)?shù)據(jù)來自文本數(shù)據(jù),如電子郵件、社交媒體、調(diào)查、文檔等。 這些文本通常難以分析、理解和分類。通過情感分析技術(shù),可以自動(dòng)處理這些數(shù)據(jù),提高團(tuán)隊(duì)效率。因此,情感分析技術(shù)有著重要的研究價(jià)值。
情感分析應(yīng)用廣泛。在商品零售領(lǐng)域,通過對(duì)海量用戶的評(píng)價(jià)進(jìn)行情感分析,可以了解用戶訴求,及時(shí)進(jìn)行反饋和改進(jìn);在輿情領(lǐng)域,分析人們對(duì)熱點(diǎn)事件的點(diǎn)評(píng),有助于掌握輿論走向;在金融領(lǐng)域,對(duì)交易者對(duì)于股票等產(chǎn)品的態(tài)度進(jìn)行情感分析,可以為交易行情提供參考。
微博立場檢測(cè)大賽
立場檢測(cè)是情感分析技術(shù)的熱門方向之一。近年來,微博立場檢測(cè)作為一個(gè)有著極大研究價(jià)值的新興課題,引起了廣泛的關(guān)注。為了幫助同學(xué)們提高自己,近日,AI 研習(xí)社微博立場檢測(cè)挑戰(zhàn)賽上線啦!
比賽簡介
本次微博立場檢測(cè)挑戰(zhàn)賽為單人賽,比賽時(shí)間為 3 月 13日—4 月 12 日。
比賽網(wǎng)址:https://god.yanxishe.com/44
參賽者的任務(wù)是判斷微博作者對(duì)某個(gè)話題是持何種立場。也就是說,參賽者需要對(duì)微博作者的立場進(jìn)行分類,共有 3 種立場:FAVOR 支持,AGAINST 反對(duì),NONE 兩者都不是。
數(shù)據(jù)集
比賽數(shù)據(jù)集下載鏈接:https://static.leiphone.com/wb.zip
結(jié)果文件如下所示:
第一個(gè)字段位:測(cè)試集 ID(注意 ID 從 0 開始)
第二個(gè)字段:立場類別(FAVOR、AGAINST、NONE)
結(jié)果文件建議使用 UTF-8(BOM)編碼。
評(píng)分標(biāo)準(zhǔn)&獎(jiǎng)金
AI 研習(xí)社將會(huì)對(duì)比選手提交的 csv 文件,確認(rèn)正確識(shí)別樣本數(shù)。
True:模型分類正確數(shù)量
Total :測(cè)試集樣本總數(shù)量
本次比賽共設(shè)置 3 種獎(jiǎng)項(xiàng),獎(jiǎng)金池 3000 元。獎(jiǎng)金將在比賽后提現(xiàn)時(shí)發(fā)放到微信零錢。
參與獎(jiǎng)(Participation Award)
金額:占總獎(jiǎng)金的 30%
獲獎(jiǎng)人數(shù):所有人(每人僅能獲得一次參與獎(jiǎng))
獲獎(jiǎng)條件:提交結(jié)果大于標(biāo)準(zhǔn)分,標(biāo)準(zhǔn)分=60
突破獎(jiǎng)(Prizes)
金額:占總獎(jiǎng)金 20%
獲獎(jiǎng)人數(shù):所有人
排名獎(jiǎng)(Ranking Award)
金額:占總獎(jiǎng)金 50%
獲獎(jiǎng)人數(shù):得分前 5 名
特別提醒:3 種獎(jiǎng)項(xiàng)可以同時(shí)帶回家!越早提交,突破分?jǐn)?shù)越大,獎(jiǎng)金越多哦~
獲取更多信息,可以添加慕慕微信號(hào):AIMOOC-XM,或者掃下面的二維碼:
再次敲黑板:報(bào)名網(wǎng)址是 https://god.yanxishe.com/44 ??靵韴?bào)名吧!
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。