0
本文作者: 我在思考中 | 2021-08-27 18:29 |
AI 科技評(píng)論報(bào)道
作者 | 羅杰波團(tuán)隊(duì)
編輯 | 陳大鑫
中美民眾分別是如何看待新冠疫苗的呢?
這是一個(gè)需要我們認(rèn)真研究的問題。
當(dāng)今開發(fā)新冠疫苗,并在全球范圍內(nèi)使用疫苗,成為了終結(jié)此次疫情的優(yōu)先選項(xiàng)。然而當(dāng)全世界科學(xué)家及醫(yī)學(xué)專家都在開發(fā)和測(cè)試新冠疫苗的同時(shí),美國民眾對(duì)于是否接種疫苗產(chǎn)生了不同的意見。根據(jù)皮尤研究中心最近的一次調(diào)研[1],2020年5月,71%受調(diào)研的美國民眾認(rèn)為如果有疫苗,他們將一定或可能進(jìn)行接種。然而這一比例在2020年9月驟降至51%。該調(diào)研指出,美國民眾擔(dān)憂的是疫苗的安全、有效性,以及疫苗的批準(zhǔn)使用進(jìn)程是否合規(guī)。
疫情如此嚴(yán)重,美國民眾對(duì)疫苗的接受度反而出現(xiàn)這種反復(fù),不由得讓人想知道個(gè)究竟。同樣的,中國民眾是如何看待新冠疫苗的,也成為了我們關(guān)心的問題。
美國羅切斯特大學(xué)羅杰波教授團(tuán)隊(duì)進(jìn)行了兩項(xiàng)基于社交媒體的相關(guān)研究:
(1)基于超過一萬名推特用戶在2020年9-11月期間發(fā)布的對(duì)于疫苗態(tài)度的相關(guān)推特,使用人機(jī)耦合機(jī)器學(xué)習(xí)框架,捕捉美國民眾對(duì)于新冠疫苗的態(tài)度;
(2)基于超過五萬名微博用戶在2020年1月底到11月初期間發(fā)布的與新冠疫苗相關(guān)的14余萬條微博,使用機(jī)器學(xué)習(xí)框架對(duì)中國民眾的情感傾向進(jìn)行了統(tǒng)計(jì)歸納,并且根據(jù)相應(yīng)的用戶組和不同話題進(jìn)行分類,探討在不同子集上的情感傾向。
美國民眾如何看待新冠疫苗
以美國民眾為研究對(duì)象,團(tuán)隊(duì)發(fā)現(xiàn),對(duì)疫苗持不同態(tài)度的人群比例變化大致與疫情相關(guān)事件相對(duì)應(yīng),并且美國東南地區(qū)對(duì)疫苗的接受度相對(duì)較低。為了研究美國民眾態(tài)度的范圍和起因,本文使用多類別邏輯回歸,比較了支持、猶豫、反對(duì)這三組人的性別、年齡、社會(huì)資本、收入、宗教、政治傾向、地理位置、與疫情相關(guān)及不相關(guān)經(jīng)歷的情感、以及官方統(tǒng)計(jì)到的郡層面疫情嚴(yán)重程度,并發(fā)現(xiàn)了顯著的區(qū)別。平均上于社會(huì)經(jīng)濟(jì)狀況處于劣勢(shì)的人群更容易持有極化意見(支持或反對(duì))。
對(duì)與疫情相關(guān)經(jīng)歷持有最負(fù)面情感的人群,往往更可能對(duì)疫苗持反對(duì)意見。使用虛擬反事實(shí)分析,本文發(fā)現(xiàn)美國民眾在談及潛在疫苗時(shí),最關(guān)注的是安全、有效性已經(jīng)政治因素。另外,改善民眾與疫情相關(guān)的經(jīng)歷有利于提高對(duì)疫苗的接受度。本文在社交網(wǎng)絡(luò)層面,對(duì)美國民眾對(duì)于新冠疫苗的態(tài)度研究,有助于未來制定更為有效的疫苗接種政策與方案。
本文利用基于 transformer 的自然語言處理模型,使用人機(jī)耦合機(jī)器學(xué)習(xí)框架,捕捉人們對(duì)于新冠疫苗的態(tài)度,并將其分為三組:支持疫苗、猶豫、反對(duì)疫苗。提出三項(xiàng)假設(shè):
假設(shè)一:這三組人的性別、年齡、社會(huì)資本、收入、宗教、政治傾向、地理位置有差異。
假設(shè)二:個(gè)人與疫情相關(guān)的經(jīng)歷對(duì)其形成何種態(tài)度有影響。
假設(shè)三:郡層面疫情嚴(yán)重程度對(duì)其形成何種態(tài)度有影響。
人機(jī)耦合機(jī)器學(xué)習(xí)框架
簡(jiǎn)單地說,本文先通過標(biāo)注一部分推特所呈現(xiàn)出的對(duì)疫苗態(tài)度,然后將其作為訓(xùn)練集,訓(xùn)練基于transformer的自然語言處理模型,并將其用于推斷剩下推特所表現(xiàn)的對(duì)疫苗態(tài)度。
然而,不同于以往的研究,本文收集的推特中,絕大多數(shù)都與表達(dá)對(duì)疫苗態(tài)度無關(guān)。由于本研究真正關(guān)心的是那些對(duì)疫苗表達(dá)態(tài)度的推特,所以找出這些有關(guān)推特是首先要面對(duì)的問題。同時(shí),在訓(xùn)練時(shí)樣本不均衡,將會(huì)不僅使人為標(biāo)注的過程變慢,也會(huì)抑制訓(xùn)練出的分類器的表現(xiàn)。為解決這一問題,本文使用了人機(jī)耦合機(jī)器學(xué)習(xí)框架。
本文先從 244,049 條推特中隨機(jī)抽樣2,000條不同的推特。三名研究者獨(dú)立地閱讀推特,并判斷該條推特是與表達(dá)態(tài)度不相關(guān)、支持疫苗、猶豫、反對(duì)疫苗四類中的哪一類。該條推特的類別將由三名研究者的投票結(jié)果產(chǎn)生。如果三人的標(biāo)注的類別均不相同,那么將由三位研究者討論,給出最終結(jié)果。
這 2,000 條標(biāo)注好的推特作為訓(xùn)練集C_train,用 XLNet 模型訓(xùn)練,輸出為四分類,記該四分類模型為H_1。模型的表現(xiàn)將由另外再標(biāo)注的400條推特驗(yàn)證集D_validation進(jìn)行驗(yàn)證。由于樣本的不均衡(絕大多數(shù)為與表達(dá)態(tài)度不相關(guān)的推特,占比84%),本文通過再訓(xùn)練一個(gè)二分類模型來主動(dòng)尋找與表達(dá)態(tài)度相關(guān)的推特。具體來說,本文將2,000條的四分類標(biāo)簽改為二分類,與表達(dá)態(tài)度不相關(guān)的為一類,剩下的支持、猶豫、反對(duì)合并為一類。這2,000條用XLNet模型訓(xùn)練,輸出為二分類,記該二分類模型為H_2。用于訓(xùn)練H_1和H_2的訓(xùn)練集除了標(biāo)簽分別為四分類和二分類以外沒有區(qū)別。
訓(xùn)練完的H_2用于在最早的244,049推特集中主動(dòng)尋找與表達(dá)態(tài)度相關(guān)的推特。具體操作上,本文從244,049推特中隨機(jī)抽樣4,500條推特,使用H_2進(jìn)行分類,抽取H_2認(rèn)為最有可能是與表達(dá)態(tài)度相關(guān)的推特的前10%(450條)。再隨機(jī)從剩下的4,050條抽樣50條。這500條推特將由前文提到的三名研究者再度進(jìn)行四分類標(biāo)注,加入之前的2,000條,用于擴(kuò)充訓(xùn)練集C_train。值得注意的是,本文從4,050條中隨機(jī)抽樣50條目的為保證一定的多樣性。接下來,本文用2,500條訓(xùn)練集重新訓(xùn)練H_1,并用D_validation進(jìn)行驗(yàn)證。這一人機(jī)耦合過程為一輪,每一輪往C_train中擴(kuò)充500條推特。
在進(jìn)行五輪人機(jī)耦合標(biāo)注后,最終訓(xùn)練樣本包含4,500條不同的推特。與表達(dá)態(tài)度相關(guān)的推特占比從最早的16%上升至最終的40%。這一人機(jī)耦合機(jī)器學(xué)習(xí)框架主動(dòng)搜索與表達(dá)態(tài)度相關(guān)的推特,以此來均衡樣本,從而更有效地標(biāo)注推特態(tài)度及構(gòu)造模型。
國家及州層面民眾態(tài)度
美國民眾對(duì)于疫苗態(tài)度的占比變化如圖所示,其占比變化和與疫情相關(guān)的事件大致對(duì)應(yīng)??傮w上,57.65%支持疫苗,19.30%持猶豫態(tài)度,剩下的持反對(duì)疫苗態(tài)度。
美國民眾對(duì)疫苗態(tài)度占比變化
州層面對(duì)疫苗態(tài)度如下圖所示。美國東南地區(qū)、俄亥俄州、印第安納州與肯塔基州對(duì)疫苗持有一個(gè)相對(duì)低的支持態(tài)度。
美國各州對(duì)疫苗態(tài)度,括號(hào)中為該州樣本數(shù)量
本文還發(fā)現(xiàn),內(nèi)華達(dá)州、田納西州以及華盛頓州支持疫苗的人群占比變化曲線與國家平均偏離最多。華盛頓州在9-11月期間,支持疫苗的人群占比普遍比國家平均高,而內(nèi)華達(dá)州支持疫苗人群占比普遍比國家平均低。田納西州支持疫苗人群占比變化較大。
美國平均、內(nèi)華達(dá)、田納西、華盛頓州支持疫苗人數(shù)占比
女性更可能持猶豫態(tài)度。比較猶豫和反對(duì)疫苗的人群,本文發(fā)現(xiàn),女性更有可能對(duì)疫苗持猶豫態(tài)度。比較猶豫和支持疫苗的人群,本文發(fā)現(xiàn),女性更有可能對(duì)疫苗持猶豫態(tài)度。
年齡越大,越支持疫苗。比較猶豫和反對(duì)疫苗的人群,本文沒有發(fā)現(xiàn)統(tǒng)計(jì)意義上年齡的顯著不同。然而在比較猶豫和支持疫苗的人群時(shí),本文發(fā)現(xiàn)年齡越大的人,越有可能支持疫苗。這一發(fā)現(xiàn)與 Lazarus et al. (2020)的發(fā)現(xiàn)一致??赡艿慕忉屖牵挲g大的人群感染新冠病毒后死亡風(fēng)險(xiǎn)更高,避免感染新冠病毒的益處大于接種疫苗帶來的風(fēng)險(xiǎn)。
使用推特模式不同的人群,態(tài)度亦不同。擁有更多粉絲或更少好友或點(diǎn)更多贊的推特用戶更可能持極化態(tài)度(支持或反對(duì))。
參與的小組更多的推特用戶更支持疫苗。發(fā)布推特?cái)?shù)量更多的用戶更可能持反對(duì)態(tài)度。
收入較低的群體更可能持極化態(tài)度。比較猶豫和反對(duì)疫苗的人群,本文發(fā)現(xiàn)收入越低的群體,對(duì)疫苗越反對(duì)。另外一篇論文,Lazarus et al. (2020) 發(fā)現(xiàn)收入越高的人群越支持疫苗。本文發(fā)現(xiàn)收入的影響更細(xì)微。
宗教群體更可能持極化態(tài)度。比較猶豫和反對(duì)疫苗的人群,以及猶豫和支持疫苗的人群后,本文發(fā)現(xiàn)宗教群體亦或更反對(duì)疫苗、亦或更支持疫苗。這一發(fā)現(xiàn)與Larson et al. (2014)一致。
政治傾向不同,對(duì)疫苗所持態(tài)度不同。比較猶豫和反對(duì)疫苗的人群,本文發(fā)現(xiàn)關(guān)注特朗普的人群更反對(duì)疫苗,關(guān)注拜登的人群更可能持猶豫態(tài)度。比較猶豫和支持疫苗的人群,本文沒有發(fā)現(xiàn)關(guān)注特朗普的人群統(tǒng)計(jì)意義的顯著不同,然而本文發(fā)現(xiàn)關(guān)注拜登的人群更可能持猶豫態(tài)度。
非城市居民更反對(duì)疫苗。雖然所居住地理位置在三組互相比較中,并沒有統(tǒng)計(jì)意義不同,但本文在比較猶豫和反對(duì)疫苗兩組人群中發(fā)現(xiàn)非城市居民統(tǒng)計(jì)意義上更可能反對(duì)疫苗。
個(gè)人在疫情期間的經(jīng)歷以及所在郡的疫情嚴(yán)重程度對(duì)其所持態(tài)度有影響。比較猶豫和反對(duì)疫苗人群,猶豫和支持疫苗人群中,本文發(fā)現(xiàn),個(gè)人對(duì)于在疫情期間的經(jīng)歷情感越積極,其對(duì)疫苗的態(tài)度越正面。比較猶豫和支持疫苗的人群,本文發(fā)現(xiàn),民眾所在郡的疫情越嚴(yán)重,民眾越有可能持猶豫態(tài)度。
以上發(fā)現(xiàn)均驗(yàn)證了本文的三項(xiàng)假設(shè)。
討論
通過多類別邏輯回歸,本文發(fā)現(xiàn)支持、猶豫、反對(duì)三組人的人群特征顯著不同。女性更容易持猶豫態(tài)度。年齡越大,越支持疫苗。社會(huì)資本不同的人群,所持態(tài)度不同。低收入群體對(duì)疫苗的態(tài)度更極化。宗教群體對(duì)疫苗的態(tài)度更計(jì)劃。政治傾向不同也會(huì)導(dǎo)致對(duì)疫苗態(tài)度的不同。個(gè)人與疫情相關(guān)的經(jīng)歷和所在地區(qū)的疫情嚴(yán)重程度都對(duì)其對(duì)疫苗所持態(tài)度有影響。
通過虛擬反事實(shí)分析,本文發(fā)現(xiàn)民眾對(duì)疫苗的態(tài)度,與政治,疫苗安全及有效性相關(guān)。去除政治因素有助于提高疫苗接受度。去除安全及有效性因素不利于提高疫苗接受度。改善個(gè)人對(duì)疫情的相關(guān)經(jīng)歷有助于提高疫苗接受度。
中國民眾如何看待新冠疫苗
以中國民眾為研究對(duì)象,團(tuán)隊(duì)發(fā)現(xiàn),微博的情感變化與疫苗研發(fā)過程中的重要事件是息息相關(guān)的,且大致上相關(guān)微博以中性情感為主,正向情感要高于負(fù)向情感。
情感判別框架
本文利用 CCIR 2020[2] 所發(fā)布的人工標(biāo)注的微博情感極性數(shù)據(jù)集和fastText[3]框架訓(xùn)練了微博情感極性分類器,對(duì)本文所收集的新冠疫苗相關(guān)微博進(jìn)行了情感極性分類,包含中性,正向和負(fù)向三種。
如論文[4]中所述fastText是一個(gè)能夠有效的進(jìn)行文本分類的深度學(xué)習(xí)框架,利用已標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,模型有能力對(duì)無標(biāo)注的數(shù)據(jù)進(jìn)行分類。以情感分類為例,fastText模型中,微博文本被處理為n-gram的特征,這些特征嵌入為向量且其平均值構(gòu)成了隱藏層,然后通過分層式的softmax層給出情感分類的結(jié)果。通過上述的訓(xùn)練過程,fastText模型能夠利用有情感極性標(biāo)注的數(shù)據(jù),通過輸入特征與情感標(biāo)注定義的目標(biāo)函數(shù),反向傳播梯度,從而使模型對(duì)未標(biāo)注數(shù)據(jù)有分類的能力。通過上述的訓(xùn)練與測(cè)試,本文對(duì)所收集的微博未標(biāo)注數(shù)據(jù)進(jìn)行了情感極性上的分類。
本文利用“情緒指數(shù)”來統(tǒng)計(jì)一段時(shí)間內(nèi)的整體情感傾向,其計(jì)算的方法是:
(正向情感微博數(shù)-負(fù)向情感微博數(shù))/(正向情感微博數(shù)+負(fù)向情感微博數(shù))
整體情感傾向
新冠疫苗相關(guān)的情緒指數(shù)如圖所示,該圖以十天為單位進(jìn)行了平滑。圖中標(biāo)注了部分有代表性的日期以及在微博上相應(yīng)的熱點(diǎn)討論話題。
不同用戶組的微博情感傾向
來自不同用戶組的微博子集構(gòu)成了整個(gè)新冠疫苗相關(guān)微博數(shù)據(jù)集,不同子集的微博也表現(xiàn)出不同的情感傾向。
女性用戶的微博更可能展示出情感極性。比較男女性用戶所發(fā)微博的情感傾向,由女性用戶發(fā)出的微博更可能有正向或者負(fù)向的情感傾向。
青年用戶的微博更可能展示出情感極性。比較不同年齡段用戶所發(fā)微博的情感傾向,青年用戶所發(fā)的微博占相對(duì)更多的比例,并且這些微博更有可能展示出正向或負(fù)向情感。
粉絲少的用戶的微博更可能展示出極性情感。比較來自粉絲數(shù)量不同的用戶所發(fā)微博的情感傾向,粉絲相對(duì)較少的用戶更可能表現(xiàn)出情感極性,并且相對(duì)于粉絲更多的用戶組的微博更偏向負(fù)向。
不同模式交互的微博情感極性的模式有所不同。大多數(shù)的微博集中在極少交互,甚至沒有吸引到態(tài)度交互(例如點(diǎn)贊)、評(píng)論與轉(zhuǎn)發(fā)。這些幾乎無交互的微博的情緒指數(shù)是近似的。高交互的微博情感傾向與交互類型有關(guān),在交互較多的微博集合上,相對(duì)而言之,轉(zhuǎn)發(fā)的情緒指數(shù)較高,評(píng)論次之,態(tài)度交互再次之。
不同話題的微博情感傾向
中美情緒指數(shù)呈現(xiàn)相關(guān)性。比較提到中國、美國及中美均包含的微博,除中國與中美均包含外,其情緒指數(shù)展示出很強(qiáng)的相關(guān)性。在數(shù)量上,三者也展現(xiàn)了相關(guān)性。
例如美國制裁俄羅斯研究新冠疫苗的機(jī)構(gòu)的新聞相關(guān)有相當(dāng)數(shù)量微博顯示了負(fù)向情感。整體而言,中國相關(guān)的微博的情緒指數(shù)相比另外兩組微博更加正向。
“價(jià)格”:大多數(shù)關(guān)于價(jià)格的微博都是中性情感,顯示出極性的情感的微博主要討論新聞:新冠疫苗的價(jià)格是民眾可接受的
“安全”:大多數(shù)關(guān)于安全的微博都是中性的以及部分偏向正向的。正向情感的微博討論集中于陳薇院士團(tuán)隊(duì)研發(fā)出重組疫苗、非人靈長(zhǎng)類動(dòng)物實(shí)驗(yàn)結(jié)果公布、俄羅斯開展新冠疫苗接種以及新冠疫苗開始預(yù)約等。
“國產(chǎn)”:大多數(shù)關(guān)于國產(chǎn)的微博集中討論的國產(chǎn)新冠疫苗亮相及預(yù)計(jì)上市時(shí)間等新聞。
“金融”:很多金融領(lǐng)域的微博博主參與了新冠疫苗相關(guān)的討論?!皣帯毕嚓P(guān)的新冠疫苗微博的數(shù)量及情緒與國藥集團(tuán)的收盤價(jià)呈現(xiàn)了一定的相關(guān)性。
討論
本文通過統(tǒng)計(jì)現(xiàn)有微博及其相應(yīng)的用戶信息,給出了新冠疫苗相關(guān)的微博的整體情感傾向和特定用戶群體所發(fā)微博的情感傾向。通過詞云圖可以展示更直觀的用戶討論,如下圖所示,展示了用戶關(guān)注的出現(xiàn)頻率比較高的一部分關(guān)鍵詞。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。