0
最近,美國一家知名教育平臺登上了Reddit熱搜。
原因是有家長爆料,該公司旗下的AI閱卷系統(tǒng)存在重大漏洞,學(xué)生只要在答題區(qū)寫上零散的“關(guān)鍵詞”就能輕松拿高分。
在事后采訪中,一位匿名學(xué)生稱,
如果不是閱卷系統(tǒng)的的漏洞,我不會通過代數(shù)2考試,我只是把與問題相關(guān)的關(guān)鍵詞填了上去,我相信老師們已經(jīng)發(fā)現(xiàn),但他們沒有做任何處理。
據(jù)了解,這款A(yù)I閱卷系統(tǒng)搭載于虛擬學(xué)習(xí)平臺Edgenuity,目前已服務(wù)了2萬所美國院校。
而這位爆料者名為達娜·西蒙斯(Dana Simmons),是加州大學(xué)河濱分校的歷史系副教授。
她之所以發(fā)現(xiàn)AI評分系統(tǒng)漏洞是因為他的學(xué)霸兒子在歷史測評中只拿到了50%的成績。
拉扎爾(Lazare)是一名高中生,他剛剛在Edgenuity平臺完成了歷史考試測評,滿分100,他只拿到了50分,這顯然與平時成績相差很多,他很傷心。
一開始,Simmons還試圖安慰他,也許這次的閱卷的老師比較嚴格。不過,Lazare稱,老師并沒有看他的答案,提交試卷不到一分鐘,成績就出現(xiàn)了。
Simmons知道,這應(yīng)該是系統(tǒng)算法自動評分,隨后他看了兒子的考試試卷,似乎并沒有什么大的問題。于是,她決定用一道歷史題測試一下系統(tǒng)的評分規(guī)則,結(jié)果讓她大跌眼鏡。
題目是這樣的:君士坦丁堡的地理位置如何幫助拜占庭帝國變得富有和繁榮?
它位于愛琴海和黑海之間,是商船和乘客的集散地。它也正處于歐洲和小亞細亞之間,這使它成為一個巨大的貿(mào)易中心,而且在當(dāng)時的許多貿(mào)易路線。利潤、多樣化、西班牙、中國、印度、非洲。
Simmons稱,她只是寫了兩個相關(guān)的長句,然后又往上堆疊了一些不連貫的關(guān)鍵詞,比如財富、印度、中國、中東。但這種拼湊的“單詞沙拉(Word Salad)”形式,系統(tǒng)卻給了她滿分。
原來根據(jù)該公司官網(wǎng)顯示,系統(tǒng)的的評分規(guī)則是,如果某些問題的答案不包括關(guān)鍵字,系統(tǒng)會判定為0分,如果至少包含一個關(guān)鍵字,則為100分。 而其他的問題根據(jù)包含的關(guān)鍵字數(shù)量獲得一定的百分比。
按關(guān)鍵詞評分不失為一種好的方式,但只是按照關(guān)鍵詞,顯然會出現(xiàn)明顯失誤。
隨后,Simmons在社交平臺Twitter上,公開指責(zé)Edgenuity公司,稱其AI算法漏洞不利于教育公平,引起很多網(wǎng)友的關(guān)注和支持。
對此,Edgenuity公司做出回應(yīng)稱,AI系統(tǒng)評分只是作為參考,老師有權(quán)對其進行修改。
Edgenuity不會使用算法代替老師評分,只是為老師提供評分指導(dǎo)。老師有能力接受或否決建議的分數(shù),AI不會決定學(xué)生的課程成績。
不過,這一回應(yīng)也是分分鐘打臉。
在事后采訪中,Lazare的一位同學(xué)表示,老師確實可以重新查看學(xué)生的試卷,并給出最終的得分。但他認識的大多數(shù)同學(xué)都表示,從未見過老師更改Edgenuity分配的成績,盡管聽說有同學(xué)使用“單詞沙拉”的方法獲取高分。
“如果老師在看答案,他們根本不在乎”。
重要的是,Simmons并不是最早發(fā)現(xiàn)Edgenuity存在評分漏洞的的人。
一位已經(jīng)畢業(yè)的高中生奧斯丁·帕拉迪索(Austin Paradiso)表示,他在高中期間曾多次使用Edgenuity平臺進行考試,雖然不喜歡“關(guān)鍵詞沙拉”,但這種方式確實有助于得高分,而且100%有效。
據(jù)了解,Edgenuity是美國知名在線虛擬教育機構(gòu),已成立二十多年,其提供的K12教育服務(wù)已廣泛用于2萬多所院校,而這一服務(wù)就包括Edgenuity平臺內(nèi)置的AI評分系統(tǒng)。
另外,由于今年受疫情影響,大多數(shù)美國學(xué)校都轉(zhuǎn)向了線上授課模式,其教學(xué)和評分服務(wù)業(yè)也選擇外包給虛擬教育平臺,Edgenuity是其中收到合同最多的一個。
據(jù)統(tǒng)計,Edgenuity公司為初中生和高中生提供了300多個在線課程,涉及從數(shù)學(xué)到社會研究的各個領(lǐng)域。這些課程由教學(xué)視頻、虛擬作業(yè),以及在線考試組成。Edgenuity在其中負責(zé)課程提供和作業(yè)評分。
而經(jīng)過多次考試,很多學(xué)生都已經(jīng)摸透了系統(tǒng)的評估方法。
一位學(xué)生說,當(dāng)他不會做的時候,會嘗試提交與問題相關(guān)的成批關(guān)鍵詞,這種方法通常都會奏效。
還有另外一位同學(xué)表示,他們會截取原文中的關(guān)鍵詞粘貼到答題區(qū),在整個上學(xué)期都使用了這個技巧。并且每次都能獲得不低的分數(shù)。
另外,在4個月前,還有學(xué)生公然在Reddit上發(fā)布帖子,詢問如何利用Edgenuity作弊。
在老師不知情的情況下,如何成功欺騙Edgenuity?
我發(fā)現(xiàn)你們可以輕松地找到所有答案,我想知道是如何做到的,是否會花時間回答每個問題?
帖子下方聚集了很多同學(xué)評論,分享在線作弊技巧。其中一位學(xué)生表示,幾乎每一次Edgenuity平臺考試都會作弊。
此次Simmons的揭發(fā)對Edgenuity造成了不小影響,已家長公開反對學(xué)校使用該虛擬平臺,并表示不希望技術(shù)影響孩子成績。
AI技術(shù)參與到考試測評系統(tǒng)中似乎是一種必然的趨勢。在國內(nèi)已經(jīng)有很多相關(guān)研究,而且一些技術(shù)已經(jīng)開始逐步走向落地階段。
阿里巴巴于近日發(fā)起的百萬獎金數(shù)學(xué)挑戰(zhàn)賽,便聲稱由其自主研發(fā)的AI擔(dān)任輔助閱卷老師。
不過,關(guān)于AI閱卷的標(biāo)準(zhǔn)性和公平性一直備受爭議。
對于有標(biāo)準(zhǔn)答案的客觀題來說,AI的評分能力毋庸置疑,而且對于一些基礎(chǔ)的識別錯字能力,AI也有不錯的表現(xiàn),比如在2017年阿里舉辦的AI作文評分測試中,AI僅用十幾秒,就在一篇200字的作文中的找出了8個錯別字。
顯然,AI在提高閱卷效率,減少老師壓力方面發(fā)揮了不少作用。但對于一些開放式試題,比如作文,AI閱卷則產(chǎn)生了不同的爭議。
有人認為,AI閱卷可以避免主觀偏見,在文本結(jié)構(gòu)、語言表達方面形成統(tǒng)一的標(biāo)準(zhǔn),而且其海量的文章儲備,也會高于人類老師的評分水平。
但也有人表示,AI判分過于刻板,如上文中的Edgenuity平臺,開放式題目表達是考生的核心思想,人類的情感表達是AI無法按照對錯來評判的。
對此你怎么看呢?
引用鏈接:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
https://www.reddit.com/r/edgenuity/comments/gbmx2l/how_do_i_successfully_cheat_on_edgenuity_without/
https://help.edgenuitycourseware.com/hc/en-us/articles/360042418854-Auto-Grading-Method-Comparison
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。