丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給段小凡
發(fā)送

0

教師解放新前沿:讓機器給作文打分 | 2018全球AI+智適應教育峰會

本文作者: 段小凡 2018-10-28 15:59 專題:2018全球AI+智適應教育峰會
導語:計算機能夠像文學家一樣,識別出作文中微小而關鍵的那些差別嗎?

計算機智能的發(fā)展快速而高效。強大的工具迅速更迭,教師的工作效率也顯著提高。其中自動為文章打分的智能軟件便應用甚廣。作文是大規(guī)模語言考試中的必備題型。通過作文可以綜合檢測應試者運用語言的水平。當今的研究人員正努力研發(fā)機器人瞬時為書面文章評分。機器人評分的受益者包含慕課(MOOC)供應者,還有那些在標準考試中含有作文測試的地區(qū)等。

關鍵問題是,計算機能夠像文學家一樣,識別出作文中微小而關鍵的那些差別嗎?恰恰是這些微小的差別,區(qū)分出了普通的好文章和卓越精彩文章之間的差異。電腦能否捕捉到書面交流的關鍵要素,譬如合理性,道德立場,論證能力,和清晰程度?

自動評分的先驅(qū)——埃利斯·佩奇

1966年,計算機體積還很龐大,康涅狄格大學的研究員埃利斯·佩奇(Ellis Page)就率先開始了對自動評分的研究。計算機在那時是相對新穎的技術,主要用來處理最高級的任務。在佩奇同齡人眼中,利用計算機進行文本輸入而非計算數(shù)據(jù)更是新奇的想法。在當時的環(huán)境下,不管是從實用的角度、還是從經(jīng)濟成本來看,利用計算機給作文評分這個想法都非常得不切實際。與同代的人相比,佩奇是個眼光真正長遠的人。

埃利斯佩奇團隊開發(fā)出第一套作文自動評分系統(tǒng)PEG(Project Essay Grader)。PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是國外最具代表性的三種作文自動評分系統(tǒng)。

國外作文自動評分系統(tǒng)述評

作文自動評分是近三年自然語言處理中的熱點問題。大規(guī)模作文閱卷面臨兩大難題:其一,閱卷需要耗費大量人力、物力等資源;其二,評判作文質(zhì)量具有很強的主觀性,閱卷的信度和效度不強。近幾十年來,隨著計算機硬件和軟件性能快速提高,自然語言處理等技術獲得了長足的發(fā)展,國外一批作文自動評分系統(tǒng)相繼問世,這兩個長期困擾大規(guī)模作文閱卷的難題有望得到解決。

(一)PEG——一個重語言形式的評分系統(tǒng)

PEG于1966年由美國杜克大學的Ellis Page等人開發(fā)。PEG的設計者們認為,計算機程序沒有必要 理解作文內(nèi)容,大規(guī)??荚囍杏绕淙绱?。因此,他們在其網(wǎng)站上公開申明:“PEG 不能理解作文的內(nèi)容”。在PEG的開發(fā)者看來,作文質(zhì)量的諸要素是作文的內(nèi)在因素,無法直接測量,因此,最為合乎邏輯的方法是從作文文本中提取一些能夠間接反映作文質(zhì)量的文本表層特征項。

概括起來,PEG的技術大體包括兩方面:其一, PEG使用的統(tǒng)計方法是多元線性回歸,以此來確定各變量的beta值,這樣,基于訓練集作文而構建的統(tǒng)計模型便可以用來為新的作文進行自動評分。這一技術合理而容易理解,后期出現(xiàn)的作文自動評分系統(tǒng)大多采用這一技術。其二,自然語言處理技術是PEG提取變量的主要方法。基于這兩種技術,PEG取得了很好的評分效果。

(二)IEA——一個重內(nèi)容的評分系統(tǒng)

IEA是一種基于潛伏語義分析的作文自動評分系統(tǒng),由美國科羅拉多大學的ThomasLandauer等學者開發(fā)。與PEG顯著不同的是,IEA的設計者們在其網(wǎng)站上申明:“IEA是唯一能夠測量語義和作文內(nèi)容的程序”。據(jù)IEA的設計者們報告,潛伏語義分析主要分析文本的內(nèi)容和學生作文中所傳達的知識,而不是作文的風格或語言。

將潛伏語義分析用于學生作文自動評分時,待評分的作文與預先選定的范文(訓練集)被視作為矢量, 對矢量進行比較之后,可以得到每一篇待評分作文與范文在內(nèi)容上的相似度得分。該得分被直接視為機器評分或經(jīng)過轉(zhuǎn)換后得到機器評分。

(三)E-rater——一個模塊結(jié)構的混合評分系統(tǒng)

E-rater是由美國教育考試處于20世紀90年代開發(fā),其目的是評估GMAT考試中的作文質(zhì)量。據(jù)Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的描述,E-rater自1999 年以來已經(jīng)進入操作階段,至2003年,共評定作文 750,000篇。

E-rater的開發(fā)者們聲稱,他們的作文評分系統(tǒng)利用了多種技術,其中包括統(tǒng)計技術、矢量空間模型技術和自然語言處理技術(Valenti et a.l2003)。憑借這些技術,E-rater不光能夠像PEG那樣評判作文的語言質(zhì)量,還能夠像IEA那樣評判作文的內(nèi)容質(zhì)量。除此之外,E-rater還對作文的篇章結(jié)構進行分析。

教師解放新前沿:讓機器給作文打分 | 2018全球AI+智適應教育峰會

國內(nèi)主要英語作文自動評價工具軟件

在國內(nèi),業(yè)已頒布的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》明確指出,信息技術對教育發(fā)展具有革命性的影響,必須給于高度重視。到2020年,全國范圍內(nèi)應該力爭基本建成覆蓋城鄉(xiāng)各級各類學校的教育信息化體系,以促進教育內(nèi)容、教學手段和方法現(xiàn)代化。就受眾群體龐大的英語教學領域而言,國內(nèi)關于英語作文自動評價系統(tǒng)的研究起步晚,缺乏系統(tǒng)性的綜述研究。

(一)句酷批改網(wǎng)

由北京詞網(wǎng)科技有限公司研發(fā),于2011年4月開始展開大規(guī)模使用。它是一個基于語料庫和云計算技術的英語作文在線自動批改服務網(wǎng)站。批改網(wǎng)的核心算法是計算學生作文和標準語料庫之間的距離,再通過一個映射將距離轉(zhuǎn)化成作文分數(shù)和評語。核心技術點是將每一篇輸入的作文分析成可測量的192個維度,分析過程充分利用了先進的自然語言技術和機器學習的方法,每篇作文先被自動切分成句子,然后對每個句子進行深度的語義分析,從中抽取詞、搭配、詞組等結(jié)構化單元。主要功能包括:分數(shù)即刻顯現(xiàn)、圖文報表式作文分析結(jié)果、錯誤自動批改、點評細致入微、階段性進度報告、抄襲檢測等。

批改網(wǎng)是完全自主研發(fā)的國產(chǎn)軟件,從核心引擎到批改應用都是完全自主知識產(chǎn)權的。它體現(xiàn)寫作教學的多樣性,鼓勵學生的自主性學習、探索性學習、團隊式學習、研究型學習等教與學新模式。

(二)冰果英語智能作文評閱系統(tǒng)

杭州增慧網(wǎng)絡科技有限公司聯(lián)合浙江大學、外語教學與研究出版社,以及中外人工智能專家隊伍,依據(jù)語言教學理論、計算機網(wǎng)絡教育技術、大規(guī)模數(shù)據(jù)挖掘技術,研發(fā)出這一個性化智能化的作文評閱軟件。它可以即時給出作文評分,并從詞匯、語法、文風、內(nèi)容等方面給出反饋。但是,該系統(tǒng)目前無法做到用戶同一篇作文多次反復修改,多次提交給系統(tǒng),并得到系統(tǒng)的即時評閱和反饋。

(三)TRP教學資源平臺

經(jīng)過對一線教師的調(diào)研及需求分析,高等教育出版社與清華大學楊永林教授的科研團隊合作研究,2010年10月正式對外發(fā)布了《體驗英語寫作教學資源平臺》。 2012年3月,該平臺的升級版產(chǎn)品《TRP教學資源平臺》面世。它根據(jù)寫作教學需求,將數(shù)字化、網(wǎng)絡化與區(qū)域化教學平臺進行了有機的整合,并涵蓋了資源建設、平臺構建、寫作學習、句型練習、語法測驗、作文評分、寫作研究、評語生成、作為考試等功能。為高校英語教學的進一步改革提供了“專本碩博,四級貫通”的可操作平臺。特別一提的是,學術寫作是該寫作軟件系統(tǒng)的特色版塊,從這一點來講,TRP教學資源平臺似乎對于研究型高校的學習者來說具有更加特殊的意義。

教師解放新前沿:讓機器給作文打分 | 2018全球AI+智適應教育峰會

國內(nèi)中文作文自動評價工具軟件概述

根據(jù)作文自動評分的原理,可以得到計算機評分的工作機制:首先提取出反映寫作水平的特征,然后利用這些特征和數(shù)學模型計算出分數(shù)。并且確保這個分數(shù)最大程度的接近人工評分的結(jié)果。

漢語文字的計算機識別及加工能技術難題需要計算機領域的專家來攻克,而漢語的計算機自然語言處理技術有了突飛猛進的發(fā)展。例如由于中文詞語之間沒有空格分割,使用計算機進行分詞是進行自動評分研究需要解決的首要問題。隨著中文自然語言處理研究的發(fā)展,目前這一困難基本得到解決。中國科學院計算技術研究所在多年研究基礎上,研制出了基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)不僅完全具備了中文分詞的功能,還有詞性標注和未登錄詞識別的功能。ICTCLAS分詞的正確率高達97.58%(最近的973專家組評測結(jié)果)。另外北京大學、北京語言大學都有漢語自然語言處理工具成功開發(fā),為漢語作文自動評分研究打下了基礎。

自動評分很好地做到了作文評價的客觀化,可以做到在不同的時間地點,在不同的計算機環(huán)境里面對于同一篇作文的評價結(jié)果完全相同。使用這些系統(tǒng)進行作文評分,不僅提高了作文評價效率、降低了人工成本,而且從根本上消除了評分者之間的不一致??梢哉f,使用計算機進行自動評分是評價科學化發(fā)展的必由之路,是提高作文評分準確性和評分效率的最有效途徑。在美國Erater已經(jīng)成功的在ETS組織的托福等考試中應用,而日本Jess研制的目的就是處理日本大學入試的作文評分。最近臺灣也研發(fā)出了一套“中文寫作自動化評分系統(tǒng)”(ACES),該軟件能自動分析初中基準測試考生的作文程度,并給于6個等級的評分。

教師解放新前沿:讓機器給作文打分 | 2018全球AI+智適應教育峰會

人工與智能,效率與質(zhì)量的較量

當今時代,利用計算機自動評分的需求正在猛增。在人工審核流程中,每篇文章必須要有兩名教師打分,這樣的批閱成本很高,含有寫作部分的標準化測試批閱成本也愈發(fā)昂貴。這種高昂的成本已經(jīng)致使許多州在標準考試中,放棄了重要的寫作測試。目前,自動評分系統(tǒng)還處在人機耦合的階段。許多低年級的標準化考試使用自動評分系統(tǒng),已經(jīng)帶來不錯的收效。然而,孩子們的命運并非完全掌握在計算機手中。大多數(shù)情況下,在標準化測試中,機器人評分員只是取代了其中一位必要的評分員。如果自動評分員的意見截然不同,這樣的文章就會被標記,并轉(zhuǎn)發(fā)給另一位人工評分員作進一步評估。這個步驟的目的是保證評估質(zhì)量,同時也有助于提高自動評分技能。

EdX總裁Anant Agarwal稱,智能自動評分的優(yōu)點不僅僅是能節(jié)省寶貴的時間。新技術所實現(xiàn)的即時反饋對學習也有積極影響。當今,人工給作文評分要花費好幾天、甚至是好幾周的時間才能完成,但是有了即時反饋,學生對自己的文章記憶猶新,可以立即彌補弱項,而且效率更高。

機器學習軟件剛開始應用時,教師必須將已經(jīng)評好的幾篇文章輸入系統(tǒng),作為好文章和壞文章的示例。隨著越來越多文章輸入,軟件就越來越擅長這種評分工作,最終幾乎就能提供專門的即時反饋。Anant Agarwal稱,需要做的工作還有很多,不過自動評分的質(zhì)量已經(jīng)很快接近真正教師的評分。隨著更多學校的參與,EdX系統(tǒng)的發(fā)展越來越快。截至今天,已有11所重點大學對這款不斷發(fā)展的評分軟件貢獻了力量。

自動評分的應用效果及發(fā)展前景

為了改善這種趨勢,2012年,威廉和弗洛拉休利特基金會(William and Flora Hewlett Foundation)贊助了一項自動評分的競賽,以數(shù)千篇作文為樣本,用六萬美金作為獎勵,鼓勵能智能取代教師評分的最佳方案。休利特基金會教育項目負責人芭芭拉·周表示:“我們聽說機器算法已經(jīng)達到和人工評分同樣的水平,但我們希望創(chuàng)建一個中立且公平的平臺來評估供應商的各種聲明。事實證明,那些說法并非炒作?!?/p>

自動評分的發(fā)展也吸引了慕課供應商的極大興趣。影響線上教育普及的最大問題之一就在于個人評估文章。一位教師可以為5000名學生提供授課資源,但卻不能對每位學生單獨進行評估。有人說現(xiàn)行教育體制已不完善,而解決這一問題正是向打破這種體制所邁出的一大步。在過去短短幾年中,評分軟件的發(fā)展突飛猛進,現(xiàn)在的評分軟件已可以在大學中上線測試使用。其中一個領先者就是慕課供應商EdX,同時也是哈佛和麻省理工旨在提高線上教育的聯(lián)合發(fā)起者。                         

休斯頓大學大學教育學院院長Mark Shermis教授被視為世界上自動評分領域的頂尖專家之一。在2012年,他指導了休利特競賽,對參賽者的表現(xiàn)印象非常深刻。154個團隊參加了競賽,一萬六千多篇文章拿來做了對比。冠軍團隊與人工評分者的一致度高達81%。Shermis的意見非常積極,他表示這項技術肯定會在未來的教育中占據(jù)一席之地。從這次比賽以來,自動評分領域的研究已經(jīng)取得了積極進展。

自動評分目前仍有幾項瓶頸和技術局限

(一)評分標準未統(tǒng)一

自動評分系統(tǒng)還沒有科學深入地研究人類分級機之間的評估差異,且個體間的差異性很可能非常大。很明顯的是,從最初主要依賴計算字數(shù)、檢測句子和單詞復雜性和結(jié)構的簡單工具,自動分級技術蒸蒸日上,有了很大的進展。

自動作文評分系統(tǒng)供應商是如何提出各種算法的這一問題深深隱藏于知識產(chǎn)權規(guī)章背后。然而,萊斯·派勒爾曼(Les Perelman),長期懷疑論者和麻省理工學院前本科生論文處主任有了一些答案。他花費十年時間用各種方法惡搞不同的自動分級軟件,并且在某種程度上發(fā)動了一場有關全面抵制這些系統(tǒng)的運動。分級軟件必須將不同文章進行比較,區(qū)分重點與非重點部分,然后將文章壓縮至一個數(shù)字以進行評級。相應的,文章必須是在一個完全不同的主題下與不同文章具有可比性。谷歌在比較不同目標文本和圖片與不同搜索術語的匹配度時使用了相似的策略。問題在于谷歌應用了數(shù)百萬數(shù)據(jù)樣本進行估值。而一所學校最多只能輸入幾千篇文章。只有擁有龐大的數(shù)據(jù)庫,這個問題才能逐漸得到解決。

(二)基于規(guī)則的弊端

由于計算機無法讀取,解決過度擬合最可行的方法是為計算機明確指定一套具體的規(guī)則,來檢測文本是否講得通。這一方法在其他軟件上都行得通。目前,自動評級供應商大量投入來制定這樣的規(guī)則,因為要制定出一條檢測諸如論文這樣創(chuàng)造性文本質(zhì)量的規(guī)則十分困難。計算機傾向于用常見的方式解決問題:計算。

在自動評分系統(tǒng)中,例如,評分預測器可以是句子長度、單詞數(shù)量、動詞數(shù)量、復雜單詞的數(shù)量等。這些規(guī)則是否能做出合理的評估?至少派勒爾曼不這樣認為。他說,預測規(guī)則通常非常死板局限,限制了評估的質(zhì)量。例如,他發(fā)現(xiàn):

—長篇文章的評級會比短篇的評級高(自動評級倡導者馬克舍米斯教授認為這只是個巧合。)

—同復雜思想相關的具體詞匯,例如“并且”“然而”,都會使文章得到更高的評級。

—使用“貪婪”這種復雜詞匯會比使用“貪心”這種簡單詞匯評級高。

他發(fā)現(xiàn)規(guī)則很難應用或者根本沒有應用的另一些例子是這個軟件不能分辨真實性。

(三)信度和效度有待提高

作文自動評分的目的是利用多學科技術有效地模擬人工評分,以達到快速評定作文質(zhì)量的目的。因此,在對計算機評分模型進行訓練時,訓練集作文人工評分的信度至關重要。只有有效地模擬具有較高信度的人工評分,計算機評分才有意義。根據(jù)Barrett(2001)和Stemler(2004)的研究,評分員間的信度達到r=0.70左右才是可以接受的,但現(xiàn)有作文評分系統(tǒng)在對訓練集作文進行人工評分時常常達不到這樣的信度要求,可能使得計算機評分模型很難模擬到人工評分的精髓。 

評價對學生作文的評分是否合理,所需考察的另一個方面是評分的效度。對作文進行評分一般至少需要從作文的語言質(zhì)量、內(nèi)容質(zhì)量和篇章結(jié)構質(zhì)量三個主要方面對作文的整體質(zhì)量加以衡量。自動評分系統(tǒng)在評分過程中并未能夠很好地兼顧這三個主要方面,因而評分的結(jié)構效度值得質(zhì)疑。PEG雖然對作文的語言質(zhì)量有著較強的分析能力,但忽略了作文的內(nèi)容質(zhì)量和篇章結(jié)構質(zhì)量,因而其評分結(jié)果存在較大的效度問題。與此相類似,IEA突出了評分過程中作文內(nèi)容的重要性,但忽略了作文的語言質(zhì)量和篇章結(jié)構質(zhì)量,顯然也存在較大的效度問題。與這兩種系統(tǒng)相比,E-rater雖然以其模塊結(jié)構兼顧了作文質(zhì)量的三個主要方面,但每個模塊的分析能力尚可進一步提高。 

參考:

AI In Education?—?Automatic Essay Scoring

https://edx-ora-2.readthedocs.io/en/latest/architecture/ai_grading.html



11月15日,雷鋒網(wǎng)聯(lián)合乂學教育·松鼠AI,以及IEEE教育工程和自適應教育標準工作組共同舉辦『全球AI+智適應教育峰會』。

本次峰會匯聚了國內(nèi)外產(chǎn)學研三界頂尖陣容,屆時,斯坦福國際研究院(SRI)副總裁Robert Pearlstein、美國大學入學考試機構ACT學習方案組高級研究科學家Michael Yudelson等頂尖學者;VIPKID、作業(yè)幫、滬江網(wǎng)等國內(nèi)著名教育創(chuàng)業(yè)公司創(chuàng)始人;以及Knewton、Byju's、DreamBox、Duolingo、ALEKS、AltSchool等國外最具影響力的AI智適應教育公司創(chuàng)始人將齊聚北京,共同探討AI智適應熱點話題,年度盛會,不容錯過!免費門票、VIP門票開放申請中,訪問大會官網(wǎng)即刻申請:https://gair.leiphone.com/gair/aiedu2018

雷鋒網(wǎng)雷鋒網(wǎng)

相關文章:

為什么你需要一張“全球AI智適應教育峰會”的入場券?

為什么AI智適應學習這么火熱?

乂學智適應系統(tǒng)戰(zhàn)勝3名17年教齡名師的背后,我們找了創(chuàng)始人栗浩洋聊了聊

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說