丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

【ATEC2022出題人分享】解密科技助實背后的黑科技

本文作者: nebula 2023-09-22 14:13
導語:ATEC2022比賽背景科技促進產業(yè)數(shù)字化,是數(shù)字時代經濟發(fā)展的重要命題。本屆ATEC科技精英賽,通過考察選手對圖學習、隱私計算、多模態(tài)識別、智能推薦等核心技術

ATEC2022比賽背景

【ATEC2022出題人分享】解密科技助實背后的黑科技

科技促進產業(yè)數(shù)字化,是數(shù)字時代經濟發(fā)展的重要命題。本屆ATEC科技精英賽,通過考察選手對圖學習、隱私計算、多模態(tài)識別、智能推薦等核心技術的掌握能力,解決營銷數(shù)字化、產品數(shù)字化、融資數(shù)字化三大現(xiàn)實問題。幫助企業(yè)抵御安全風險、提升數(shù)字化運營能力,幫助從一個全新的數(shù)據(jù)維度來實現(xiàn)農作物的數(shù)字化,借助數(shù)字化技術提高農村金融的資金匹配效率、極大地助力農業(yè)產業(yè)的持續(xù)發(fā)展,做到了“科技助實”。

賽題一——營銷數(shù)字化

賽題解讀

提高中小商家的數(shù)字化經營能力,是我國數(shù)字經濟做強做優(yōu)做大的關鍵基礎,也是推動數(shù)字技術與實體經濟深度融合的關鍵路徑之一。中小商家通過數(shù)字消費券的配置與分發(fā),為店鋪帶來了許多潛在的客戶,好的數(shù)字化運營策略可以幫助中小商家提升用戶的留存與消費意愿,同時帶來更好的收益與經營效率。本賽題便是圍繞營銷數(shù)字化的主題,考察選手如何從海量的用戶線上線下行為中挖掘可幫助中小商家進行數(shù)字化營銷的有效信息,幫助其提高商品的分發(fā)能力。

本賽題會向選手提供一段時間內消費券向用戶展示和被用戶領取的數(shù)據(jù),并要求選手預測在這段時間以后不同用戶在多個中小商家的候選商品集合中,更有可能點擊哪些商品。除此以外,為了盡可能還原真實的工業(yè)數(shù)據(jù)環(huán)境,本賽題還會向選手提供用戶和消費券的基礎特征、支付寶全域用戶行為、實體間關聯(lián)圖譜等數(shù)據(jù),同時確保這些數(shù)據(jù)的采集和構造都是發(fā)生在待預測時間段之前。所有的數(shù)據(jù)都經過了嚴格的脫敏,以保證用戶隱私信息的安全性。

和一般的點擊率預估任務不同,我們提供了十倍于私域行為(用戶在中小商戶內的交互行為)的全域用戶行為(例如搜索、賬單、足跡等),而比賽又是僅僅只有 9 小時的個人賽,這十分考驗選手的基本功,以及選手在如此豐富的數(shù)據(jù)類型下的模型選型與迭代思路,賽題講究快、準、穩(wěn),稍有遲疑便會落后。為了讓訓練速度不成為選手快速提分的瓶頸,我們提供了 12C92G + V100 的運行配置。

比賽觀察

本次比賽的數(shù)據(jù)種類多,且時間緊張,選手如何快速的迭代并拿到收益決定著他是否能夠晉級并有機會拿到百萬大獎。比賽屬于個人賽,這非??简炦x手的基本功底,但能夠從線上賽的選拔中脫穎而出,也說明每一個選手都是有自己突出的優(yōu)點。

在這些因素的限制下,幾乎所有的選手都選擇了將樹模型作為自己的基線,并通過對數(shù)據(jù)的一系列特征工程為該基線注入許多新的信息,從而幫助模型更好的預估用戶的點擊并達到提分的效果。相比于深度學習中模型調參與擬合 label 的過程,樹模型有著更方便、快捷、開箱即用的優(yōu)點,且無需擔心像深度學習中由于參數(shù)或網絡層設計不合理而導致的模型效果差的問題。因此,樹模型的熱度在競賽圈也一直是名列前茅的。

在比賽中,更細致更全面的從各個角度來挖掘用戶與商品的潛在信息,也決定了該做法能帶來的增益大小。高排名的選手有著豐富的競賽經驗,無一例外地為比賽所提供的信息選擇了更適合處理它的策略。在實際業(yè)務中,不可避免的存在許多經過脫敏、缺失或無意義的信息在內,因此選手的數(shù)據(jù)素養(yǎng)與特征分析能力對比賽的良性迭代會起到非常關鍵的作用,高排名選手會在數(shù)據(jù)分析后通過清洗、去噪、加權等策略幫助模型對有效信息的充分利用。此外,快速的迭代也能夠幫助選手更快的找準提分的方向,并為下一階段的嘗試方向做好預估,這也是選手間能夠拉開比賽差距的重要原因。

本次比賽采用半封榜的機制,在前期每個選手僅能得知自己的排名是否處于賽道末位的四位,而在后期該信息完全不可知。選手在緊張的氛圍下承受著對自身排名不明確的雙重壓力,這也促使每個人不斷地向前。雙重壓力下,心態(tài)好的選手鎮(zhèn)定自如,即使處于淘汰邊緣也一心做題,而心態(tài)差的選手在后續(xù)比賽中頻繁失誤(不論是 bug 出現(xiàn)次數(shù),或者是迭代進展變緩)。這也是每一個競賽選手必須經歷的考驗之一,百般磨煉,終能獨擋一面。

賽題二——產品數(shù)字化 

(水稻 or 小麥?從遙感農作物識別到農業(yè)金融)

賽題解讀

2019年,農業(yè)農村部提出數(shù)字農業(yè)農村發(fā)展規(guī)劃(2019-2025),明確提出以農業(yè)數(shù)字化為重點發(fā)展主線,全面提升農業(yè)農村生產智能化、經營網絡化、管理高效化、服務便捷化水平,以數(shù)字化引領驅動農業(yè)農村現(xiàn)代化,為實現(xiàn)鄉(xiāng)村全面振興提供有力支撐。這其中對核心主糧作物、經濟作物種植區(qū)域進行數(shù)字化建模是實現(xiàn)農業(yè)數(shù)字化的基礎一環(huán)。

依托現(xiàn)代衛(wèi)星遙感技術,我們可以實現(xiàn)對豐富的農作物信息的識別與提取,例如農田植被狀況、土壤濕度、氣候變化等。對地物目標進行多光譜、多時段監(jiān)測,可以獲取大量信號特征,同時基于不同農作物對不同波段光譜的特異性反射差異、生長周期特點,可以實現(xiàn)低成本、高精度、大范圍的農作物種類識別,為實現(xiàn)農業(yè)數(shù)字化生產、高效網格化經營提供基礎數(shù)據(jù),從而應用于農業(yè)信貸、農業(yè)保險理賠、宏觀農業(yè)種植監(jiān)控等領域。

本次賽題的圖像數(shù)據(jù)來自開源多光譜衛(wèi)星提供的時序多光譜影像,農作物(水稻、玉米、大豆)標簽來自田野實地調查獲取的數(shù)據(jù)。主要目的是通過時序多光譜遙感數(shù)據(jù)序列,設計人工智能算法,識別出對應地點對應時間段的種植農作物種類。對于遙感農作物識別,光譜反射特性以及農作物生長周期特性是兩大關鍵特征。此外,數(shù)據(jù)中的地表分類層(SCL)字段中還包含了粗分類的標簽,包括云層、水體、植被,可以提供有效的先驗信息輔助識別。為了幫助選手理解賽題,我們另外提供了基于近紅外(NIR)和紅光(R),計算植被指數(shù),這也是我們對于選手的“提示”,如何利用農業(yè)光譜知識設計特定特征來提升模型識別效果。

比賽觀察

這是一道典型的時序預測賽題,比賽中大部分方案是基于先進的Transformer結構(例如BERT、RoBERTa等),訓練多個模型,再利用LGBM進行模型集成。另外對數(shù)據(jù)的處理上不同的選手也有不同的策略,最終結果除了單純模型因素之外,對數(shù)據(jù)和賽題的持續(xù)探索也起到了關鍵作用。

1) 時序建模:處理時序預測的基礎是建立一個能對時序數(shù)據(jù)進行有效建模的模型。在前期嘗試了LSTM、MLP、樹結構之后,大部分隊伍迅速收斂到基于Transformer的模型結構上。Transformer是目前處理序列數(shù)據(jù)比較成熟的方案,通過將序列中的每個元素看做token,按順序送入模型中進行self-attention和cross-attention計算,獲取有效的時序信息進行任務學習。大部分選手選擇BERT或者RoBERTa這類比較成熟的Transformer結構來使用。由于對模型的熟悉程度和具體實現(xiàn)的不同,效果有所差異

2) 特征構建:遙感領域對大部分選手來說都是首次接觸,其具有一定的領域特性。部分選手在前期進行了大量數(shù)據(jù)分析的工作,并得到了一些有效構建特征的方法。例如本次農作物識別的賽題,時間月份、云霧遮擋都會極大影響識別效果。通過對數(shù)據(jù)去云處理、構建時間月份相關的learnable embedding都可以有效提升識別效果。此外,遙感相關的一些特征,例如ndvi指數(shù)計算等,都可以作為有效的特征使用。

3) 模型集成:模型集成的方法在比賽中一般被認為是臟活累活,但卻是刷點的“神器”。利用LGBM對多個基礎模型結果進行集成學習,往往可以得到更好的結果。在比賽的最后3分鐘里,依然有選手在嘗試各種模型集成的組合和優(yōu)化方式,并成功在最后時刻實現(xiàn)了反超。

在螞蟻的真實場景中,多光譜時序數(shù)據(jù)是農作物識別中最重要的數(shù)據(jù)源,此外我們還會使用高清影像、SAR雷達影像輔助農作物識別。在賽題中我們也提供了一部分沒有標注的影像數(shù)據(jù)用于無監(jiān)督預訓練基礎識別模型。在實際場景中我們擁有海量的無標注影像數(shù)據(jù),為預訓練提供了廣闊空間。在經濟作物識別場景,通過預訓練可以有效降低對標注數(shù)據(jù)的需求,并提升模型識別效果。

賽題三——融資數(shù)字化

賽題解讀

提升鄉(xiāng)村普惠金融服務覆蓋面和便利性,持續(xù)加大對“三農”領域的金融支持力度,是我國全面推進鄉(xiāng)村振興的重點工作之一。在農村振興相關領域貸款投放方面,金融機構發(fā)揮著重要的作用,通過向農村產業(yè)鏈的經營者發(fā)放貸款,可以滿足鄉(xiāng)村振興生產經營融資需求,緩解“融資難”等問題。

然而涉農經營者信貸風險管理有其特殊性,需根據(jù)特定的行業(yè)風險點,制定相應的風險評估防范策略,提升智能化風險管理水平。本賽題將探索農村金融中一個基礎問題,即如何利用數(shù)字化技術來識別農村經營者的經營狀況和經營風險,其也是幫助農村經營者進行融資的基礎能力之一。

基于這樣的背景,我們主要圍繞涉農經營者風險評估這一關鍵問題,考察選手如何利用涉農經營者特征以及非結構化數(shù)據(jù),如用戶交互關系等,來幫助提高涉農經營者的風險評估模型的精度。

在本次賽題提供的數(shù)據(jù)中,不僅有部分涉農經營者的風險相關,如信貸行為信息;還提供了用戶多源的交互關系,如涉及用戶收付款相關的序列行為、用戶交互關系等。要求選手預測農村經營者在未來將存在的潛在經營風險??紤]到農村地區(qū)數(shù)字化程度普遍偏低,其數(shù)據(jù)基礎較薄,特征比較稀疏,因此選手們會如何充分利用非結構化數(shù)據(jù)做好建模以及提取到有效信息,是本賽題的一個重要考察點。

觀察記錄

區(qū)別于前幾道賽題,本題目有幾個重要的特點:首先,正如實際業(yè)務中的情況,提供的特征數(shù)據(jù)內容比較稀疏,同時測試集ID不能用來對齊訓練和測試數(shù)據(jù)的,因此基礎的特征工程角度提升空間有限。其次,本賽題提供了豐富的用戶交易序列數(shù)據(jù)和交互行為數(shù)據(jù),可以使用這些非結構化數(shù)據(jù)對用戶信息進行傳遞,因而可以考慮使用圖神經網絡進行建模。

實際上,一些典型的與用戶交易關系、操作行為相關的欺詐類風險檢測問題,包括和金融相關的風險,都通??梢允褂脠D神經網絡進行建模。圖神經網絡建模,一方面可以充分關系數(shù)據(jù)構圖,使用結構數(shù)據(jù)刻畫用戶之間的關系與相似性,此外沿著網絡拓撲結構對鄰居節(jié)點的特征進行傳播和聚合,還可以緩解特征缺失的問題,并且高階的關系數(shù)據(jù)也是對風險預測有很重要的作用的。

從對選手實際比賽中來看,在時間緊張的情況下,對圖神經網絡熟悉和結構數(shù)據(jù)熟悉的隊伍會有比較大的優(yōu)勢。并且在實際操作過程中,幾乎所有選手都發(fā)現(xiàn)了充分利用非結構化數(shù)據(jù)構圖的必要性,但在實現(xiàn)上,兩隊分別采用了不同的策略,一隊能夠快速地搭建大規(guī)模數(shù)據(jù)下圖神經網絡的采樣、以及卷積的框架,另一隊則是以樹模型為主,人工聚合鄰居特征為輔的形式來替代圖神經網絡的卷積過程進行特征提取。

此外,該賽題全過程中采用封榜的機制,每隊選手僅能得知對方隊伍分數(shù)是否有提升,并不知道自己的排名,這為雙方選手均帶來了一定的心理壓力和競爭壓力。而對于采用不同策略和方法進行圖數(shù)據(jù)建模的選手,最終誰能夠在比賽中獲得勝利,也是令人期待的。

雷峰網(公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說