丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
智能駕駛 正文
發(fā)私信給大壯旅
發(fā)送

0

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

本文作者: 大壯旅 2020-04-03 17:14
導(dǎo)語:機(jī)器學(xué)習(xí)模型的性能與訓(xùn)練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

雷鋒網(wǎng)按,眾所周知,機(jī)器學(xué)習(xí)模型的性能與訓(xùn)練所用數(shù)據(jù)集的質(zhì)量息息相關(guān)。不過,怕什么來什么,計(jì)算視覺新創(chuàng)公司 Roboflow 就宣稱,我們擔(dān)心的情況在行業(yè)內(nèi)時有發(fā)生。 Roboflow  的創(chuàng)始人 Brad Dwyer 指出,一些用來訓(xùn)練自動駕駛汽車的知名數(shù)據(jù)集遺漏了不少關(guān)鍵數(shù)據(jù)。

Dwyer 指出,包含了 1.5 萬張圖片(主要是白天在山景城及附近區(qū)域采集)的 Udacity Dataset 2 就出現(xiàn)了遺漏。他們在數(shù)據(jù)集中發(fā)現(xiàn)了數(shù)千張沒有標(biāo)簽的車輛、行人圖片。在大約 5000 張圖片中,還出現(xiàn)了很多沒有標(biāo)簽的自行車(其中有 217 張甚至沒有任何注釋,但這些樣片中確實(shí)有小汽車、卡車、街燈或行人)。除此之外,Roboflow 還在該數(shù)據(jù)集中發(fā)現(xiàn)了虛假注釋以及復(fù)制粘貼,甚至體積明顯超標(biāo)的bounding box。

標(biāo)簽相當(dāng)重要,但它并不是 AI 系統(tǒng)理解范式含義(比如什么時候一個人會走到車前)并給予該知識評估未來事物的準(zhǔn)繩。不過,錯誤標(biāo)簽或者沒有標(biāo)簽的項(xiàng)目可能會造成精度降低或糟糕的決策,而對自動駕駛汽車來說這可是災(zāi)難的根源。

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

數(shù)據(jù)集中很多目標(biāo)都沒有標(biāo)簽

“開源數(shù)據(jù)集確實(shí)很棒,但如果想贏得公眾的信任,我們必須保證自己分享的數(shù)據(jù)足夠完整且準(zhǔn)確?!盌wyer 寫道。他還指出,在 Udacity 的自動駕駛工程課上,成千上萬的學(xué)生都在用 Dataset 2 支持一個開源的自動駕駛項(xiàng)目?!叭绻阍陧?xiàng)目中用了公共數(shù)據(jù)集,車輛上路前請一定要做好盡職調(diào)查并檢查其完整性?!?/strong>

眾所周知,AI 容易因數(shù)據(jù)集不完整或偏斜而產(chǎn)生偏見。舉例來說,詞嵌入是一種常見的算法訓(xùn)練技術(shù),由于涉及將詞鏈接到向量,因而不可避免地會拾?。ㄗ钤愀獾氖欠糯螅┰次谋竞蛯υ捴须[含的偏見。眼下,許多面部識別系統(tǒng)就有點(diǎn)“種族歧視”,它們識別起有色人種錯誤率就要高一些。Google Photos 甚至錯誤為黑人打上了“大猩猩”的標(biāo)簽。

目前,除了 2018 年 Uber 測試車那起致命事故,自動駕駛汽車遭遇的都是磕磕碰碰的小事故。不過,這可能是因?yàn)槁飞系淖詣玉{駛汽車太少了,而未來情況可能會發(fā)生巨變。按市場研究公司 ABI 所言,2025 年將有 800 萬臺自動駕駛汽車上路,Research and Markets 則預(yù)計(jì)到 2030 年全美將有 2000 萬臺自動駕駛汽車投入運(yùn)營。

別亂用開源數(shù)據(jù)集,它可能會把自動駕駛汽車帶溝里!

如果這些車輛都搭載著有缺陷的 AI 模型,一旦它們突然失靈,后果恐怕不堪設(shè)想,比如用一場惡性事故徹底毀掉人們對自動駕駛汽車的信心。布魯金斯學(xué)會與高速公路和汽車安全維權(quán)組織(AHAS)的研究均發(fā)現(xiàn)大部分美國人都對自動駕駛汽車的安全性不放心。布魯金斯學(xué)會的調(diào)查顯示,有超過 60% 的受訪者不想乘坐自動駕駛汽車,而 AHAS 的調(diào)查中則有 70% 的受訪者不愿和自動駕駛汽車共享道路。

想解決數(shù)據(jù)集的遺漏問題,就必須用上更好的打標(biāo)簽方案。Dataset 2 在 Github 的官方頁面表示,自家的打標(biāo)簽工作靠的是眾包語料注釋公司 Autti,后者用到了機(jī)器學(xué)習(xí)與人工監(jiān)督相結(jié)合的方法。當(dāng)然,現(xiàn)在我們還無法肯定數(shù)據(jù)集的遺漏是否與這種打標(biāo)簽的方法有關(guān),未來嚴(yán)格的驗(yàn)證步驟才能給它蓋棺定論。

Roboflow 告訴 Sophos 的 Naked Security,稱公司計(jì)劃使用原始數(shù)據(jù)集和數(shù)據(jù)集的固定版本(已在開放源代碼中提供)進(jìn)行實(shí)驗(yàn),以查看在訓(xùn)練各種模型架構(gòu)時問題的嚴(yán)重程度。“如果與其他領(lǐng)域(例如醫(yī)學(xué),動物,游戲)的數(shù)據(jù)集相比,Dataset 2 質(zhì)量真是特別差,” Dwyer解釋道。“我希望未來大公司們對打標(biāo)簽、清潔和驗(yàn)證過程再上點(diǎn)心吧。”

在一份聲明中,Udacity 強(qiáng)調(diào)稱,作為工具,自家的數(shù)據(jù)集純粹是為了教育目的而生,它們從未暗示過該數(shù)據(jù)集是完美的,或數(shù)據(jù)都打了標(biāo)簽。此外,雖然 Udacity 在用該數(shù)據(jù)集訓(xùn)練自家自動駕駛汽車,但幾年來這些車輛均在封閉測試道路行駛,從沒上過公路。

“我們放出這個數(shù)據(jù)集的目的是為了幫助那些剛剛轉(zhuǎn)戰(zhàn)自動駕駛領(lǐng)域的研究人員和工程師?!盪dacity 發(fā)言人說道?!昂髞恚愃?Waymo、nuTonomy 和 Voyage 等公司都放出國更新更好的數(shù)據(jù)集,它們才是面向現(xiàn)實(shí)世界的。因此,我們這個項(xiàng)目三年都沒更新了。也就是說,濫用這些教育數(shù)據(jù)集不但起不到幫助作用,可能還會造成誤導(dǎo)。”

雷鋒網(wǎng)&雷鋒網(wǎng)&雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄