網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

本文作者：青暮

編輯：劉曉坤

2021-06-24 11:05

導(dǎo)語(yǔ)：穩(wěn)住，別慌，問(wèn)題不大

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

作者 | 陳大鑫、陳彩嫻

昨晚脈脈上有網(wǎng)友爆料，字節(jié)跳動(dòng)一位實(shí)習(xí)生刪除了公司所有輕量級(jí)別的機(jī)器學(xué)習(xí)模型網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

！

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

什么是lite模型？

該樓主表示，lite模型就是公司內(nèi)幾乎所有GB大小以下的機(jī)器學(xué)習(xí)模型，且全部被刪除了，實(shí)習(xí)生直接刪除的是父目錄且加了 skip trash （刪除文件時(shí)臨時(shí)禁用回收）操作，導(dǎo)致被刪除模型無(wú)法被恢復(fù)。

當(dāng)晚全公司通報(bào)，直接被列入 P0 事故等級(jí)（嚴(yán)重事故）：

據(jù)樓層討論，光是處理問(wèn)題的群就進(jìn)了接近三百人，其殃及業(yè)務(wù)之廣可想而知：

大家都在討論這位實(shí)習(xí)生的去留，我們搜了一下，據(jù)說(shuō)，“只要不是主觀故意的”就不會(huì)被開(kāi)除：

所以說(shuō)一定要穩(wěn)住別慌，問(wèn)題不大。

網(wǎng)友熱議

有網(wǎng)友表示這是實(shí)習(xí)生給你們這幫人出了一道hard題，不過(guò)沒(méi)有標(biāo)準(zhǔn)答案，考驗(yàn)?zāi)銈兘忸}能力的時(shí)候到了。

還有網(wǎng)友表示實(shí)習(xí)生不能有權(quán)限操作這么重要的東西，這鍋80%應(yīng)該判給管理者，實(shí)習(xí)生反倒是暴露了問(wèn)題，換個(gè)角度來(lái)看，實(shí)習(xí)生立功了。

我們知道，字節(jié)跳動(dòng)最出名的文化之一，就是扁平化管理。實(shí)習(xí)生與正式員工有同樣的文檔權(quán)限，這也是字節(jié)能夠在與BAT等大廠競(jìng)爭(zhēng)中保持靈活高效的秘訣，從這個(gè)角度上來(lái)說(shuō)，說(shuō)實(shí)習(xí)生立功倒也不能算錯(cuò)。

而別的對(duì)手就權(quán)限不一了。

到底刪除了多少模型？

根據(jù)字節(jié)網(wǎng)友后來(lái)發(fā)到網(wǎng)上的疑似截圖顯示，被刪除的只是：“Lagrange Lite 全量 Batch模型的備份”，且顯示為「被誤刪」。

又有字節(jié)的工程師網(wǎng)友表示刪除的都是離線數(shù)據(jù)，影響不大。

該樓主好像對(duì)此事非常熱衷，全程在線跟帖，表示“確實(shí)影響不大但是麻煩，重新訓(xùn)練模型和延遲上線理論上都會(huì)對(duì)指標(biāo)有負(fù)向只是不那么明顯了”。

實(shí)習(xí)生“立大功”

2018年據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道，谷歌內(nèi)部一位實(shí)習(xí)生無(wú)意中犯下一個(gè)“小”錯(cuò)誤，導(dǎo)致一則沒(méi)有意義的廣告投放到“大量”網(wǎng)頁(yè)和應(yīng)用中，持續(xù)了大約為45分鐘，相關(guān)費(fèi)用和清理成本達(dá)到1000萬(wàn)美元，真可謂小手一抖，千萬(wàn)元沒(méi)有。

字節(jié) AI

字節(jié)都有什么出名的機(jī)器學(xué)習(xí)產(chǎn)品？

字節(jié)跳動(dòng)最早是以今日頭條來(lái)闖蕩江湖，在今日頭條以及后來(lái)的抖音和火山等產(chǎn)品上肯定用到了不少機(jī)器學(xué)習(xí)推薦算法，這就先不提了。

此外，在抖音這款“有毒”的產(chǎn)品上，也時(shí)不時(shí)見(jiàn)到各種運(yùn)用 AI 算法來(lái)做人臉變化的技術(shù)應(yīng)用，比如最近的在抖音上比較火的重返3歲的AI特效等等。

據(jù) AI科技評(píng)論所知，字節(jié)還開(kāi)源過(guò)一個(gè)名為L(zhǎng)ightSeq的序列推理引擎，它對(duì)以 Transformer 為基礎(chǔ)的序列特征提取器（Encoder）和自回歸的序列解碼器（Decoder）做了深度優(yōu)化，早在 2019 年 12 月就已經(jīng)開(kāi)源，應(yīng)用在了包括火山翻譯等眾多業(yè)務(wù)和場(chǎng)景。

據(jù)了解，這應(yīng)該是業(yè)界第一款完整支持 Transformer、GPT 等多種模型高速推理的開(kāi)源引擎。

LightSeq 可以應(yīng)用于機(jī)器翻譯、自動(dòng)問(wèn)答、智能寫(xiě)作、對(duì)話回復(fù)生成等眾多文本生成場(chǎng)景，大大提高線上模型推理速度，改善用戶(hù)的使用體驗(yàn)。

相比于目前其他開(kāi)源序列推理引擎，LightSeq具有如下幾點(diǎn)優(yōu)勢(shì)：1. 高性能；2. 支持模型功能多； 3. 簡(jiǎn)單易用，無(wú)縫銜接Tensorflow、PyTorch等深度學(xué)習(xí)框架。

據(jù) AI科技評(píng)論所知，字節(jié)跳動(dòng)AI Lab最近計(jì)劃要開(kāi)源「新版訓(xùn)練加速引擎」，可以讓模型訓(xùn)練加速3倍以上。

最后，據(jù)這次的誤刪除事件來(lái)看，1GB 的模型其實(shí)不算大，大概只有幾億的參數(shù)量級(jí)，反觀現(xiàn)在 AI 江湖動(dòng)則千億萬(wàn)億起步的模型，1GB以下的模型真的不算大，算不上是決定性的模型。

或許此次事件對(duì)字節(jié)只是一件不痛不癢的小事，字節(jié)的高層或許壓根不知道此事，畢竟這又不是刪庫(kù)跑路。

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

雖說(shuō)如此，但程序里的bug是個(gè)玄學(xué)，有時(shí)哪怕某個(gè)小bug產(chǎn)生的影響往往也是難以預(yù)料的，有時(shí)會(huì)牽一發(fā)而動(dòng)全身，若是趕巧也可能影響整個(gè)產(chǎn)品線。

但是，還是希望各位公司謹(jǐn)記「天干物燥，小心火燭」。

歡迎加作者微信，有事吃瓜、爆料，無(wú)事也可以上班時(shí)間找我嘮嗑、扯淡交個(gè)朋友網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

：

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

青暮

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......

網(wǎng)傳字節(jié)跳動(dòng)實(shí)習(xí)生刪除GB以下所有機(jī)器學(xué)習(xí)模型，差點(diǎn)沒(méi)上頭條......