0
本文作者: 任平 | 2023-03-13 14:37 |
前不久,騰訊研究院發(fā)布《AIGC發(fā)展趨勢(shì)報(bào)告2023:迎接人工智能的下一個(gè)時(shí)代》指出,AIGC的商業(yè)化應(yīng)用將快速成熟,市場(chǎng)規(guī)模會(huì)迅速壯大,預(yù)測(cè)將率先在傳媒、電商、醫(yī)療等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)取得重大發(fā)展。
與此同時(shí),諸多國(guó)外商業(yè)咨詢機(jī)構(gòu)更是直接給出數(shù)據(jù):未來(lái)五年10%-30%的圖片內(nèi)容由AI參與生成,2030年AIGC市場(chǎng)規(guī)模將達(dá)到1100億美元。
星星之火,可以燎原。早在五年前,AIGC還籍籍無(wú)名。它有一個(gè)相當(dāng)拗口的名字--AI生成虛擬內(nèi)容。以2018年的視頻換臉技術(shù)Deepfake為代表,“AI偽原創(chuàng)”一詞,便從那時(shí)傳開(kāi)。
隨著深度學(xué)習(xí)的發(fā)展,AIGC逐漸滲透在圖像、視頻、CG、AI訓(xùn)練數(shù)據(jù)等各類領(lǐng)域,人們對(duì)于這一技術(shù)的期望也逐漸豐滿。
時(shí)至今日,AIGC技術(shù)能否用于計(jì)算生物領(lǐng)域的新引擎,醫(yī)療健康賽道何時(shí)迎來(lái)新型基礎(chǔ)驅(qū)動(dòng)力,成為時(shí)下產(chǎn)學(xué)研各界的共同關(guān)切。
近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《ChatGPT的一把火,能否燒到AI生命科學(xué)界?》線上圓桌論壇落幕。
本次論壇,由中國(guó)人民大學(xué)數(shù)學(xué)學(xué)院龔新奇擔(dān)任主持,中國(guó)科學(xué)院深圳理工大學(xué)(籌)計(jì)算機(jī)科學(xué)與控制工程學(xué)院院長(zhǎng)潘毅、百圖生科首席AI科學(xué)家宋樂(lè)、深圳灣實(shí)驗(yàn)室系統(tǒng)與物理生物學(xué)研究所資深研究員周耀旗、分子之心創(chuàng)始人許錦波,天壤創(chuàng)始人薛貴榮參與討論。近期ChatGPT爆火,歡迎添加作者微信(微信號(hào):icedaguniang),互通有無(wú)。
在上篇中,幾位嘉賓共同辨析“AIGC”這一概念,探討生命科學(xué)界中的哪些成果屬于AIGC,以及ChatGPT在生命科學(xué)領(lǐng)域中可能實(shí)現(xiàn)的任務(wù)。
在下篇中,將分別探討AIGC為生命科學(xué)帶來(lái)的可能性與其自身局限,以及中國(guó)能否在應(yīng)用場(chǎng)景上快人一步,實(shí)現(xiàn)技術(shù)落地與產(chǎn)業(yè)轉(zhuǎn)化。
“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。
經(jīng)過(guò)幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。
以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/strong>
龔新奇:目前來(lái)看,ChatGPT的文本生成功能確實(shí)挺強(qiáng),第一次讓我們感覺(jué)它像個(gè)人一樣,能夠自然地聊天,讀懂你的感情、還可以體會(huì)到一些細(xì)微的褒貶。而且你可以正反提問(wèn),甚至還可以夸獎(jiǎng)它、批評(píng)它。因此,ChatGPT的出現(xiàn),能否比肩AlphaGo或是AlphaFold2的出現(xiàn),是否會(huì)成為生命科學(xué)跨越式發(fā)展的契機(jī)?
周耀旗:我不認(rèn)為ChatGPT可以比肩AlphaGo或是AlphaFold2。AlphaGo當(dāng)年戰(zhàn)勝了人類最好的棋手,而AlphaFold2在高精度蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上取得了革命性進(jìn)展,但ChatGPT對(duì)生命科學(xué)來(lái)講,錯(cuò)誤率太高、準(zhǔn)確度不夠,還不能算作一個(gè)跨越性的成果。
但我對(duì)它的未來(lái)版本充滿了信心,特別是當(dāng)ChatGPT跟搜索引擎結(jié)合,會(huì)大幅度提高它的精確度。因?yàn)樗梢猿鼍呶墨I(xiàn)出處,還可以幫我們提供各個(gè)領(lǐng)域的綜述、問(wèn)題解決思路、促進(jìn)不同領(lǐng)域溝通,甚至幫助學(xué)者撰寫(xiě)文章初稿。那么未來(lái)跨專業(yè)、跨語(yǔ)言的交叉研究就變得容易一些。
所以我認(rèn)為,未來(lái)升級(jí)版本的ChatGPT完全可以成為一個(gè)創(chuàng)新樞紐。科學(xué)家把更多精力放在提出問(wèn)題上,并根據(jù)AI的建議來(lái)優(yōu)化、驗(yàn)證解決問(wèn)題的方法和思路。所以ChatGPT的出現(xiàn)還是有一定的意義,它推動(dòng)了一個(gè)有想象力時(shí)代的到來(lái)。
潘毅:我認(rèn)為今后ChatGPT很有可能成為生命科學(xué)領(lǐng)域跨越式的發(fā)展契機(jī)。至于它的影響力,我跟周教授有不同看法,我認(rèn)為ChatGPT的影響力會(huì)大于AlphaGo和AlphaFold2。
為什么?
AlphaGo為專為圍棋而設(shè)計(jì),AlphaFold是專為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)而設(shè)計(jì),所以它們是一個(gè)為專業(yè)而生的AI平臺(tái)。相比而言,ChatGPT是一款通用型AI平臺(tái),既可以交流,又可以撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼,寫(xiě)論文等等,普羅大眾都可以試一試,所以ChatGPT的影響力要遠(yuǎn)比AlphaGo和AlphaFold更廣泛、更深刻。因此,雖然ChatGPT在生命科學(xué)領(lǐng)域里比不上AlphaFold,AlphaFold在圍棋上比不上AlphaGo,本質(zhì)是術(shù)業(yè)有專攻。
最近我和老同學(xué)黃學(xué)東聊天,發(fā)現(xiàn)他對(duì)ChatGPT的評(píng)價(jià)很高,“微軟如今加碼ChatGPT,是因?yàn)镃hatGPT之于AI,相當(dāng)于芯片之于計(jì)算機(jī)這么重要?!?/p>
要知道,黃學(xué)東多年擔(dān)任微軟Azure AI技術(shù)研究員和首席技術(shù)官,前不久剛剛當(dāng)選2023年美國(guó)工程院院士,此前他并未將Alphago和AlphaFold定義為一個(gè)“里程碑式”的技術(shù)突破。
當(dāng)然,周教授說(shuō)得很對(duì),ChatGPT在生物領(lǐng)域的影響力也許還沒(méi)達(dá)到,目前ChatGPT無(wú)法處理復(fù)雜冗長(zhǎng)或者特別專業(yè)的語(yǔ)言結(jié)構(gòu)。但隨著AI技術(shù)的改進(jìn),幾年以后它一定會(huì)趕上,甚至?xí)^(guò)AlphaGo和AlphaFold。
從另一方面考慮,如今ChatGPT作為一個(gè)通用平臺(tái),應(yīng)該如何推動(dòng)生命科學(xué)發(fā)展?
一、生命科學(xué)領(lǐng)域的學(xué)者為其注入專業(yè)性更強(qiáng)的生物知識(shí),只有進(jìn)行足夠的語(yǔ)料“喂食”,ChatGPT才有可能生成適當(dāng)?shù)幕卮?。那時(shí)候,它或?qū)⒂糜诘鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè),蛋白質(zhì)設(shè)計(jì)、蛋白質(zhì)相互作用分析等各類任務(wù)。
二、指揮ChatGPT編寫(xiě)程序,比如Java程序、HTML程序,以及各種API( 應(yīng)用程序編程接口)。那么未來(lái)生物學(xué)家只需要發(fā)出指令,ChatGPT就能完成從代碼編寫(xiě)、接口耦合到程序測(cè)試的一系列工作。這也意味著,盡管很多人不能完全精通各種計(jì)算機(jī)語(yǔ)言,但我們只需要會(huì)做一些策劃性工作,就能快速搞定項(xiàng)目。
宋樂(lè):從通用人工智能的角度來(lái)說(shuō),ChatGPT確實(shí)是一個(gè)非常大的進(jìn)步。因?yàn)樵贏 I領(lǐng)域,過(guò)去的對(duì)話機(jī)器人很難媲美ChatGPT。因?yàn)镃hatGPT除了邏輯嚴(yán)密的創(chuàng)造能力之外,還具有記憶能力,在連續(xù)的對(duì)話中不用大家提供重復(fù)信息,其語(yǔ)言組織和表達(dá)能力也更接近人類水平,使對(duì)話更自然流暢。
但實(shí)際上,ChatGPT的創(chuàng)造性、流暢度,多輪對(duì)話能力,依賴于多種AI技術(shù)的結(jié)合,包括它的訓(xùn)練方式都和過(guò)去的AI模型不太一樣。
OpenAI使用了RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí)) 技術(shù)對(duì)ChatGPT進(jìn)行了訓(xùn)練,且加入了更多人工監(jiān)督進(jìn)行微調(diào)。因此,ChatGPT進(jìn)一步提高了AI模型與人類的交互能力,對(duì)信息含義的理解能力,以及自我判斷能力。
所以,ChatGPT的本質(zhì)是對(duì)人類語(yǔ)言(自然語(yǔ)言、程序指令)反應(yīng)能力的數(shù)學(xué)逼近。相比較而言,過(guò)去我們和計(jì)算機(jī)交互,要么自己打字,要么輸入非常結(jié)構(gòu)化、死板的程序語(yǔ)言。但現(xiàn)在就可以直接以用自然語(yǔ)言和計(jì)算機(jī)交互,把它視為人類助手。
最近斯坦福一位教授發(fā)現(xiàn),GPT-3.5的智力已經(jīng)和9歲的小孩相當(dāng),這是以前任何AI 程序都不可能達(dá)到的高度??傮w而言,我認(rèn)為ChatGPT是可以被視為里程碑式的AI成果,而且它確實(shí)會(huì)帶來(lái)一系列的工業(yè)級(jí)應(yīng)用,甚至未來(lái)基于ChatGPT衍生出更高級(jí)的AI模型。
說(shuō)到這里,ChatGPT也有一些局限性,比如因?yàn)橹R(shí)缺失,產(chǎn)生一些不正確或者荒謬的答案。
比如你問(wèn)它“紅燒蚊子腿怎么做”,它會(huì)給你一個(gè)正了八經(jīng)的回答:先把蚊子腿洗干凈,再熬制糖漿,然后放入蔥姜蒜煮熟?!彼皇前选凹t燒豬肉”的做法重復(fù)了一遍,把“豬肉”換成了“蚊子腿”。
還有一些有趣的例子,比如你叫它做一些算數(shù)運(yùn)算。如果只是簡(jiǎn)單的單位數(shù)運(yùn)算還好,但如果數(shù)字比較長(zhǎng),或者比較復(fù)雜,它就做不了。實(shí)際上,這體現(xiàn)了ChatGPT當(dāng)前的訓(xùn)練模式的局限性,更加偏向于基于序列的擬合,或者表征生成序列的形式去訓(xùn)練。
所以ChatGPT還能朝什么方向優(yōu)化?
有三點(diǎn)思路:
一、未來(lái)需要向ChatGPT注入一些知識(shí)圖譜,比如數(shù)學(xué)運(yùn)算能力、生物識(shí)別能力,補(bǔ)齊它在這些維度的智慧;
二、對(duì)于蛋白質(zhì)設(shè)計(jì)、藥物設(shè)計(jì)等細(xì)分領(lǐng)域而言,就可以直接“外掛”一些專業(yè)模塊,比如復(fù)合物結(jié)構(gòu)模塊、親和力模塊、蛋白質(zhì)穩(wěn)定性模塊,當(dāng)“外掛”越多,它的智力更高,也會(huì)輸出更更貼合需求的結(jié)果;
三、我們也可以學(xué)習(xí)ChatGPT的算法思路和模型訓(xùn)練方式,“投喂”十億級(jí)、百億級(jí)的蛋白質(zhì)序列數(shù)據(jù),訓(xùn)練出一個(gè)專用于蛋白質(zhì)設(shè)計(jì)的模型。
薛貴榮:我們比較有幸,2018年做過(guò)AlphaGo的復(fù)現(xiàn),2021年我們做過(guò)AlphaFold2的復(fù)現(xiàn)。但總體來(lái)說(shuō),這些領(lǐng)域我們有膽量嘗試,但從來(lái)沒(méi)有嘗試過(guò)的就是語(yǔ)言類AI模型。
眾所周知,自然語(yǔ)言處理(NLP)、機(jī)器學(xué)習(xí)(ML)發(fā)展了很多年,但人機(jī)交互仍然不能做到問(wèn)答自如,邏輯流暢。根本原因是建立自然語(yǔ)言處理模型的實(shí)用系統(tǒng),需要不同層面的知識(shí),比如匯學(xué)、句法學(xué)、語(yǔ)義學(xué)和語(yǔ)用學(xué)等知識(shí)。
而且NLP是一個(gè)交叉學(xué)科,涉及了方方面面的知識(shí)領(lǐng)域,包括計(jì)算機(jī)科學(xué)(給NLP提供模型表示、算法設(shè)計(jì)、計(jì)算機(jī)實(shí)現(xiàn)的技術(shù))、數(shù)學(xué)(給NLP提供形式化的數(shù)學(xué)模型和形式化的數(shù)學(xué)算法)、電子工程:(給NLP提供信息論的理論基礎(chǔ)和語(yǔ)言信號(hào)處理技術(shù)),以及心理學(xué)、哲學(xué)、統(tǒng)計(jì)學(xué)等等。所以從開(kāi)發(fā)難度上看,ChatGPT都是當(dāng)之無(wú)愧的AI界“天花板”。
另一方面,無(wú)論是AlphaGo還是AlphaFold2,都是某一領(lǐng)域的專業(yè)軟件,但ChatGPT更像一款平民版AI,能夠承載幾個(gè)億的用戶一起測(cè)試,因此,它在覆蓋面、影響力上,都遠(yuǎn)超AlphaGo和AlphaFold2。未來(lái),大家肯定希望像ChatGPT這樣的技術(shù)能夠應(yīng)用在生命科學(xué)場(chǎng)景中。
比如,現(xiàn)在的醫(yī)療問(wèn)題是大家有問(wèn)題找專家,但在醫(yī)療資源分配不均、醫(yī)療供給量不足的情況下,這一問(wèn)題始終得不到解決。那么ChatGPT就可以發(fā)揮出“消費(fèi)級(jí)應(yīng)用”的特長(zhǎng),滲透入看病、制藥等環(huán)節(jié),降低專家依賴,一步講清所有深?yuàn)W的“病理、藥理”。而經(jīng)歷過(guò)疫情三年后,大家更關(guān)注健康問(wèn)題,我們也更加期待ChatGPT能夠聯(lián)姻生命科學(xué),實(shí)現(xiàn)跨越式發(fā)展。
許錦波:從AI的角度來(lái)說(shuō),ChatGPT的出現(xiàn)意義可以和AlphaGo、AlphaFold2相提并論。它們都是重大技術(shù)突破,激發(fā)的討論突破了業(yè)界的范疇,外溢到公眾層面,可見(jiàn)影響力巨大。但是從生命科學(xué)角度來(lái)講,在蛋白質(zhì)設(shè)計(jì)等方面,ChatGPT并不專精。實(shí)際上用AI進(jìn)行蛋白質(zhì)設(shè)計(jì)或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),兩年前甚至三年前就發(fā)生了,只是模型比ChatGPT更小,當(dāng)時(shí)的算力也比較小。
因此,如今AI領(lǐng)域面臨的重要問(wèn)題是,現(xiàn)在的算法跟兩年前的AI算法,到底有沒(méi)有本質(zhì)上的區(qū)別?
至少目前來(lái)說(shuō),我沒(méi)看到本質(zhì)上的區(qū)別。當(dāng)然,在蛋白質(zhì)設(shè)計(jì)上,現(xiàn)在的算法相比于傳統(tǒng)算法確實(shí)取得了進(jìn)步,很多人也在討論,我們是不是要研發(fā)出一個(gè)ProtGPT,大幅度提高蛋白質(zhì)設(shè)計(jì)的成功率?但要明白一點(diǎn),所有通過(guò)AI設(shè)計(jì)出來(lái)的蛋白質(zhì)都要有濕實(shí)驗(yàn)驗(yàn)證。如果未來(lái)AI能夠大幅度降低對(duì)濕實(shí)驗(yàn)的要求,降低實(shí)驗(yàn)成本和時(shí)間,甚至用計(jì)算驗(yàn)證來(lái)替代實(shí)驗(yàn)驗(yàn)證,那將是更大的進(jìn)步。
當(dāng)ChatGPT/AIGC大展拳腳,生命科學(xué)領(lǐng)域最明顯的變化會(huì)是什么?另一方面,這種概念對(duì)于生命科學(xué)行業(yè),是否有不確定性或者危機(jī)?
周耀旗:我覺(jué)得AI已經(jīng)為生命科學(xué)帶來(lái)了很大變化,特別是AlphaFold2對(duì)大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè),與真實(shí)結(jié)構(gòu)只差一個(gè)原子的寬度,達(dá)到了人類利用冷凍電鏡等復(fù)雜儀器觀察預(yù)測(cè)的水平。這一重大成果雖然沒(méi)有引起媒體和廣大民眾的關(guān)注,但生物領(lǐng)域的科學(xué)家反應(yīng)強(qiáng)烈。
可以說(shuō),AlphaFold2對(duì)生物機(jī)制的理解,對(duì)藥物設(shè)計(jì)都帶來(lái)了正面影響。當(dāng)然,未來(lái)AIGC一定為生命科學(xué)帶來(lái)更大的變化,比如AI設(shè)計(jì)的蛋白質(zhì)會(huì)越來(lái)越多,進(jìn)一步補(bǔ)充PDB蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)、功能庫(kù),推動(dòng)人類對(duì)生命科學(xué)的理解進(jìn)入到一個(gè)新的高度。
與此同時(shí),ChatGPT對(duì)于生命科學(xué)行業(yè)也有很大的不確定性:
一、預(yù)測(cè)是否錯(cuò)誤,錯(cuò)誤率是多少,以及是否誤導(dǎo)用戶。因?yàn)锳I是通過(guò)海量數(shù)據(jù)訓(xùn)練出來(lái)的,因此這一缺點(diǎn)也與大數(shù)據(jù)的問(wèn)題一樣:數(shù)據(jù)很精確但錯(cuò)得離譜。相比而言,AlphaFold2有一個(gè)plDDT打分函數(shù),但是打分函數(shù)并不一定完全正確,有時(shí)候還是錯(cuò)的;
同時(shí),我們也不可能對(duì)每個(gè)設(shè)計(jì)結(jié)果都做驗(yàn)證,所以有時(shí)候還是很受誤導(dǎo),得出一些錯(cuò)誤的結(jié)論。但目前我覺(jué)得是可以忍受的,因?yàn)槟P陀?xùn)練本身就是在糾錯(cuò),除了蛋白質(zhì)設(shè)計(jì)以外,其他生物高分子的應(yīng)用也是會(huì)越來(lái)越多,不僅僅DNA、RNA、代謝組、糖等各方面都會(huì)大展宏圖。
二、鑒于ChatGPT會(huì)把原來(lái)一篇文章重新編輯,那么我認(rèn)為未來(lái)最大問(wèn)題是出現(xiàn)假論文、編造假實(shí)驗(yàn)數(shù)據(jù)、甚至用這個(gè)技術(shù)做壞事,比如產(chǎn)生新病毒、新細(xì)菌,都是潛在風(fēng)險(xiǎn)。
所以長(zhǎng)期來(lái)講,AIGC會(huì)隨著時(shí)間更加成熟,這種不確定性和危機(jī)也會(huì)更加隱蔽,可能十幾年、三十年左右就會(huì)來(lái)臨。我們需要在科學(xué)研究能力和風(fēng)險(xiǎn)管理上提前做好準(zhǔn)備。
宋樂(lè):我可以想象,隨著數(shù)據(jù)量越來(lái)越多,算力越來(lái)越強(qiáng),AIGC模型本身的生成能力,以及各種外掛功能(親和力、穩(wěn)定性、表達(dá)量)的加持,或許未來(lái)非常多的蛋白質(zhì)設(shè)計(jì)工作都是在計(jì)算機(jī)里進(jìn)行,后端的濕實(shí)驗(yàn)數(shù)量就會(huì)大大減少。
那么當(dāng)ChatGPT/AIGC大展拳腳,生命科學(xué)領(lǐng)域最明顯的變化,我認(rèn)為有幾點(diǎn):
一、實(shí)驗(yàn)人員減少,要求也因此下降,未來(lái)或許也不需要那么多的人體臨床實(shí)驗(yàn);
二、實(shí)驗(yàn)工作者也要學(xué)習(xí)數(shù)據(jù)分析,朝AI的方向走,以及一些高校會(huì)將計(jì)算機(jī)課程設(shè)立為藥物、生物等專業(yè)學(xué)生的基礎(chǔ)課;
三、一些新的工作機(jī)會(huì)也會(huì)創(chuàng)造出來(lái),比如如何更好地銜接外掛和AIGC模型,如何真正地推動(dòng)AIGC模型加速藥物設(shè)計(jì)。
但從我的感受來(lái),生物的復(fù)雜程度各不相同,比如目前數(shù)據(jù)量最大的蛋白質(zhì)序列,那么“AIx蛋白質(zhì)設(shè)計(jì)”會(huì)最快落地,可能是未來(lái)3~5年。但是復(fù)雜度更高的領(lǐng)域,比如蛋白質(zhì)相互作用、細(xì)胞設(shè)計(jì)及相互作用、器官設(shè)計(jì)以及相互作用,它們需要更多的數(shù)據(jù),更大的算力、更長(zhǎng)的時(shí)間打造AI模型。
總體來(lái)說(shuō),AI在朝著那個(gè)方向走,只不過(guò)是時(shí)間長(zhǎng)短的問(wèn)題。
薛貴榮:可能我們最快感受到的變化,是藥物研發(fā)速度大大提高,比如以前研發(fā)一款新藥究竟有多難?醫(yī)藥界有個(gè)“雙十定律”:一款新藥從研發(fā)到上市,平均需要10年時(shí)間和10億美元的投入。
那么AIGC的發(fā)展,時(shí)間、資金可能都會(huì)縮短,準(zhǔn)確度還會(huì)有比較大幅度的提升。
當(dāng)然周教授也提到,或許不同目的的人會(huì)加速制造一些病毒細(xì)菌,那么未來(lái)監(jiān)管局既要推動(dòng)優(yōu)勢(shì)藥物上市,也要防范生化危機(jī),需要盡快建立系統(tǒng)性的管控制度和規(guī)范。
潘毅:剛才幾位教授都講得非常好,那么我認(rèn)為,ChatGPT/AIGC這種技術(shù)應(yīng)用在生命科學(xué)領(lǐng)域,第一大危機(jī)是什么?
一、數(shù)據(jù)污染。
因?yàn)樯畔㈩I(lǐng)域有諸多基因數(shù)據(jù)庫(kù),假設(shè)有人放入一萬(wàn)個(gè)有攻擊性的數(shù)據(jù),并將某些基因數(shù)據(jù)跟疾病關(guān)聯(lián),最終預(yù)測(cè)結(jié)果失準(zhǔn)。目前我們還沒(méi)有看到這樣的事情,因?yàn)镃hatGPT剛剛出現(xiàn),大家普遍想用它寫(xiě)出“好文章”,前后銜接、邏輯連貫、辭藻優(yōu)美。但如果你的目的是生成有破壞力的內(nèi)容,就會(huì)拿“爛文章”訓(xùn)練它,甚至ChatGPT也可能被引誘去做壞事。
二、巨大的算力和電力消耗量。
從技術(shù)原理來(lái)看,ChatGPT基于Transformer技術(shù),隨著模型不斷迭代,層數(shù)也越來(lái)越多,對(duì)算力的需求也就越來(lái)越大。從運(yùn)行條件來(lái)看,ChatGPT完美運(yùn)行的三個(gè)條件:訓(xùn)練數(shù)據(jù)+模型算法+算力,需要在基礎(chǔ)模型上進(jìn)行大規(guī)模預(yù)訓(xùn)練,存儲(chǔ)知識(shí)的能力來(lái)源于1750億參數(shù),需要大量算力。
要知道,一個(gè)參數(shù)要很多數(shù)據(jù)支撐,近2000億的參數(shù)中需要多少數(shù)據(jù),要消耗多少電?假如每個(gè)國(guó)家每個(gè)地區(qū)都這么做,能源可能就是一個(gè)問(wèn)題。所以規(guī)模也不能這么擴(kuò)大,我還是強(qiáng)調(diào)打造專業(yè)領(lǐng)域的BioGPT。
三、用戶沉湎、數(shù)據(jù)隱私、版權(quán)倫理。
用戶過(guò)分依賴于AI從事內(nèi)容創(chuàng)作,可能導(dǎo)致內(nèi)容非原創(chuàng),缺乏創(chuàng)造力,引發(fā)版權(quán)問(wèn)題,甚至隔絕物理世界,影響身心發(fā)展,社會(huì)整體運(yùn)作效率反而降低。
許錦波:ChatGPT帶來(lái)的好處,至少讓AI蛋白質(zhì)設(shè)計(jì)領(lǐng)域的從業(yè)者更有信心。最近一兩年,由于AI的深入發(fā)展,蛋白質(zhì)結(jié)構(gòu)及功能研究取得了巨大的突破,從傳統(tǒng)的物理和統(tǒng)計(jì)方法快速走向機(jī)器學(xué)習(xí),乃至深度學(xué)習(xí);分子生物學(xué)界的研究范式,也從基于序列的研究轉(zhuǎn)向基于結(jié)構(gòu)的研究,極大提高了蛋白質(zhì)從頭設(shè)計(jì)的效率。
而在產(chǎn)業(yè)界,AI蛋白質(zhì)發(fā)現(xiàn)和設(shè)計(jì)也乘勢(shì)而起,成為全球矚目的熱門(mén)賽道。
但目前來(lái)說(shuō),大家還無(wú)法確定:AI設(shè)計(jì)蛋白到底能做得多好?相比于傳統(tǒng)方法效率能提高多少?實(shí)驗(yàn)要求能夠降低多少?這些都還需要繼續(xù)探索。
龔新奇:黃民烈教授接受采訪及近年的現(xiàn)象所示,美國(guó)在AI的基礎(chǔ)研究上積累深厚,中國(guó)則是強(qiáng)于AI的場(chǎng)景應(yīng)用。在ChatGPT之后,百度將于3月上線ChatGPT產(chǎn)品,名為文心一言。當(dāng)AIGC用于生命科學(xué)領(lǐng)域,中國(guó)在技術(shù)落地、產(chǎn)業(yè)轉(zhuǎn)化上,是否具備“彎道超車”的機(jī)會(huì)?
薛貴榮:最近AIGC和ChatGPT的討論特別多,國(guó)內(nèi)又興起了一波AI熱潮。但就像剛才潘毅教授講到的一個(gè)關(guān)鍵問(wèn)題:必須建設(shè)各領(lǐng)域的專業(yè)版GPT。
在各塊專業(yè)領(lǐng)域,中國(guó)已經(jīng)積累了大量知識(shí)庫(kù),或許我們有機(jī)會(huì)做到彎道超車。尤其是在生命科學(xué)領(lǐng)域,中國(guó)的蛋白質(zhì)設(shè)計(jì)技術(shù)與國(guó)際基本上處于同一水平,已經(jīng)實(shí)現(xiàn)了核心技術(shù)的原始創(chuàng)新,為工業(yè)酶、生物材料、生物醫(yī)藥等功能蛋白的設(shè)計(jì)奠定了基礎(chǔ)。
舉個(gè)例子,去年12月1日,華盛頓大學(xué)David Baker團(tuán)隊(duì)發(fā)布了RFDiffusion、同日波士頓蛋白質(zhì)設(shè)計(jì)公司Generate Biomedicines發(fā)布了擴(kuò)散蛋白生成模型Chroma、同月Meta發(fā)布基于150億參數(shù)的ESM2語(yǔ)言模型,實(shí)現(xiàn)全新的非天然蛋白質(zhì)設(shè)計(jì)。今年年初,加州伯克利的一家初創(chuàng)公司Profluent也稱采用類似ChatGPT的蛋白質(zhì)工程深度學(xué)習(xí)語(yǔ)言模型——Progen,首次實(shí)現(xiàn)了AI預(yù)測(cè)蛋白質(zhì)的合成。目前我們也自研了一款擴(kuò)散模型TRDiffusion,設(shè)計(jì)多種多樣與天然蛋白質(zhì)截然不同的全新單鏈蛋白質(zhì)及復(fù)合體,目前已進(jìn)入實(shí)驗(yàn)驗(yàn)證階段。
實(shí)際上,無(wú)論是中國(guó)也好,美國(guó)也好,最大的優(yōu)勢(shì)是大家都能利用蛋白質(zhì)設(shè)計(jì)技術(shù),撬開(kāi)生命科學(xué)的窗口。那么后續(xù)大家會(huì)更加重視生命科學(xué)的產(chǎn)業(yè)環(huán)境,無(wú)論是創(chuàng)新藥環(huán)境、環(huán)保能源環(huán)境、食品安全環(huán)境等等,都會(huì)跟上技術(shù)研發(fā)的速度。所以我覺(jué)得,無(wú)論是科技研發(fā)、產(chǎn)業(yè)落地、還是風(fēng)險(xiǎn)投資,我們一定要對(duì)未來(lái)的產(chǎn)業(yè)環(huán)境有足夠的信心和投入。
對(duì)于天壤而言,未來(lái)在算法升級(jí),干濕實(shí)驗(yàn)室搭建、平臺(tái)開(kāi)發(fā)上都需要很大的投入;
其次,大家都知道,蛋白質(zhì)被稱為“生命的基石”,在已知的天然蛋白質(zhì)的背后,蘊(yùn)藏著一個(gè)隱密而巨大的“蛋白質(zhì)礦山”。大家都想最先找到那塊金礦,這方面特別考驗(yàn)團(tuán)隊(duì)的算力、算法、人才隊(duì)伍,以及下游的產(chǎn)業(yè)合作。所以這是一個(gè)聯(lián)動(dòng)的工作,研發(fā)做快了,后面也得跟著快。
因此,回到剛才講到的中國(guó)能否彎道超車的問(wèn)題,我認(rèn)為這是一個(gè)非常具有挑戰(zhàn)性的事情,但最根本的一點(diǎn),我們不能從一直follow別人的技術(shù),而是要從中國(guó)本土的產(chǎn)業(yè)轉(zhuǎn)化和人民需要上找問(wèn)題,這才是我們彎道超車的機(jī)會(huì)。
周耀旗:我認(rèn)為如今的ChatGPT有點(diǎn)像新一波AI熱潮。
2020年AlphaFold2出來(lái)的時(shí)候,大家對(duì)AI的興趣特別大,很多投資方出手,但很快發(fā)現(xiàn)AI公司并沒(méi)有那么快出效果,所以去年AI熱度又降了下來(lái)。如今ChatGPT讓AI再次回?zé)?,但也有人發(fā)現(xiàn)它距離SOTA (state-of-the-art model,最先進(jìn)的模型)還有一段距離,所以我估計(jì)大部人很快又會(huì)失望。
另一方面,從公司的角度來(lái)說(shuō),OpenAI公司成立于2015年,8年時(shí)間才產(chǎn)生了ChatGPT這樣的轟動(dòng)項(xiàng)目。但國(guó)內(nèi)有多少家投資商和公司,有耐心等8年?
有人說(shuō),中國(guó)會(huì)發(fā)展出更好的ChatGPT,認(rèn)為中文內(nèi)容的廣度、深度遠(yuǎn)遠(yuǎn)超過(guò)英文內(nèi)容。實(shí)際上,如今即使是中國(guó)人所發(fā)表的前沿知識(shí),大部分都是以英文的方式呈現(xiàn)。英文知識(shí)庫(kù)擴(kuò)大的速度很快,而中文很慢。因此,只有把中英知識(shí)全部結(jié)合起來(lái),才能充分利用全人類的積累的知識(shí)。
舉個(gè)例子,為什么谷歌搜索占據(jù)世界第一,國(guó)內(nèi)搜索公司的回答準(zhǔn)確性卻很低,甚至它的應(yīng)用市場(chǎng)只縮在中國(guó)?
這是非?,F(xiàn)實(shí)的問(wèn)題,主要原因是因?yàn)楹芏鄧?guó)內(nèi)公司沒(méi)有胸懷世界的前景觀,認(rèn)為專精于中國(guó)知識(shí)庫(kù)就夠了。那么,借助ChatGPT的熱潮,我們到底能不能實(shí)現(xiàn)彎道超車?
從國(guó)內(nèi)生物醫(yī)藥的政策環(huán)境來(lái)看,某種意義上我們還存在一些阻礙,特別是國(guó)內(nèi)創(chuàng)新藥市場(chǎng)的帶量集采模式,類似于傳統(tǒng)的統(tǒng)購(gòu)統(tǒng)銷模式,導(dǎo)致創(chuàng)新藥價(jià)格被壓得很低,上游科研、生產(chǎn)等環(huán)節(jié)都缺乏動(dòng)力。
相比較而言,全球主要國(guó)家創(chuàng)新藥市場(chǎng)銷售額情況,美國(guó)占比在50%以上,其他發(fā)達(dá)國(guó)家中,歐洲五國(guó)占比約16%,日本韓國(guó)占比8%,中國(guó)僅占3%,與發(fā)達(dá)國(guó)家差距較大。
這也側(cè)面反映了美國(guó)在研發(fā),轉(zhuǎn)化,市場(chǎng)方面具備更深厚的經(jīng)驗(yàn)積累,中國(guó)還有很多的學(xué)習(xí)機(jī)會(huì)。
先不說(shuō)超車,今后我們要多久才能跟上美國(guó)步伐,現(xiàn)在還是很大的挑戰(zhàn)。另外,中國(guó)在芯片方面被限制,所以盡管最近很多開(kāi)源方案可以復(fù)用,但大家如果想大幅度超過(guò)國(guó)際水平,我覺(jué)得還是有一點(diǎn)困難。
龔新奇:周教授給我們的建議,我們先能跟跑,再是超車。2021年5月,百圖生科計(jì)劃在蘇州工業(yè)園區(qū)創(chuàng)意產(chǎn)業(yè)園建立蘇州研發(fā)中心,百度創(chuàng)始人李彥宏到場(chǎng),看來(lái)是想花很大心思想引領(lǐng)中國(guó)的“BT+IT”的發(fā)展。宋樂(lè)老師是百圖生科在AI生命科學(xué)方面的的領(lǐng)導(dǎo)者,你覺(jué)得,你們有什么樣的規(guī)劃可以助力中國(guó)來(lái)彎路超車?
宋樂(lè):我可以從行業(yè)現(xiàn)狀分享一些看法。我觀察一些美國(guó)大藥企和美國(guó)AI公司在合作上釋放了一個(gè)機(jī)會(huì)窗口給中國(guó)。
怎么說(shuō)呢?美國(guó)很多傳統(tǒng)大藥企,更加聚焦于用一些生物手段、實(shí)驗(yàn)手段做藥物篩選,研究大多以生物學(xué)家、醫(yī)學(xué)家為主導(dǎo)。沿用這條舊有的的研發(fā)模式,他們非常成功,很賺錢(qián),也花費(fèi)了大量的實(shí)驗(yàn)成本、試驗(yàn)周期。但這些公司里的IT、AI團(tuán)隊(duì)都很小,只有3~5個(gè)人,很難做出大規(guī)模預(yù)訓(xùn)練模型,以及更復(fù)雜的結(jié)構(gòu)預(yù)測(cè)模型。為了促進(jìn)干濕實(shí)驗(yàn)結(jié)合,他們只好源源不斷地引入外部公司研發(fā)的AI模型。
但這類公司囿于人力、組織結(jié)構(gòu),很多情況下他們都是處于觀望和學(xué)習(xí)的階段。而國(guó)外還有一類公司,卻是強(qiáng)于AI,能夠孵化出諸多世界級(jí)的前沿AI生物技術(shù)。比如Deepmind、Meta、它們強(qiáng)于算法迭代,頻繁在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和生上吊打其他公司。
比如最近Meta基于大語(yǔ)言模型而推出的蛋白質(zhì)設(shè)計(jì)工具,就被在Meta任職多年的首席AI科學(xué)家Yann LeCun直言:效果驚人。因此國(guó)外生命科學(xué)界的研發(fā)落地模式,屬于“頂級(jí)AI公司+Biotech公司”強(qiáng)強(qiáng)聯(lián)手,不斷擬合兩者之間的gap。
但實(shí)際上,跨公司之間的合作矛盾無(wú)可避免,成果落地也存在拉扯。截至目前,國(guó)外諸多公司只是在算法層面給了我們很多希望,離真實(shí)的實(shí)驗(yàn)驗(yàn)證、技術(shù)落地、產(chǎn)業(yè)轉(zhuǎn)化,以及臨床應(yīng)用,還存在很遠(yuǎn)的距離。所以總體來(lái)說(shuō),美國(guó)兩種不同的研發(fā)公司,都存在各式不一的先天性缺陷,反而給中國(guó)公司提供了一個(gè)“時(shí)間窗口”。
比如,中國(guó)走的路線是將多學(xué)科的學(xué)者集中起來(lái),在發(fā)展之初就強(qiáng)調(diào)“AI+實(shí)驗(yàn)”的一體化模式。盡管這種模式在AI制藥的研發(fā)、臨床等前期階段耗時(shí)長(zhǎng),但只要跨過(guò)死亡谷,在硬科技產(chǎn)品商業(yè)化、面向市場(chǎng)的階段,或超速美國(guó)。
以AI制藥為例,當(dāng)一個(gè)創(chuàng)新藥物進(jìn)入臨床1-3期的時(shí)候,就已經(jīng)證明了自身市場(chǎng)價(jià)值。至于后端的臨床、市場(chǎng)能否產(chǎn)生效益,實(shí)際上與資本和政策支持密不可分。換句話說(shuō),百圖生科等公司的任務(wù)是,做好產(chǎn)業(yè)最前端的算法技術(shù)升級(jí)、藥物發(fā)現(xiàn)和篩選,從而進(jìn)一步縮短藥物交付時(shí)間,如此才能真正惠及患者。
總體來(lái)說(shuō),我們是有一個(gè)時(shí)間窗口做到彎道超車,但不單是公司模式要革新,投資界也要樹(shù)立一種新的視角,學(xué)習(xí)和借鑒國(guó)外“AI+Biotech”的投資理念,如此才能推動(dòng)產(chǎn)學(xué)研生態(tài)繁榮。
潘毅:我們所謂的要彎道超車是什么意思?我們說(shuō)基于GPT的算法做出上層應(yīng)用,實(shí)現(xiàn)市場(chǎng)繁榮。但實(shí)際上,GPT是最底層的技術(shù),如果我們做出適用于生物知識(shí)問(wèn)答的BioGPT,蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)的ProGPT,那么我們毫無(wú)疑問(wèn)將彎道超車。
但能否超越國(guó)外的算法模型,我們是沒(méi)有底氣的,如果GPT4,5...出來(lái)了,甚至算法封鎖,國(guó)內(nèi)所有應(yīng)用層的東西都無(wú)法進(jìn)行。
所以很重要的一點(diǎn),國(guó)內(nèi)多家互聯(lián)網(wǎng)公司模式,盡管做到最大,錢(qián)賺得最多,但是底層技術(shù)卻仍然落后和依賴“拿來(lái)”的東西。這種情況下,我們國(guó)家再怎么主導(dǎo)、地方再怎么支持、公司再怎么運(yùn)作,都無(wú)法將底層技術(shù)沉淀下來(lái)。
問(wèn)題出在哪里?是我們能不能沉下心來(lái),花上幾年時(shí)間,投入巨大的資金,做出一個(gè)震驚世界的成果。
相比較而言,做出ChatGPT的OpenAI是怎么是做到的?
2015年,OpenAI成立,核心宗旨在于“實(shí)現(xiàn)安全的通用人工智能”,使其有益于人類。創(chuàng)立3年半后,OpenAI建立了新的公司架構(gòu),現(xiàn)在的OpenAI由營(yíng)利性公司OpenAI LP和非營(yíng)利性母公司OpenAI Inc組成。不過(guò),為了不與最初的使命沖突,OpenAI規(guī)定,參與首輪融資的投資者最高可獲得100倍于初始投資的收益,超出的部分都將返還給非營(yíng)利組織。
2019年7月22日,微軟一擲千金,投資OpenAI 10億美元,今年1月份,微軟宣布向OpenAI追加投資數(shù)十億美元,這也是人工智能領(lǐng)域史上規(guī)模最大的一筆投資。據(jù)說(shuō)微軟還計(jì)劃向OpenAI投資高達(dá)100億美元,同時(shí)正在討論拿到OpenAI 75%的利潤(rùn)股份,直到收回投資,之后微軟將獲得OpenAI 49%的股份。
這說(shuō)明,OpenAI做好了一家實(shí)驗(yàn)室的使命,投資公司也完成了自己最擅長(zhǎng)的事情。
但遺憾的是,國(guó)內(nèi)卻沒(méi)有一個(gè)公司,愿意花上千億,組建百人團(tuán)隊(duì),賭上自己的十年。這才是真正的問(wèn)題。所以我們現(xiàn)在要做的,是變革“產(chǎn)學(xué)研+投”的發(fā)展模式,計(jì)劃下我們?cè)趺磸澋莱?。另外,還有一種方式做到彎道超車--做出專精某一領(lǐng)域的GPT。
現(xiàn)在我們?cè)陉P(guān)注生物信息領(lǐng)域,可以做出與生物有關(guān)的GPT。等這一領(lǐng)域的的算力、算法模型、公司實(shí)力都愈發(fā)強(qiáng)大,就可以將其復(fù)用在其他領(lǐng)域。比如法律的LawGPT,經(jīng)管的FintechGPT,以及方方面面的專有工GPT。
舉個(gè)例子,當(dāng)初我的一個(gè)碩士生用半年時(shí)間做了一個(gè)AI軟件,打敗了AlphaGo。很多人可能會(huì)覺(jué)得,“你竟然打敗了AlphaGo ,太了不起了”。但這是我們是參照別人已有的AI模型做的改進(jìn),技術(shù)的復(fù)現(xiàn)并不難。難的是,我們不是第一個(gè)想到做這樣模型的人。有時(shí)候,敢想才是創(chuàng)新的第一步。
許錦波:我覺(jué)得中國(guó)是有彎道超車的機(jī)會(huì),因?yàn)椤癆IGCx生命科學(xué)”也不過(guò)兩三年的時(shí)間,大家都處于發(fā)展初期。
其次,中國(guó)市場(chǎng)空間更大,對(duì)生命科學(xué)產(chǎn)業(yè)也愈發(fā)重視,未來(lái)隨著數(shù)據(jù)、算法、算力的升級(jí),將極大推動(dòng)技術(shù)的發(fā)展以及產(chǎn)業(yè)轉(zhuǎn)化。
但回歸到一個(gè)核心問(wèn)題,目前的生物數(shù)據(jù)能否足夠訓(xùn)練出生物界的“ChatGPT”?
這當(dāng)然要看你的要求有多高,好消息是現(xiàn)在蛋白質(zhì)領(lǐng)域的數(shù)據(jù)已經(jīng)非常多,比如蛋白質(zhì)序列數(shù)據(jù)已經(jīng)有幾十億條。我們也在通過(guò)濕實(shí)驗(yàn)收集針對(duì)特定任務(wù)的數(shù)據(jù)。有了蛋白質(zhì)通用的序列數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù),加上特定任務(wù)的實(shí)驗(yàn)數(shù)據(jù),我很期待未來(lái)能夠訓(xùn)練出更好的AI蛋白質(zhì)生成模型。
所以現(xiàn)在的關(guān)鍵問(wèn)題在于大家怎么做出更好的AI蛋白質(zhì)設(shè)計(jì)算法,如何把各種各樣的數(shù)據(jù)整合在一起發(fā)揮更有效的價(jià)值。
隨著高通量技術(shù)可以產(chǎn)生更多的實(shí)驗(yàn)數(shù)據(jù),相信會(huì)促進(jìn)AI算法越來(lái)越好。所以總體來(lái)說(shuō),我還是很看好中國(guó)市場(chǎng)。
圓桌策劃人吳彤,長(zhǎng)期關(guān)注生物信息學(xué),AI制藥,醫(yī)療機(jī)器人。近期ChatGPT爆火,歡迎添加作者微信(微信號(hào):icedaguniang),互通有無(wú)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。