丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給岑大師
發(fā)送

0

密蘇里大學許東:大模型時代,Prompt 為生物信息學研究帶來新動力丨IJAIRR

本文作者: 岑大師 2024-07-28 09:58
導語:在生物信息學領域,Prompt不再是煉金術。

密蘇里大學許東:大模型時代,Prompt 為生物信息學研究帶來新動力丨IJAIRR

自ChatGPT在2022年橫空出世,人工智能領域便迎來了一場新的革命。大語言模型(LLMs)以其卓越的文本處理能力,迅速成為研究者和開發(fā)者的新寵。隨著這些模型的崛起,如何與它們有效交互的問題也日益凸顯,提示詞(Prompt)的概念逐漸成為研究的熱點。

但什么是提示詞?在早期的計算機交互中,提示詞是指在提示符(如MS Dos的C:>或Python的>>>)左側,用戶輸入以激發(fā)系統(tǒng)做出響應的指令。而在大模型的語境中,提示詞則是一種引導性的語句或問題,它猶如魔法咒語,激發(fā)著大語言模型的潛能,引導它們按照我們的指令生成文本、回答問題或執(zhí)行任務。

在與大語言模型的互動中,提示詞就像是一把打開知識寶庫的鑰匙。它不僅是一座溝通的橋梁,更是挖掘語言模型深層潛力的工具。ChatGPT的創(chuàng)始人Sam Altman將提示詞工程(Prompt Engineering)視為一種用自然語言編程的黑科技,認為這是一種能夠帶來高回報的技能。

能否讓ChatGPT或其他大語言模型給出滿意的答案,很大程度上取決于你如何巧妙地使用提示詞。隨著人工智能生成內容(AIGC)時代的到來,提示詞的價值和重要性愈發(fā)凸顯。

然而,Prompt技術的復雜性遠超我們的想象。早期的研究者們在探索Prompt技術時,仿佛是在進行一場煉金術式的探索,充滿了不確定性和偶然性。他們通過不斷嘗試不同的提示詞,試圖找到能夠激發(fā)大語言模型最佳表現的“魔法咒語”。這種方法雖然在某些情況下能夠奏效,但卻缺乏系統(tǒng)性和可復制性。

為了讓Prompt技術更進一步,它必須經歷一場“從煉金術到化學”的系統(tǒng)發(fā)展過程。這意味著我們需要將Prompt技術從一種基于經驗的技藝,轉變?yōu)橐婚T基于科學原理的工程學科。這需要對現有的Prompt技術進行深入的分析和總結,建立起一套完整的理論體系和方法論。

例如:不同的提示詞是如何影響大語言模型的理解和生成的?在不同的應用場景下,應該以什么樣的原則,去設計和優(yōu)化提示詞?近日,相關論文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。

該論文聚焦于大語言模型在生物信息學領域的應用,主要研究了如何利用大型語言模型(如ChatGPT)來挖掘基因關系,并提出了一種迭代提示優(yōu)化技術來提高預測基因關系的準確性。論文為生物信息學研究者使用ChatGPT改善工作流程、提高工作效率提供了一種新的思路。

借論文上線,密蘇里大學哥倫比亞分校計算機系許東教授向雷峰網(公眾號:雷峰網)-AI科技評論分享了人工智能大型模型在生命科學領域的影響,以及他對如何更好地將大型語言模型應用于生物信息學研究的思考。

密蘇里大學許東:大模型時代,Prompt 為生物信息學研究帶來新動力丨IJAIRR

論文鏈接:https://gairdao.com/doi/10.1142/S2972335324500054

論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001


生物信息學:迎接第二次繁榮期

回望上個世紀90年代,那是一個被形象地稱為生物信息學研究的“寒武紀”時期。人類基因組計劃的啟動、全球蛋白質結構預測競賽的舉辦,以及生物學信息量的爆炸性增長,加之信息技術的跨時代發(fā)展,共同為生物信息學帶來了第一次黃金時代,使其成為當時的前沿學科之一。如今,隨著人工智能技術的突破,特別是AI大模型在生物信息學中的應用,我們有望迎來生物信息學的第二個繁榮期。

許東教授正是上世紀90年代生物信息學黃金期的親歷者之一。他指出,在生命科學領域,人工智能大型模型的應用已經變得日益廣泛,其應用主要集中在以下幾個方面:

蛋白質模型:通過利用蛋白質序列訓練出的大模型,可以進行各種蛋白質預測任務,包括新蛋白質的設計;

單細胞模型:單細胞數據量巨大,通常一個單細胞實驗就涉及數千到數百萬個細胞?;趩渭毎D錄組數據訓練的大模型,能夠進行大規(guī)模的單細胞數據分析;

醫(yī)學多模態(tài)模型:通過整合醫(yī)學文本(如病歷、醫(yī)生筆記)、圖像和其他檢查報告等多種數據類型,訓練出的大模型,可以用于醫(yī)學數據分析;

除了上述三個主要領域外,其他如核酸定位、蛋白質與DNA/RNA的相互作用等方面,也有研究者在開發(fā)相應的大模型。這些應用場景能夠輔助生物信息學家以更快、更精確的方式處理生物信息學問題,從而提升研究效率并降低成本。

然而,盡管AI大模型在生物信息學領域的應用已經取得了一定的進展,但大模型在生物信息學領域的應用目前仍處于早期發(fā)展階段,并存在著許多挑戰(zhàn)。首先遇到的一個問題是,AI大模型需要大量高質量的生物信息學數據,但這些數據的質量和完整性可能存在問題;同時目前AI大模型的解釋性和可解釋性可能存在問題,“幻覺”的存在嚴重影響著研究的可靠性。

如何解決上述問題,讓AI大模型在生物信息學研究中發(fā)揮更大作用?許東告訴雷峰網-AI科技評論,Prompt技術為生物信息學領域提供了一種靈活且易于實施的方法,尤其在數據資源有限的情況下,Prompt技術仍可能成為主流方法之一。


用提示學習提升AI模型的精準度

在機器學習領域,將Prompt從“基于經驗”轉變?yōu)椤盎诳茖W原理”的做法被稱為“提示學習”。聊天機器人之所以在很大程度上依賴于提示,是因為ChatGPT的預訓練模型中存在大量知識,為了更好地利用這些知識和能力,OpenAI采用了基于人類反饋強化學習(RLHF)方法,通過人類輸入來“比對”語言從而達到人機交互的目的。因此,必須仔細設計聊天機器人的提示,以獲得有價值、準確和穩(wěn)健的響應。

提示學習的核心在于將用戶輸入的文本轉化為特定的提示(prompt)格式。這一過程通常包括兩種模式:第一種是自編碼模式,采用文本中間占位符的自然語言模板,讓大模型在指定占位符讓生成答案文本。第二種是自回歸模式,給大模型提供問題與背景信息,讓大模型自由發(fā)揮生成答案文本。這些方法實質上是為預訓練語言模型設計任務,包括輸入模板、標簽樣式以及模型輸出與標簽的對應關系。

論文的研究正是在此基礎上,將自回歸模式的提示學習用于復雜的生物信息學場景中,并利用迭代提示優(yōu)化、思維鏈等技術,通過與ChatGPT的交互,逐步優(yōu)化提示,以提高預測基因關系的準確性。

密蘇里大學許東:大模型時代,Prompt 為生物信息學研究帶來新動力丨IJAIRR

(利用 GPT 模型進行基因關系挖掘的迭代提示細化框架。該方法利用 GPT-4 的高級邏輯能力來自主改進提示,并利用 GPT-3.5 的低成本和高速進行初始基于事實的查詢處理。)

這項工作的關鍵點之一是元提示設計(Meta-Prompt Design):元提示為對話機器人設定角色,提示來指導GPT-4進行提示優(yōu)化,增強回答的專業(yè)性。元提示包含具體指令,如改變角色、省略細節(jié)等,以提高提示的有效性。

另一關鍵點則是迭代優(yōu)化技術的引入,利用GPT-4的能力進行迭代提示優(yōu)化。首先使用GPT-3.5生成基因關系提示,然后評估這些提示的效果(如F-1分數、精確度和召回率);將預測結果與實際數據(如KEGG數據庫)進行比較,識別錯誤和不足,然后將這些反饋信息用于進一步優(yōu)化提示;最后將優(yōu)化后的模型應用于KEGG Pathway Database進行基準測試,以驗證其在解析復雜基因關系和疾病相關途徑方面的有效性。

此外,論文還引入了思維鏈(Chain-of-Thought)和思維樹(Tree-of-Thought)策略,引導ChatGPT進行更深入的邏輯推理,提高答案的準確性和深度;同時將復雜問題分解為更易于管理的子問題序列,逐步引導ChatGPT構建更完整的答案,這種方法特別適用于復雜的基因關系網絡構建。

實驗結果表明,通過迭代提示優(yōu)化技術,ChatGPT在預測基因關系方面的準確性顯著提高。特別是在復雜基因關系和疾病相關途徑的解析中,展示了其潛力和有效性。


生物信息學研究的新動力

“Prompt技術在生物信息學領域具有顯著的優(yōu)勢?!痹S東告訴AI科技評論,首先,Prompt技術的數據需求低,不需要大量的數據即可進行訓練,因此在小數據集上表現出色。這對于生物信息學領域尤為重要,因為許多生物醫(yī)學數據集規(guī)模有限;其次,由于是在大型預訓練模型的基礎上進行操作,Prompt技術易于實施和應用;最后,生物信息學中許多問題本質上是小數據問題,Prompt技術因此具有廣泛的應用前景和場景。

在解釋迭代提示優(yōu)化技術如何有效解決大型語言模型中的“幻覺”問題時,許東認為,不僅僅是大型語言模型,人類自身在某些情況下也會出現類似的“幻覺”現象。例如,人們可能會錯誤地回憶某些事件的細節(jié),這并非有意誤導,而是記憶出現了偏差。

大型語言模型的“幻覺”原因大致可分為三類:1)誤解用戶問題;2)訓練數據的混淆導致生成回答時出現混淆;3)缺乏反思能力,未能有效識別和糾正自身的錯誤。而迭代提示優(yōu)化技術正是針對這三類原因對癥下藥,通過迭代優(yōu)化,模型能夠更準確地理解用戶的問題和提示,減少誤解;同時增強知識概括,有助于模型更好地概括和區(qū)分訓練數據中的知識,避免信息混淆;最后,迭代優(yōu)化使模型具備更強的、類似于人類的思考過程自我反思能力,能夠識別并改進生成的回答。

與傳統(tǒng)方法相比,迭代提示優(yōu)化技術通過模擬人類的學習和思考過程,使模型在處理復雜問題時更為高效和協(xié)調。這種方法比傳統(tǒng)的基于規(guī)則的系統(tǒng)更具靈活性和適應性,能夠處理更廣泛的任務和數據類型。因此,通過這種方法,大型語言模型在生成回答時的準確性和可靠性得到了顯著提升,減少了“幻覺”現象的發(fā)生,從而在生物信息學等領域展現出更大的應用潛力。

許東同時還表示,盡管Prompt技術的應用前景廣闊,但其自身也存在一定的局限性,如高度依賴于訓練數據的質量和代表性、泛化能力受限等,同時在論文中許東也提到,模型的性能波動和對訓練數據的敏感性表明需要進一步的優(yōu)化和迭代策略。未來的工作可能包括模型定制、更先進的迭代提示算法開發(fā)以及在更廣泛的研究問題中評估方法的有效性。

“雖然并非所有問題都適合這種方法,但可能相當比例的問題,可能通過大模型和Prompt技術得到更準確的解決方案?!闭劶癙rompt技術在生物信息學領域的未來潛力,許東充滿信心。“大模型在很多領域還有著很大的優(yōu)化空間,例如現在缺乏專門的生物信息學的大模型,而隨著大模型的發(fā)展,Prompt技術將在這些模型上發(fā)揮更大的作用。”


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

密蘇里大學許東:大模型時代,Prompt 為生物信息學研究帶來新動力丨IJAIRR

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說