對話丨ChatLaw 團隊袁粒：做普通人也能用的法律大模型

本文作者：王悅

2023-07-31 12:32

導語：“只有被應用到實際生活里，科學技術才能產生價值?！?

作者丨王悅

編輯丨董子博

大模型賽道的競逐進行到6月，AI 行業(yè)的共識正發(fā)生著迅速而激烈的變化。

從開始對泛用大模型的追求，到對更具落地能力的行業(yè)模型，越來越多的從業(yè)者開始發(fā)現，如果無法實打實地成為生產力，那么無論是“大模型”還是“AGI”，都不過只是一個被炒熱炒紅的概念。

“只有被應用到實際生活里，科學技術才能產生價值?！比绱藞孕胖?，北京大學信息工程學院助理教授、博士生導師袁粒一門心思，撲在了大模型的應用層開發(fā)上。

今年早些時候，袁粒便帶領團隊開發(fā)了一款名為“ChatExcel”的產品，意圖利用大模型技術，來幫助用戶更高效地完成圖表工作，一時間獲得了不少好評。

而今天，袁粒和團隊又推出了一個新的項目——“ChatLaw”。應用大模型技術，ChatLaw 可以幫助對法律知之甚少的普通人，讓他們能夠獲得一些初步的法律建議，并且還能夠進一步地幫助他們，完成分析證據、起草訴狀、尋找法律援助中心等工作。

“ChatLaw 可以讓老百姓獲得專業(yè)法律幫助之前，完成律師30-40%的工作?！痹?AI 科技評論表示道。

作為國內首個法律場景下的落地大語言模型產品，袁粒帶領課題組和北京大學-兔展AIGC聯合實驗室，完成了不少工作。

一方面，袁粒和團隊收集了大量的公開數據——如法律法條、判例、司法解釋等，又通過北京大學的平臺，在北大國際法學院和相關的律所收集到了不少私有數據，以及一個比較完備的知識圖譜，形成了一套專業(yè)的數據庫，讓 ChatLaw 在法律領域，具有對場景的更好理解能力；

另一方面，大模型常常會“一本正經地胡說八道”，尤其是在專業(yè)領域，常常給出失之毫厘，差之千里的結果。為了最大程度上解決困擾大模型的“幻覺”問題，讓 AI 能在法律領域保證輸出的正確性，ChatLaw 并不是單個大模型“一人成軍”，而是由四個分管不同能力的大模型“強強聯合”，針對不同的專業(yè)法律領域，完成更高質量的生成輸出。

在 ChatLaw 的實際測試中，袁粒說，單看法條輸出的正確率，已經可以達到80%-90%，偶有錯漏；而就給出的法律建議而言，也能達到60%以上的滿意度——相較其他大模型產品高出不少。

ChatLaw 在今日已經開啟了邀請制的內測，乘這個機會，AI 科技評論和袁粒進行了一場對談，對有關 ChatLaw 和當下大模型產品的技術判斷，討論了許多先進的認知。

以下是 AI 科技評論與袁粒的對談實錄，雷峰網(公眾號：雷峰網)在不改變原意的情況下做了編輯和調整：

專業(yè)數據+知識圖譜

讓 ChatLaw 變成最專業(yè)的法律大模型

AI科技評論：專業(yè)數據對于大模型的垂直領域場景理解至關重要，ChatLaw 在數據收集的角度，做了哪些努力？

袁粒：法律領域相較其他比較特殊——很多最高質量的數據，都是公開數據。這其中就包括法律法規(guī)、判例文書、司法解釋等等。我們的數據處理，主要就是基于這些公開的數據。

同時，我們也獲得了一部分比較有價值的私有數據。這部分數據，主要是北大國際法學院，以及這個部分的行業(yè)律師事務所，提供給我們的私有數據。不僅如此，他們也對我們的數據集進行了一個專業(yè)的加持——具體而言，就是把這些數據集中，再將不行的部分刪去。

但總體上，我們最大規(guī)模的數據集還是以法律法規(guī)為基礎的公開數據。

AI 科技評論：具體而言，法律場景會用到的數據有什么特殊性？

袁粒：首先，我們認為法律法條其實是個有限子集，因為條文是有限的。而事實情況，則可能是會多種多樣的。

在這樣的情況下，用事實來帶入法條，這些處理都是有跡可循的。所以，我們是以案例去構建了整個數據的核心，而不是單純以法條或事件。

除了案例之外，我們還有幾套支柱。對于每個案例，我們基于同案同判的原則，對每一種具體的 case 都會有一個律師的標注。

這也是我們數據集非常重要的一個環(huán)節(jié)，因為它包含了人的專業(yè)性在里面，在事實判例和法律之間完成了一個連接。

通過這個圖譜，我們可以去對各種各樣的法律的案例進行回答；并且也能讓模型知道，什么是對的回答，這個非常重要。

“四合一”的架構

讓“幻覺”更少出現

AI 科技評論：法律作為一個相當嚴肅的場景，和醫(yī)療、金融區(qū)別在哪里？

袁粒：法律這個行業(yè)，跟金融、醫(yī)療場景有一個比較大的區(qū)別——它的流程是非常程序化和標準化的。實際上 ChatLaw 去模擬的，就是一個法院、或者說律師，通過理解用戶的事實，然后對他的事實提出對應的法條，然后最終做出整套的判斷。

實際上在這套流程中有三個步驟：

歸納事實；

從事實推理到法條；

依據上面的結果，發(fā)現爭議焦點，進行完整的推理，給出法律建議。

我們的 ChatLaw 雖然是大模型產品，但實際上包了四個模型，但其中放在 GitHub 上開源的只有一個模型。

AI 科技評論：這四個模型分別有什么功能？他們之間是如何協(xié)作的？

袁粒：四個模型中，第一個模型是調動模型，負責理解用戶的這個語義，再來依據事實，來調度特定的子模型。

余下的三個模型，主要功能是從事實歸納出法律，或者說，法律加爭議交鋒點去做推理。

對這三個模型，我們在訓練的過程中，關鍵是在訓練階段將對應這個模型專有和特定的知識，在模型里面去大量地輸入，再去做特殊處理和強化學習。

那么這樣，我們確保模型在一個單獨的場景下，它具有非常高的推理能力，這三個模型就能針對專有的問題，完成高質量的輸出。

AI 科技評論：1+3的這個模式相當新穎，并且聽起來也更能應對專業(yè)領域的問題。這個模式，會成為以后行業(yè)大模型的新趨勢嗎？

袁粒：這里面有兩個問題。

第一個問題，就是法律場景有它的特殊性。法律是一個非常流程化的場景，但是如果遷移到一個別的領域——比如說教育——它可能就不是這樣了。

我認為，可能只會有兩到三個特定領域的場景，它會可以使用這種方法，其他的場景應用起來，提升效果可能不會這么大。

第二個問題，是它的投入產出比可能會比較小，因為 ChatLaw 的模式，相當于為一個產品訓練了三個模型。

AI 科技評論：在 ChatLaw 研發(fā)的階段，最大的難點在哪里？

袁粒：其實我們現在是有一個瓶頸，它就是我們的調度模型。

因為參數量的問題，我們認為其實百億級的調度模型，它的效果可能并不那么令人滿意，我們之后會把它替換成別的算法。

千模大戰(zhàn)下

袁粒的技術判斷

AI科技評論：在團隊建設上，我們的團隊平均年齡有多大？

袁粒：我們的團隊不少都是00后，當下有些還正在讀研。其中幾個比較優(yōu)秀的同學，比如伯華，負責頂層設計和產品化，是我們項目的主要推動者；以及家熙，負責模型的訓練，在科研上非常強。

AI 科技評論：在這樣一個年輕的團隊里，您觀察到，大家對 AI 和大模型有什么新的看法？

袁粒：這一屆年輕人都非常理性，從年初開始，團隊就在講，這是這會是一波巨大的科技浪潮，但是團隊也同時深知這個過程會比較慢，可能會持續(xù)很久。

在這樣一個比較慢的賽道，我們從一個商業(yè)的角度來說，更應該是“以終為始”。

AI 科技評論：具有一種“終局思維”。

袁粒：是的，我們更關注這個局面下，哪些要素更重要？掌握哪些要素的人會贏？而我們現在做的，就是要去提前把這些成功要素給湊出來。

AI 科技評論：商業(yè)化一定是個很重要的要素。

袁粒：沒錯，但對于 ChatLaw，我們不會急于把它變成一個太商業(yè)化的項目。主要是，ChatLaw 的模式，可能并不適合大規(guī)模向 C 端收費——畢竟法律幫助是一個低頻需求。

現階段，我認為 ChatLaw 還只是個showcase，是在我們一個名為 ChatKnowledge 這樣一個計劃中的第一步。

在做這個項目的同時，我們也積累了一整套的能力，包括我們剛才提到的模型調度能力，也包括外掛知識庫對生成內容約束等等。

我們慢慢沉淀出來的 ChatKnowledge 這一整套打法，才是未來我們眼中的“終局”。未來我們也會走一些面向企業(yè)和政府的項目，來迎接大模型 AI 2.0 的潮流。

（未來，雷峰網會關注更多的大模型和 AIGC 賽道優(yōu)秀創(chuàng)業(yè)者，歡迎和本文作者：s1060788086，交流認知，互通有無。）

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

王悅

主筆

發(fā)私信

當月熱門文章