0
本文作者: 我在思考中 | 2021-11-22 10:43 |
作者 | 王曄
目前,我國(guó)新的城市治理體系基本形成。與此同時(shí),伴隨著經(jīng)濟(jì)社會(huì)的變革、大數(shù)據(jù)、互聯(lián)網(wǎng)的發(fā)展以及人工智能、云計(jì)算的興起,城市治理面臨著新要求、新挑戰(zhàn)的同時(shí),也實(shí)現(xiàn)了跨越式的發(fā)展。
那么技術(shù)的進(jìn)步為城市治理帶來(lái)了哪些進(jìn)展?又面臨怎樣的瓶頸呢?
不久前,在CCAI 2021 大數(shù)據(jù)智能學(xué)術(shù)論壇上,過(guò)敏意教授分享了題為“面向城市治理的圖智能分析框架”的主題報(bào)告,分四部分介紹了城市治理方面的內(nèi)容。
過(guò)敏意 歐洲科學(xué)院外籍院士、上海交通大學(xué)講席教授、IEEE/CCF Fellow
過(guò)敏意教授是歐洲科學(xué)院外籍院士,上海交通大學(xué)致遠(yuǎn)講席教授,電子信息與電氣工程學(xué)院計(jì)算機(jī)學(xué)科負(fù)責(zé)人,國(guó)家杰出青年基金獲得者,也是教育部創(chuàng)新團(tuán)隊(duì)學(xué)術(shù)帶頭人,“973”計(jì)劃首席科學(xué)家。
他長(zhǎng)期從事并行與分布式系統(tǒng)和云計(jì)算的研究,發(fā)表學(xué)術(shù)論文400多篇,著述英文著作4部,主持多項(xiàng)國(guó)家自然基金重點(diǎn)項(xiàng)目以及國(guó)家和省部級(jí)項(xiàng)目,曾獲得國(guó)家技術(shù)發(fā)明二等獎(jiǎng)和省部級(jí)科技一等獎(jiǎng)等多項(xiàng)獎(jiǎng)項(xiàng)。
AI科技評(píng)論對(duì)過(guò)敏意教授在CCAI 2021 大數(shù)據(jù)智能學(xué)術(shù)論壇上的報(bào)告做了不改變?cè)獾恼恚?/span>
1. 從原來(lái)的物能說(shuō)話(huà),以數(shù)字化、網(wǎng)絡(luò)化為代表的城市管理,即智慧城市的初級(jí)形態(tài)。我們借助網(wǎng)絡(luò)實(shí)現(xiàn)連接使得物與物之間能夠互聯(lián)起來(lái)。
2. 到后來(lái)2.0版,就是物物對(duì)話(huà)。不僅是互聯(lián)網(wǎng),還有物聯(lián)網(wǎng)了。從物聯(lián)網(wǎng)在城市治理中的作用來(lái)看,運(yùn)用系統(tǒng)化、程序化、標(biāo)準(zhǔn)化的手段,使城市各單元精確、高效、協(xié)同和持續(xù)發(fā)展,實(shí)現(xiàn)萬(wàn)物互聯(lián)。
3. 到了3.0版,即人物協(xié)同。以人為本,充分發(fā)揮人機(jī)協(xié)同的作用,通過(guò)對(duì)城市大數(shù)據(jù)價(jià)值的挖掘,使城市各部分功能優(yōu)化運(yùn)行,呈現(xiàn)的決策能夠更精準(zhǔn),最大程度地服務(wù)市民。
4. 4.0時(shí)代,就進(jìn)入了城市大腦階段,即讓城市自身學(xué)會(huì)思考,能夠自主整合、引導(dǎo)和分配城市管理資源,具有自我優(yōu)化與進(jìn)化能力,真正智慧化,這是最高版的城市精細(xì)化治理。
為了真正讓城市學(xué)會(huì)思考,實(shí)現(xiàn)城市治理智慧化,打造智慧、智能城市,我們正在實(shí)踐城市大腦的理念?!笆濉逼陂g,我們和阿里及杭州的“城云科技“合作,做了城市的交通管理、智慧停車(chē)等工作。
我們將人、機(jī)、物三元空間的物理世界、人類(lèi)社會(huì)、信息社會(huì)得到的數(shù)據(jù)進(jìn)行融合。結(jié)果發(fā)現(xiàn)越來(lái)越多的數(shù)據(jù),呈現(xiàn)出圖化的結(jié)構(gòu),其實(shí)是用圖的形式表示出來(lái)的。關(guān)于這個(gè)問(wèn)題我們以前都沒(méi)有注意到,也沒(méi)有處理,但這樣以后很多數(shù)據(jù)都不能夠精準(zhǔn)處理。因此,在城市化治理中,圖化治理場(chǎng)景是一個(gè)關(guān)鍵挑戰(zhàn)。
五個(gè)不同領(lǐng)域的圖化治理場(chǎng)景:
(3)醫(yī)療健康服務(wù)。生命健康基因圖譜的分析,也是圖的重構(gòu)、圖的迭代、圖的分析。還有人腦網(wǎng)絡(luò)的功能區(qū)域分析,現(xiàn)在腦電采集實(shí)際上都可以從圖的結(jié)構(gòu)里面反映出來(lái),所以有大量的個(gè)性化的圖的分析。
因此目前對(duì)圖的分析和圖的管理越來(lái)越迫切,現(xiàn)在我們國(guó)家以及世界上很多科研機(jī)構(gòu)公司等都研發(fā)了一些面向圖計(jì)算的工具,但還是遇到了問(wèn)題。
面對(duì)大規(guī)模結(jié)構(gòu)化的城市治理任務(wù),現(xiàn)有大數(shù)據(jù)計(jì)算平臺(tái)存在收斂慢、吞吐低問(wèn)題,影響城市治理決策。
開(kāi)發(fā)環(huán)境未針對(duì)圖應(yīng)用定制化設(shè)計(jì),難以高效優(yōu)質(zhì)地進(jìn)行執(zhí)行階段劃分
我們以前“十三五”期間做的事情,基本上都是用的傳統(tǒng)spark、MapReduce等大數(shù)據(jù)框架來(lái)做的,但是這些問(wèn)題如果要弄到圖里面預(yù)處理,比如說(shuō)圖要進(jìn)行預(yù)置、分拆等等,用傳統(tǒng)框架就不適用了,它會(huì)非常慢,要循環(huán)往復(fù)來(lái)做。
(2)吞吐低:現(xiàn)有主流圖計(jì)算框架如PowerGraph/Ligra不支持高并發(fā)請(qǐng)求。
上述框架大都忽略了多用戶(hù)請(qǐng)求執(zhí)行共存的問(wèn)題
現(xiàn)有主流圖計(jì)算框架如PowerGraph/Ligra等框架都是單機(jī)、單用戶(hù)的圖計(jì)算結(jié)構(gòu),雖然克服了spark、Mapreduce等的缺點(diǎn),它可以圖分析、圖分解、圖查詢(xún)等,但是如果面向城市治理這些就不適用了,因?yàn)槌鞘兄卫硎歉卟l(fā)的。也就是說(shuō)這些框架對(duì)高并發(fā)的圖的問(wèn)題,都不太適用,所以就會(huì)遇到吞吐根本做不了城市大腦支撐的問(wèn)題。
要解決上述問(wèn)題就要做城市大數(shù)據(jù)協(xié)同計(jì)算框架。圖計(jì)算將成為未來(lái)城市大數(shù)據(jù)協(xié)同計(jì)算框架中的關(guān)鍵一環(huán),能夠支撐大規(guī)模高并發(fā)場(chǎng)景的圖智能分析尤其重要。
城市大數(shù)據(jù)協(xié)同計(jì)算框架
我們以前做了很多Mapreduce、PowerGraph的處理,但是還缺乏圖請(qǐng)求調(diào)度、圖結(jié)構(gòu)分析、圖數(shù)據(jù)分割、圖查詢(xún)、圖生成等面向圖計(jì)算的工具。所以 我們就一定要把這些工具給數(shù)據(jù)融合、數(shù)據(jù)感知開(kāi)發(fā)出來(lái)。如果沒(méi)有圖分析、圖查詢(xún)、圖管理、圖結(jié)構(gòu)分析等,是沒(méi)有辦法支撐整個(gè)城市大數(shù)據(jù)協(xié)同平臺(tái)的。所以我們要在有限的資源下,處理高并發(fā)多元圖數(shù)據(jù)分析的請(qǐng)求,對(duì)單用戶(hù)的圖計(jì)算框架實(shí)行高并發(fā)多用戶(hù)的圖計(jì)算框架的轉(zhuǎn)變。
那么如何高效執(zhí)行不同用戶(hù)提交的多元化圖計(jì)算請(qǐng)求呢?
目前,我們要做的事情是實(shí)現(xiàn)可擴(kuò)展和可持續(xù)。
擴(kuò)展性需求:隨著圖規(guī)模和圖計(jì)算服務(wù)的激增,需解決平臺(tái)峰值負(fù)載問(wèn)題。
高并發(fā)圖的圖分析、圖查詢(xún)也延續(xù)到了一些人工智能算法,比如說(shuō)現(xiàn)在做人工智能的技術(shù)處理,如果講大模型,比如說(shuō)GBT-3 1 751億個(gè)參數(shù)跑一次訓(xùn)練,相當(dāng)于一輛用油汽車(chē)跑70萬(wàn)公里,那么這對(duì)可持續(xù)發(fā)展、低碳環(huán)保非常不利。所以說(shuō)圖計(jì)算也是這樣的,如果不斷地進(jìn)行圖的迭代往復(fù),如果算法不好,那么可擴(kuò)展、可持續(xù)都不行,所以現(xiàn)在各大公司和云商像華為和阿里都對(duì)此非常重視,都自己開(kāi)發(fā)了這方面的工具對(duì)圖進(jìn)行分析。我們有一個(gè)課題做國(guó)家重點(diǎn)研發(fā)計(jì)劃現(xiàn)在也是做的圖處理這方面的事情。
但是并發(fā)圖計(jì)算不同于如今的線(xiàn)上數(shù)據(jù)密集型計(jì)算(如MapReduce),更不同于以往的高性能數(shù)值計(jì)算。
對(duì)并發(fā)圖計(jì)算來(lái)講,請(qǐng)求間和請(qǐng)求內(nèi)的協(xié)同優(yōu)化變得更重要
比如做并行計(jì)算時(shí),以往的傳統(tǒng)的并行計(jì)算比較規(guī)則,我從一個(gè)處理到下一個(gè)CPU的處理,通信是比較規(guī)則的。這邊處理好以后,下一個(gè)通信基本上模式是一樣的。但是并發(fā)圖不一樣,圖的計(jì)算模式是不規(guī)則的,這個(gè)到下一個(gè)的并發(fā)處理有可能是A節(jié)點(diǎn)到B節(jié)點(diǎn),下一個(gè)可能是C節(jié)點(diǎn)到D節(jié)點(diǎn),模式是完全不一樣的不規(guī)則的。
所以其中通信、優(yōu)化和它的并發(fā)都和原來(lái)的高性能計(jì)算完全不同,因此比較具有挑戰(zhàn)性。與數(shù)據(jù)密集型計(jì)算不一樣,和高性能計(jì)算也不一樣,即與以計(jì)算和數(shù)據(jù)為中心的都不一樣,我們現(xiàn)在要強(qiáng)調(diào)以圖為中心的計(jì)算。
并發(fā)圖計(jì)算主要面臨的瓶頸主要有以下三個(gè)。
(1)用戶(hù)圖計(jì)算請(qǐng)求主要有圖管理、圖分析。在圖管理方面,已有較多并發(fā)性?xún)?yōu)化工作,比如說(shuō)數(shù)據(jù)倉(cāng)庫(kù)、圖查詢(xún)等。但對(duì)圖分析方面,比如管理查詢(xún)不到結(jié)果以后怎么樣能夠?qū)Ψ诺交鶎訂卧鰶Q策來(lái),這方面還缺乏研究,易成為性能瓶頸,所以說(shuō)我們要做這方面的事情。
(2)并發(fā)圖分析任務(wù)之間的不規(guī)則干擾,多個(gè)圖算法并發(fā)執(zhí)行時(shí),會(huì)在時(shí)間與空間兩個(gè)維度對(duì)處理器和內(nèi)存等資源進(jìn)行搶占,且干擾方式不規(guī)則,優(yōu)化空間很大。
(一)工業(yè)界項(xiàng)目概述
現(xiàn)在工業(yè)界對(duì)于圖的分析、圖的并發(fā)、圖的查詢(xún)非常重視,但是圖拓?fù)鋵傩苑治霈F(xiàn)在還不多。Apache 上目前的開(kāi)源圖計(jì)算系統(tǒng)主要以圖數(shù)據(jù)庫(kù)管理為主,面向圖拓?fù)鋵傩苑治龅牟l(fā)圖管理系統(tǒng)還處于萌芽階段。這是我們調(diào)查下來(lái)整個(gè)Apache Graph Systems的列表,大概就是這幾十個(gè):
(二)學(xué)術(shù)界研究總覽
早期基本上關(guān)注的是圖的請(qǐng)求,焦點(diǎn)主要是圖查詢(xún)。到2014年開(kāi)始有并發(fā)圖分析,然后多用戶(hù)并發(fā)圖比如圖數(shù)據(jù)共享已經(jīng)開(kāi)始關(guān)注了;2017年提出多圖多用戶(hù)場(chǎng)景,但對(duì)圖請(qǐng)求內(nèi)部缺乏分析;到2018年對(duì)請(qǐng)求內(nèi)部特征優(yōu)化以及圖并發(fā)的計(jì)算進(jìn)行考慮。國(guó)內(nèi)主要在做的高校是上海交通大學(xué)、華中科技大學(xué)、北京大學(xué)。
(三)上海交通大學(xué)做的一些工作
(1)圖化治理任務(wù)的并發(fā)計(jì)算框架
文章先后發(fā)表在IEEE ICCD和IEEE TPDS上
我們做的工作就是對(duì)圖化治理任務(wù)的并發(fā)計(jì)算做了一個(gè)框架,也就是對(duì)線(xiàn)下進(jìn)行繪像線(xiàn)上調(diào)度相結(jié)合,將訪(fǎng)存特性傳遞給調(diào)度器,這樣并發(fā)的會(huì)比較快,消息傳遞就會(huì)比較快。然后提出架構(gòu)感知的負(fù)載均衡和線(xiàn)程調(diào)度、優(yōu)化多圖的并發(fā)運(yùn)行的效果請(qǐng)求性能可以提升5.4倍了。實(shí)現(xiàn)了一套面向圖化治理任務(wù)的冗余操作削除機(jī)制,對(duì)整個(gè)圖存在的冪律分布、縮減操作等都做了分析,然后改進(jìn)了圖化治理任務(wù)流程,使分析提升了很多倍。
文章先后發(fā)表在IPDPS和ACM TACO上
如果將圖放到編程框架里面進(jìn)行描述是很方便的。如果變成框架以后,就像人工智能框架一樣對(duì)編程是非常方便的。圖計(jì)算原子操作復(fù)雜,然后GPU內(nèi)存利用率是不高的。如果要對(duì)這些圖利用GPU來(lái)說(shuō),對(duì)于并發(fā)是絕對(duì)沒(méi)有問(wèn)題的。所以改進(jìn)數(shù)據(jù)結(jié)構(gòu),從圖冪律分布出發(fā)削減冗余的計(jì)算操作,我們提出統(tǒng)一內(nèi)存利用高效的圖計(jì)算原子操作,優(yōu)化多圖資源利用,搞出一個(gè)編程框架來(lái)對(duì)圖的算法進(jìn)行精準(zhǔn)的描述,就可以比較容易的對(duì)圖的性進(jìn)行提升。
這是我們圖分析框架的編程接口,先把一個(gè)問(wèn)題變成一個(gè)圖的結(jié)構(gòu)一個(gè)任務(wù),比如說(shuō)多少頂點(diǎn)多少邊互相怎么連接,頂點(diǎn)預(yù)處理,然后對(duì)活躍邊進(jìn)行更新,頂點(diǎn)生成等等迭代技術(shù)處理。經(jīng)過(guò)這一套預(yù)備、更新、生成框架以后,整個(gè)圖的分析和高并發(fā)處理就非常簡(jiǎn)單了。
這是效果,實(shí)現(xiàn)系統(tǒng)資源高效利用。
(一)公共衛(wèi)生治理平臺(tái)
借助數(shù)據(jù)泛在發(fā)現(xiàn)和優(yōu)化組合,建立起多源異構(gòu)城市環(huán)境氣象數(shù)據(jù)的跨時(shí)空?qǐng)D結(jié)構(gòu)關(guān)聯(lián)性。
這是我們和中國(guó)城市治理研究院合作的,他們的需求是對(duì)霧霾進(jìn)行監(jiān)控,這個(gè)有點(diǎn)像對(duì)臭氧層的監(jiān)控一樣的,我們也是布了很多傳感器,然后用圖進(jìn)行分析,對(duì)霧霾進(jìn)行分析和處理。
第一個(gè)是利用空間的關(guān)聯(lián)分析制定霧霾判斷分析。這是對(duì)中國(guó)的31個(gè)省、市、自治區(qū)的霧霾和工業(yè)產(chǎn)值的關(guān)系的分析,所有的關(guān)聯(lián)數(shù)據(jù)都可以給出一個(gè)框架和處理,整個(gè)過(guò)程都有圖的分析和決策在里面。
(二)交通客流監(jiān)控平臺(tái)
借助城市大數(shù)據(jù)三元空間群智發(fā)現(xiàn)與群智建模,實(shí)現(xiàn)了多元多模數(shù)據(jù)下的多視圖細(xì)粒度人群分析。
這是我們和深圳地鐵集團(tuán)對(duì)城市交通軌道進(jìn)行了分析。這個(gè)數(shù)據(jù)很簡(jiǎn)單,每個(gè)地鐵站實(shí)際上就是一張圖。
這張圖干什么用呢?就是實(shí)時(shí)監(jiān)控,比如進(jìn)站人數(shù),出站人數(shù),在網(wǎng)人數(shù)等。然后用不同的顏色標(biāo)出來(lái),幾號(hào)線(xiàn)、哪個(gè)站有多少人等。這樣會(huì)便利人們的交通出行。比如知道坐哪條線(xiàn)、哪邊換乘。客流預(yù)測(cè)精準(zhǔn)度從87%提高到95%。
借助城市大數(shù)據(jù)的深度迭代計(jì)算,完成了實(shí)時(shí)感知與靜態(tài)預(yù)測(cè)的融合,實(shí)現(xiàn)城市人口的高效分布推演。
數(shù)據(jù)量:百萬(wàn)級(jí)車(chē)輛千萬(wàn)級(jí)用戶(hù) 需求方:深圳市交通運(yùn)輸委
做什么事呢?人口密集時(shí),有可能會(huì)出現(xiàn)危險(xiǎn)。人口密度一般來(lái)說(shuō)比較均勻,如果出現(xiàn)紅點(diǎn)了,那么就是人口密度超過(guò)正常均值,我們一般在800×800m的范圍內(nèi),比如說(shuō)2萬(wàn)人口是正常分布,如果超過(guò)兩萬(wàn)就是熱點(diǎn),黑洞表示人口密度超過(guò)正常均值的2倍,就要警示就是要派警力來(lái)疏散人群等等。這完全就是一個(gè)圖的分析,利用六維數(shù)據(jù)對(duì)圖進(jìn)行分析對(duì)人口密度進(jìn)行高度精準(zhǔn)的預(yù)測(cè)。
這些方面,我們主要是和深圳、杭州,阿里城市大腦合作,進(jìn)行大數(shù)據(jù)的分析,包括人、機(jī)、物三元空間分析以及圖分析工具都集成在一個(gè)平臺(tái)系統(tǒng)里面。前期相關(guān)技術(shù)應(yīng)用于阿里城市大腦、網(wǎng)易數(shù)據(jù)地圖等關(guān)鍵資源密集型應(yīng)用場(chǎng)景,整體性能提升顯著。去年也拿到了教育部科技進(jìn)步一等獎(jiǎng)。
首先是高并發(fā)圖化治理任務(wù)的硬件加速。這方面現(xiàn)在還沒(méi)有做,我們知道人工智能硬件加速非常快。我認(rèn)為硬件加速非常重要,如果有了硬件,那么我們用傳統(tǒng)的GPU和CPU進(jìn)行調(diào)度會(huì)省很多事。針對(duì)圖算法,比如說(shuō)給它可重構(gòu)計(jì)算加速硬件化,那么如何對(duì)動(dòng)態(tài)參數(shù)調(diào)節(jié),比如說(shuō)基于GPU加速的自適應(yīng)架構(gòu)等等,也是研究的另外一個(gè)課題。
硬件加速,這是一個(gè)自適應(yīng)的。比如說(shuō)控制部件也可以硬件化。整個(gè)的軟硬件協(xié)同設(shè)計(jì)的一個(gè)框架必須要做出來(lái)。這對(duì)整個(gè)高并發(fā)圖計(jì)算的平臺(tái)會(huì)產(chǎn)生非常大的影響。
(二)圖化治理任務(wù)的運(yùn)行時(shí)自主優(yōu)化
第二個(gè)是運(yùn)行時(shí)自主優(yōu)化?,F(xiàn)在用戶(hù)請(qǐng)求、請(qǐng)求預(yù)處理及特征表示、調(diào)度分配等等這一套,還不是在更精準(zhǔn)的狀態(tài)下可以做到。必須我們事先預(yù)知一些算法,一些統(tǒng)計(jì)上的框架來(lái)做。今后可能實(shí)現(xiàn)自主管理,自主調(diào)度。
(三)智慧城市多元化圖計(jì)算服務(wù)平臺(tái)
建立統(tǒng)一的并發(fā)圖計(jì)算多元支撐平臺(tái),制定設(shè)計(jì)規(guī)范和關(guān)鍵技術(shù)標(biāo)準(zhǔn),完善接入機(jī)制,促進(jìn)高質(zhì)量多元化的圖計(jì)算服務(wù)。
做服務(wù)平臺(tái),針對(duì)面向政務(wù)的、面向民生的、面向產(chǎn)業(yè)的能不能有一個(gè)統(tǒng)一化的平臺(tái)這個(gè)可能就比較大了。比如說(shuō)現(xiàn)在在做城市特征的一些東西,面向政務(wù)的要求可能就會(huì)完全不一樣,要做這方面就會(huì)遇到很大的挑戰(zhàn)。
我認(rèn)為這方面可以做很多事情,而且必須是要做的。目前對(duì)圖的多程序圖負(fù)載、圖并發(fā)機(jī)制的基準(zhǔn)測(cè)試程序還很少。以及性能評(píng)估標(biāo)準(zhǔn)如何制定這一方面,弄出一個(gè)benchmark來(lái)大家都可以用,我們也正在做這件事。
圖計(jì)算應(yīng)用正快速普及,涉及智慧城市的方方面面
發(fā)展具有大規(guī)模高并發(fā)特性的圖計(jì)算系統(tǒng)正當(dāng)其時(shí)
前期探索表明相關(guān)技術(shù)具有較高學(xué)術(shù)價(jià)值和應(yīng)用潛力
并發(fā)圖計(jì)算離不開(kāi)底層硬件和系統(tǒng)軟件的密切配合
相關(guān)設(shè)計(jì)規(guī)范和評(píng)估體系尚不完備,機(jī)遇挑戰(zhàn)并存
雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。