2022-4-13 周周
1.1 基本概念
2012年,Google公司為實現(xiàn)更智能的搜索引擎,提出知識圖譜的概念,2013年后在行業(yè)內(nèi)和學(xué)術(shù)界開始普及。
知識圖譜的定義:是結(jié)構(gòu)化的語義知識庫,本質(zhì)上是一個語義網(wǎng)絡(luò)(Semantic Network),用于描述物理世界中的概念及其相互關(guān)系。在技術(shù)層面,通過對錯綜復(fù)雜數(shù)據(jù)的有效加工、處理、整合,轉(zhuǎn)化為數(shù)據(jù)關(guān)系來聚合大量知識,從而實現(xiàn)知識的快速響應(yīng)和推理;在可視化的應(yīng)用中,知識圖譜表現(xiàn)為多關(guān)系圖(Multi-relational Graph),在圖形化界面中可讓用戶查看和互動(如圖1)。
圖1(引用自企查查app截圖)
1.2 知識圖譜的特點:
其特點主要包含以下兩方面內(nèi)容:
1. 它是由“節(jié)點”和“邊”構(gòu)成的三元組
三元組是知識圖譜的基本單位, 由節(jié)點和邊構(gòu)成(圖2)。其中節(jié)點代表實體,是指具有區(qū)別性且獨立存在的客觀事物,如:圖1中的馬云、華誼兄弟傳媒有限公司,圖3中的美國、平方公里數(shù)等;邊代表兩個實體間的關(guān)系,是指客觀存在或推理得到的實體間的聯(lián)系,如圖1中的董事、監(jiān)視、投資,圖3中的面積、人口、首都等。
圖2(作者依據(jù)知識圖譜相關(guān)概念繪制)
圖3(引用自網(wǎng)絡(luò)圖片)
2. 它的數(shù)據(jù)以知識的角度呈現(xiàn)。
知識是一種人類對于客觀世界的認(rèn)知,包括事實、信息描述或教育實踐中獲得的結(jié)果的綜合。三元組也被稱為“一條語句”,或知識圖譜中的一條知識。在圖4的國家信息關(guān)系三元組中,我們就可以讀出一條語句(或是知識)為:“中國的土地面積有9,634,057平方公理”。知識圖譜可以集成Web上大量的數(shù)據(jù)及數(shù)據(jù)關(guān)系,通過有效的加工、整合和處理,將其轉(zhuǎn)化為易于計算和理解的語義知識庫,可用于描述客觀世界中的概念及相互關(guān)系。
1.3 知識圖譜的作用
1. 信息篩選,精確檢索范圍。
2. 信息拓展,提供更豐富的信息內(nèi)容。
3. 信息連接,構(gòu)建有深度和廣度的知識系統(tǒng)。
1.4 為什么需要對知識圖譜進(jìn)行可視化
1. 知識圖譜的技術(shù)架構(gòu)-側(cè)重在數(shù)據(jù)關(guān)系模型和機器學(xué)習(xí),普通用戶很難讀取和理解。
知識圖譜的核心技術(shù)邏輯,是由整體的“數(shù)據(jù)輸入-數(shù)據(jù)處理-知識圖譜生成”三個大環(huán)節(jié)構(gòu)成。數(shù)據(jù)輸入環(huán)節(jié)包含“結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)”;數(shù)據(jù)構(gòu)建環(huán)節(jié)包含“信息抽取、知識融合、知識加工”;知識圖譜系統(tǒng)的生成環(huán)節(jié),是整個技術(shù)架構(gòu)往復(fù)迭代、不斷更新和積累,慢慢形成的結(jié)果。數(shù)據(jù)輸入是對數(shù)據(jù)源的挖掘,數(shù)據(jù)構(gòu)建是底層的模型算法應(yīng)用,知識圖譜生成是數(shù)據(jù)處理結(jié)果的呈現(xiàn)(如圖4)。
圖4(作者依據(jù)知識圖譜相關(guān)概念繪制)
這個過程在底層數(shù)據(jù)模型中運轉(zhuǎn),對用戶可見的往往是最終的結(jié)果。比如:搜索引擎中,用戶看不到搜索過程,但可得到最匹配的搜索結(jié)果;在音樂平臺中,看不到內(nèi)容匹配邏輯,但可以被推薦感興趣的歌曲。如果想利用過程數(shù)據(jù)為用戶提供服務(wù),就需要進(jìn)行可視化處理。
2. 傳統(tǒng)的信息可視化-側(cè)重在數(shù)據(jù)結(jié)果的展示和篩選,較少涉及數(shù)據(jù)關(guān)系的干預(yù)。
傳統(tǒng)信息可視化的方法,在設(shè)計側(cè)更多強調(diào)數(shù)據(jù)信息與圖像、色彩的信息傳達(dá)上。其方法通常集中在“如何對已經(jīng)確定的數(shù)據(jù)進(jìn)行圖形映射”和“如何處理信息層級”的視覺表現(xiàn)上,較少參與設(shè)計數(shù)據(jù)關(guān)系或影響數(shù)據(jù)結(jié)構(gòu)。然而,這讓用戶知道數(shù)據(jù)“是什么”,卻不能呈現(xiàn)數(shù)據(jù)“為什么”。知識圖譜的可視化,可以讓數(shù)據(jù)處理過程被用戶可見、可用,從而更好的分析和使用數(shù)據(jù)。
圖5(作者依據(jù)傳統(tǒng)信息可視化方法相關(guān)概念繪制)
3. 知識圖譜的可視化-側(cè)重在數(shù)據(jù)關(guān)系構(gòu)建和處理過程的可視化
知識圖譜技術(shù)廣泛應(yīng)用在情報學(xué)、檢索引擎、自動問答、金融反欺詐等領(lǐng)域。目前已擴展到智能醫(yī)療、證券投資、大數(shù)據(jù)風(fēng)控、聊天機器人、個性化推薦系統(tǒng)等更多方向[1]。這種關(guān)系語義網(wǎng)絡(luò)也逐漸從技術(shù)底層應(yīng)用向可視化用戶界面上發(fā)展,各行各業(yè)也在探索如何時其在終端界面中被用戶可讀和可用。比如:在文化研究領(lǐng)域,圖譜呈現(xiàn)更有助于用戶對于文化知識的理解和再創(chuàng)造;在商品市場領(lǐng)域,視覺化的圖譜可讓商家洞察更多“人-貨-場”之間的內(nèi)在聯(lián)系。
對知識圖譜信息的可視化,重心落在數(shù)據(jù)信息的提取和關(guān)系構(gòu)建上,將數(shù)據(jù)信息的編譯過程呈現(xiàn)給用戶。知識圖譜信息可視化和傳統(tǒng)信息可視化方法之間的關(guān)系,如圖6。
圖6(作者依據(jù)信息可視化方法相關(guān)概念繪制)
知識圖譜在底層算法和數(shù)據(jù)模型上提供有效的技術(shù)邏輯,進(jìn)而構(gòu)建豐富龐大的語義網(wǎng)絡(luò),但如果要在具體應(yīng)用場景中給用戶可見的模式,則需要圖形化界面的呈現(xiàn)。在實際工作中,設(shè)計側(cè)的核心任務(wù)是“多關(guān)系圖”的信息可視化。結(jié)合知識圖譜的特征、技術(shù)原理和傳統(tǒng)信息可視化方法,可以將知識圖譜可視化的過程,歸納為“確定知識主題(主題層)-處理與分析數(shù)據(jù)(數(shù)據(jù)層)-構(gòu)建數(shù)據(jù)三元組(關(guān)系層)-進(jìn)行可視化映射(可視層)”四個步驟。
2.1 【主題層】確定知識主題/可視化目標(biāo)
確定主題的過程,也是定義核心概念或目標(biāo)的過程,這一環(huán)節(jié)是是知識圖譜可視化的出發(fā)點和落腳點。傳統(tǒng)可視化為了可視而可視,只是讓用戶更好的讀取數(shù)據(jù),而較少考慮讀到后有什么用,怎么用。沒有主題的數(shù)據(jù)是無意義的,任何一類知識的描述,都需要圍繞某一特定主題展開。在項目實踐角度,也可以將其視為梳理業(yè)務(wù)核心訴求或定義設(shè)計目標(biāo)的過程,如確定要闡述什么類型的知識、最終的可視化效果對目標(biāo)用戶有什么價值、業(yè)務(wù)要利用數(shù)據(jù)達(dá)到什么目的,所有數(shù)據(jù)的設(shè)計都將圍繞著主題展開。
確定主題的方法有很多,包括傳統(tǒng)的用戶需求分析方法、文獻(xiàn)綜述、行業(yè)研究等,可根據(jù)不同的項目訴求,選擇合適的方法和工具。如,要做電商行業(yè)的知識圖譜,通過行業(yè)研究、對用戶特征和行為動機的分析,發(fā)現(xiàn)電商領(lǐng)域用戶最關(guān)心人貨場的知識,人和貨特征及其關(guān)系就是核心要表達(dá)的主題。再如,老師想了解網(wǎng)絡(luò)時代的大學(xué)生都具備怎樣的社交特征,通過對學(xué)生學(xué)習(xí)、娛樂、社交等不同生活要素分類調(diào)研,選擇“學(xué)生使用社交軟件的行為特征”作為主題。
同時,主題要清晰明確,避免模糊和過于宏大。以文化領(lǐng)域為例,如想呈現(xiàn)京劇之美,這個概念就大而泛,很難去組織數(shù)據(jù),就有創(chuàng)作者將其主題拆分為:歷史之美、劇目之美、舞臺意向之美、傳承之美等幾個主題。然后再逐一分析每個主題的數(shù)據(jù)。
2.2 【數(shù)據(jù)層】對數(shù)據(jù)進(jìn)行提取與加工
在未經(jīng)處理前,與主題相關(guān)的可用數(shù)據(jù)是多樣且龐雜的。由知識圖譜的技術(shù)框架可知,技術(shù)模型經(jīng)過信息提取、知識融合和知識加工后,才使原始數(shù)據(jù)變得有用和有效,同樣在可視化的過程中,也離不開信息提取與數(shù)據(jù)加工。
1. 數(shù)據(jù)提取-圍繞知識主題進(jìn)行數(shù)據(jù)信息的提取。
信息提取,也就是先羅列可能有用的相關(guān)數(shù)據(jù)類型。每個主題都是一大類目的知識領(lǐng)域,需要經(jīng)過收集、歸納、拆解后再能夠清晰的進(jìn)行解釋和傳播。如,圍繞“學(xué)生使用社交軟件的行為特征”這一主題,可歸納出“好友關(guān)系、互動行為、在線狀態(tài)、信息發(fā)布”等特征。進(jìn)一步,好友關(guān)系又可拆分為:好友量、關(guān)注量、粉絲量;互動行為又可拆分為:聊天次數(shù)/頻率、點贊數(shù)、評論數(shù)等。數(shù)據(jù)收集一般通過桌面研究的手工收集、數(shù)據(jù)爬蟲兩種方式。歸納和拆解數(shù)據(jù)可以使用卡片分類、思維導(dǎo)圖的方式。
2. 數(shù)據(jù)加工-進(jìn)行知識語義加工。
數(shù)據(jù)加工的過程,就是將羅列出的數(shù)據(jù)進(jìn)行分類和篩選,確定最能夠表現(xiàn)知識主題的描述緯度或數(shù)據(jù)類型。如圖7,通過分析影響因素的關(guān)聯(lián)程度,選擇具備直接影響因素的數(shù)據(jù),或劃定數(shù)據(jù)范圍后,再進(jìn)行細(xì)分??梢岳每ㄖZ模型、波士頓矩陣等方法找到數(shù)據(jù)對主題影響程度的優(yōu)先級,具體的挑選方法無定式,只要能整理出適合的數(shù)據(jù)類型。
圖7(作者依據(jù)相關(guān)案例繪制)
3. 數(shù)據(jù)清洗-進(jìn)行數(shù)據(jù)篩選和最終確認(rèn)
定義出有用的數(shù)據(jù)類型后,并不是所有數(shù)據(jù)都能完美符合我們的訴求,比如數(shù)據(jù)挖掘能力限制,不能挖到更精準(zhǔn)的數(shù)據(jù)或有數(shù)據(jù)缺失;比如數(shù)據(jù)解析能力不足,數(shù)據(jù)類型混雜,或有錯誤數(shù)據(jù)等。排除不足量、精準(zhǔn)度差、錯誤率高等不可用的數(shù)據(jù),盤點出能夠被應(yīng)用于可視化的最終數(shù)據(jù)。在實際工作中,需要跟團隊的數(shù)據(jù)挖掘工程師、或業(yè)務(wù)產(chǎn)品負(fù)責(zé)人明確數(shù)據(jù)能力和質(zhì)量。例如,“京劇傳承之美”的數(shù)據(jù)選擇過程中,作者對京劇藝術(shù)傳承上存在的“流派師承、藝學(xué)家傳、科班教育等”多種方式進(jìn)行進(jìn)行分類和篩選,最終提取了京劇51個流派的創(chuàng)始人數(shù)據(jù)、師徒數(shù)據(jù)、家族成員數(shù)據(jù)。
2.3 【關(guān)系層】構(gòu)建數(shù)據(jù)關(guān)系三元組
在知識圖譜的技術(shù)架構(gòu)中,這一環(huán)節(jié)體現(xiàn)在本體構(gòu)建上,本體是個專業(yè)概念,本體構(gòu)建也有多種可用的成熟模型,屬于技術(shù)側(cè)內(nèi)容,本文不展開論述,僅闡述設(shè)計層面的思路。技術(shù)是讓數(shù)據(jù)更精準(zhǔn),而面向用戶的設(shè)計是讓數(shù)據(jù)更有用和好用。
設(shè)計數(shù)據(jù)的關(guān)系層,也就是給不同數(shù)據(jù)類型建立關(guān)系的過程,通過確定節(jié)點和邊的內(nèi)容來構(gòu)建能夠解釋主題和符合其邏輯關(guān)系的三元組。數(shù)據(jù)關(guān)系的建立一般主要圍繞兩個層面,一是能夠闡述知識主題,二是通過關(guān)系三元組可推理得到更多的知識內(nèi)容。比如,在“學(xué)生使用社交軟件的行為特征”這個主題中,可定義“學(xué)生(實體)-網(wǎng)絡(luò)社交特征(屬性)-具體行為(屬性值)“是一組關(guān)系結(jié)構(gòu),體現(xiàn)在數(shù)據(jù)為“張三-在線時長-5小時/天”,描述成知識語意為:張三同學(xué)社交軟件每天會在線亮起5個小時;又如,圍繞“商品銷售信息”這一主題,“產(chǎn)品(實體)-集合(關(guān)系)-商品(實體)”是一組關(guān)系結(jié)構(gòu),體現(xiàn)在具體數(shù)據(jù)為“手機-包含-華為手機”,描述成知識語義為:華為手機是眾多手機中的一種。
當(dāng)我們定義了這種數(shù)據(jù)關(guān)系,獨立的數(shù)據(jù)就變成了可描述的知識語意,當(dāng)這些語義聯(lián)系在一起,用戶通過一段段知識洞察到不同的現(xiàn)象,或解讀出不同的結(jié)論。這種知識語義的可視化,或者說這種數(shù)據(jù)關(guān)系結(jié)構(gòu)的可視化,能夠幫助用戶了解業(yè)務(wù)現(xiàn)象,或產(chǎn)品底層看不到但卻有用的信息。比如京劇文化中師承的演變,可以通過不同人物之間的關(guān)系脈絡(luò),構(gòu)建出“師承關(guān)系、家族關(guān)系、聯(lián)姻關(guān)系”幾種三元組模式,從相同節(jié)點中解讀到某個京劇演員擅長某個角色的師承因素。再比如,將某班級每個學(xué)生的聊天頻率、好友數(shù)量、QQ在線時長等網(wǎng)絡(luò)社交行為關(guān)系一一對應(yīng),就會勾畫出集中在某個學(xué)生身上的不同特征,把這些學(xué)生再放在一起,就呈現(xiàn)出一個班級學(xué)生在網(wǎng)絡(luò)世界的不同社交特點。(如圖8)
圖8: 由數(shù)據(jù)構(gòu)建的三元組關(guān)系圖(作者依據(jù)相關(guān)案例繪制)
2.4 【可視層】可視化圖形語義轉(zhuǎn)換/可視化映射
當(dāng)關(guān)系構(gòu)建好以后,簡單的三元組是容易讀取的,但眾多三元組集成在一起,也會涉及到信息讀取效率的問題,就需要將關(guān)系結(jié)構(gòu)圖形化,這一步驟也是傳統(tǒng)信息可視化方法中的必然環(huán)節(jié)。根據(jù)已經(jīng)構(gòu)建好的數(shù)據(jù)關(guān)系結(jié)構(gòu),可通過“圖表映射”和“視圖設(shè)計”兩種方式,進(jìn)行可視化的語義轉(zhuǎn)換。
1. 可視化圖表映射
可視化圖表,是指具備通用性的標(biāo)準(zhǔn)化圖表。總體分為統(tǒng)計類圖表和關(guān)系類圖表,本文主要闡述關(guān)系類圖表。關(guān)系類圖表又可分為網(wǎng)狀關(guān)系和層次關(guān)系。網(wǎng)狀關(guān)系圖包括:關(guān)系圖、弦圖、弧長鏈接圖等;層次關(guān)系圖包括:樹圖、旭日圖、矩形樹圖等。詳細(xì)的標(biāo)準(zhǔn)化圖表,可以借助E-chart、Tableau Public、Smartbi等軟件進(jìn)行參考選擇(如圖9)。
圖9:網(wǎng)狀關(guān)系圖(引用自E-chart網(wǎng)站截圖)
圖9:層次關(guān)系圖(引用自E-chart網(wǎng)站截圖)
如果數(shù)據(jù)關(guān)系比較清晰簡單,能夠被這兩類標(biāo)準(zhǔn)化圖表所覆蓋,則可以直接選擇把節(jié)點和關(guān)系直接映射其中。如果你的數(shù)據(jù)關(guān)系比較復(fù)雜,或個性化,則可對標(biāo)準(zhǔn)化圖標(biāo)進(jìn)行組合或變化,或設(shè)計個性化視圖。
例如,在北京郵電大學(xué)彭國雁的論文《面向京劇知識圖譜的信息可視化研究與設(shè)計》的案例中,“京劇傳承之美”這一主題,“師承關(guān)系、家族關(guān)系、聯(lián)姻關(guān)系”的三元組關(guān)系較復(fù)雜,如果直接用可視化圖表映射來展示,會產(chǎn)生易讀性差和頁面布局難以控制的問題。于是論文作者采用不同圖表相結(jié)合的方式,并將圖形的視覺元素進(jìn)行改造:1 主體采用和弦圖,人物點構(gòu)成和弦圖的圓,人物關(guān)系類別采用不同顏色線條進(jìn)行連接(圖10)。2 根據(jù)人物出生時間的向性特點,將人物按照某一方向進(jìn)行排列,即可隱喻師徒或者親屬關(guān)系的有向性。3 采用樹形圖形式的線條表達(dá)主次人物的關(guān)系(圖11)。4 將幾種基礎(chǔ)關(guān)系做好映射后,再把相關(guān)節(jié)點整合在一起,就表達(dá)了整體的師承關(guān)系結(jié)構(gòu)圖,最終形成“傳承之美”整體的可視化知識圖譜(圖12)。
圖10: 人物師承、親屬、聯(lián)姻關(guān)系和弦圖(引用自論文《面向京劇知識圖譜的信息可視化研究與設(shè)計》截圖)
圖11: 京劇流派師承樹形關(guān)系表(引用自論文《面向京劇知識圖譜的信息可視化研究與設(shè)計》截圖)
圖12:最終映射后的 “京劇傳承之美”可視化知識圖譜(引用自論文《面向京劇知識圖譜的信息可視化研究與設(shè)計》截圖)
2. 可視化視圖設(shè)計
本文所述的可視化視圖,是指能表達(dá)標(biāo)準(zhǔn)化圖表以外的,不同類型數(shù)據(jù)特征的語義圖形,由設(shè)計師根據(jù)與主題相關(guān)的數(shù)據(jù)類型進(jìn)行構(gòu)思,并關(guān)聯(lián)其不同類型數(shù)據(jù)間的關(guān)系語境,最終形成的信息圖。比如(圖13),清華大學(xué)副教授向帆老師在對“學(xué)生互聯(lián)網(wǎng)社交行為”這一主題的研究中,作者選擇QQ使用狀態(tài)的相關(guān)數(shù)據(jù),將每個學(xué)生用QQ企鵝的輪廓圖形表示,在線時長為企鵝形狀大小、聊天次數(shù)為圓形嘴巴、好友數(shù)量為頭發(fā)多少,呈現(xiàn)出“學(xué)生-網(wǎng)絡(luò)社交特征-具體行為”的可視化關(guān)系圖,在最終的視圖中,可直觀的看到完全不同的每個人。
圖13:同班級不同的學(xué)生網(wǎng)絡(luò)社交行為圖譜(引用自演講《秘密的設(shè)計》截圖)
這類自定義的可視化視圖具有獨特性和意向性的特征。獨特性是指圖形針對具體的主題和數(shù)據(jù)關(guān)系,而不能夠廣泛的為其他主題復(fù)用;意向性是指一個視圖內(nèi)的圖形有一定的意向概念傳達(dá),比如圓形代表聊天次數(shù),也是象征嘴巴,嘴巴跟聊天相關(guān)(盡管網(wǎng)絡(luò)聊天用文字,但卻表達(dá)出了這種交流意向)。同時個性化圖形元素相關(guān)聯(lián)來表達(dá)數(shù)據(jù)關(guān)系,也可以直觀、高效的洞察出用單純的標(biāo)準(zhǔn)化圖表看不到的現(xiàn)象,比如說圖14的三個學(xué)生,一個在線時間很長但聊天很少、好友也很少;一個在線時間很短,但好友和交流時間卻很多;另一個基本不說話,但是卻有很多好朋友。這樣的現(xiàn)象更容易觸發(fā)同理心,從而啟發(fā)老師在教學(xué)中因材施教。
圖14:發(fā)現(xiàn)網(wǎng)絡(luò)社交行為最為奇特的三個學(xué)生(引用自演講《秘密的設(shè)計》截圖)
經(jīng)過以上四個步驟,就完成了對知識圖譜數(shù)據(jù)進(jìn)行可視化。它不是單純的以視覺效果展示數(shù)據(jù)信息,而是從數(shù)據(jù)關(guān)系提取到關(guān)系呈現(xiàn)為一體的設(shè)計過程。
綜上所述,基于知識圖譜的技術(shù)架構(gòu)、傳統(tǒng)數(shù)據(jù)可視化的方法和交互設(shè)計的工作流程,本文分享了一種可在工作中易于操作的知識圖譜可視化方法。與傳統(tǒng)數(shù)據(jù)信息可視化相比,知識圖譜可視化更傾向于數(shù)據(jù)之間三元組關(guān)系的視覺表達(dá),所謂“整體大于局部之和”,有了關(guān)系的建立,則更能夠發(fā)現(xiàn)單一數(shù)據(jù)之外的延展信息和潛在機會。希望能夠通過設(shè)計的力量,讓普通用戶也能更好的使用數(shù)據(jù)和洞察數(shù)據(jù)。
文章來源:學(xué)UI網(wǎng) 作者:大總管默默
分享此文一切功德,皆悉回向給文章原作者及眾讀者.
免責(zé)聲明:藍(lán)藍(lán)設(shè)計尊重原作者,文章的版權(quán)歸原作者。如涉及版權(quán)問題,請及時與我們?nèi)〉寐?lián)系,我們立即更正或刪除。
藍(lán)藍(lán)設(shè)計( www.teruid.com )是一家專注而深入的界面設(shè)計公司,為期望卓越的國內(nèi)外企業(yè)提供卓越的UI界面設(shè)計、BS界面設(shè)計 、 cs界面設(shè)計 、 ipad界面設(shè)計 、 包裝設(shè)計 、 圖標(biāo)定制 、 用戶體驗 、交互設(shè)計、 網(wǎng)站建設(shè) 、平面設(shè)計服務(wù)
藍(lán)藍(lán)設(shè)計的小編 http://www.teruid.com