基于NoSQL的中醫(yī)藥數(shù)據存儲方法研究

2017-07-14 來源：中國數(shù)字醫(yī)學標簽：掌上醫(yī)生喝茶減肥一天瘦一斤安全減肥 cps聯(lián)盟美容護膚

摘要：MongoDB是一個模式靈活、開源、高性能、可擴展的文檔型數(shù)據庫。主要特性包括：存儲模式自由,面向集合存儲；支持動態(tài)查詢和完全索引，查詢表達式豐富；自動分片機制，支持動態(tài)添加機器；支持數(shù)據復制和自動故障恢復。

　　數(shù)據類型多樣、數(shù)據量大、異構是中醫(yī)藥數(shù)據的典型特征。目前，對中醫(yī)藥數(shù)據信息的存儲和管理，主要依賴于關系數(shù)據庫（RDBMS）。然而，面對海量異構的中醫(yī)藥數(shù)據如何實現(xiàn)高并發(fā)讀寫、高可擴展性以及異源數(shù)據間的互操作等一系列問題，RDBMS由于其自身的局限遇到了困境，難以滿足中醫(yī)藥大數(shù)據高效存儲和訪問的迫切需求。因此，亟需研究新的數(shù)據管理模型來解決中醫(yī)藥數(shù)據的管理問題，而非關系型數(shù)據庫(NoSQL)的出現(xiàn)有效地彌補了RDBMS的不足。

　　不同于RDBMS，NoSQL是一種分布式、非關系型數(shù)據庫系統(tǒng)，不僅能夠實現(xiàn)各類型數(shù)據的高并發(fā)讀寫，而且支持鍵值(Key-Value)、圖、列族、文檔等常見數(shù)據類型。NoSQL可以高效管理海量數(shù)據，并且具有較好的可擴展性和靈活性。MongoDB屬于NoSQL的范疇，在NoSQL領域占有舉足輕重的地位。本文以MongoDB為代表，研究基于NoSQL的中醫(yī)藥大數(shù)據存儲方法。采用全國各省中醫(yī)院在線公開的大量藥方數(shù)據庫資源，通過研究存儲系統(tǒng)的體系結構和關鍵技術，與傳統(tǒng)關系型數(shù)據庫在相同的大數(shù)據條件下進行實驗對比，驗證了本文提出的方法在存儲和訪問海量中醫(yī)藥數(shù)據時具有更高的性能。

　　MongoDB介紹

　　MongoDB是一個模式靈活、開源、高性能、可擴展的文檔型數(shù)據庫。主要特性包括：存儲模式自由,面向集合存儲；支持動態(tài)查詢和完全索引，查詢表達式豐富；自動分片機制，支持動態(tài)添加機器；支持數(shù)據復制和自動故障恢復。MongoDB的以上特性為海量、異構、多元的中醫(yī)藥大數(shù)據的存儲和訪問提供了支持。

　　中醫(yī)藥數(shù)據管理系統(tǒng)設計

　　中醫(yī)藥數(shù)據管理系統(tǒng)的設計需考慮以下因素：負載均衡性、數(shù)據冗余性和水平擴展性。因此，主要進行以下三方面設計。

　　2.1MongoDB分布式集群設計由于單機節(jié)點無法滿足大數(shù)據高效存儲和訪問的要求，因此需要建立分布式集群環(huán)境來解決。一個MongoDB集群通常由三個部分組成。

　　2.1.1分片節(jié)點(Shard)分片節(jié)點用于存儲實際的數(shù)據塊，一個分片節(jié)點可以由多個服務器組成副本集合，每個服務器存儲的數(shù)據相同，實現(xiàn)數(shù)據冗余和系統(tǒng)擴展。

　　2.1.2路由服務(RouteServer)主要功能是處理終端請求和返回執(zhí)行結果，即MongoDB把不同的請求分發(fā)給不同的Shard，最后把所有相關分片結果整合后返回。

　　2.1.3配置服務器(ConfigServer)主要負責存儲集群上元數(shù)據信息。

　　本文設計的MongoDB分布式集群架構如圖1所示。

　　其中，圖1中的Mongos屬于控制服務器，提供路由服務。其根據ConfigServers存儲的每個塊數(shù)據記錄確定Client的不同請求要路由到哪個分片服務器，把結果融合后返回給Client終端。對于分片節(jié)點Shard來講，兩臺以上的mongod服務器為一組，即一個分片，一組里mongod數(shù)據相同，每個分片上存放的是一定范圍的數(shù)據，當一個分片的數(shù)據量過多時，為保持負載平衡，會遷移到另外的分片，這樣的分片機制提高了系統(tǒng)的訪問能力和擴展能力。

　　2.2分片設計所謂數(shù)據分片是指把數(shù)據分散地存儲于多個分片服務器上，減小單個服務器的負擔，進而使系統(tǒng)性能得到提高。本文設計的存儲系統(tǒng)選擇基于ID特征的分片策略。比如對記錄ID進行取模運算，結果為n，則該記錄被分配到編號為n的分片服務器（數(shù)據分區(qū)）上。數(shù)據分片流程如圖2所示。

　　根據圖2流程，以數(shù)據文件作為分片對象，基本分片原理是把整個數(shù)據文件根據所獲取的分片大小進行分片計算。因此，分片流程的第一步就是獲取需要分片的數(shù)據源文件，并計算數(shù)據源文件的總大小?；赾hunksize的值，如果當前數(shù)據源文件總大小大于chunksize，則重復執(zhí)行與chunksize取模的運算，得到相應的分片號。分片的大小等于分片的長度，一直到當前總大小減去chunksize大小小于chunksize時，把最后剩余的未分片部分分配給下一個分片服務器。

　　每個已分片的數(shù)據用來作為一個記錄的值和關鍵字，并且在每個記錄里面添加分片號、數(shù)據文件名、數(shù)據文件大小、分片大小等鍵值對。

　　2.3負載均衡和冗余設計本文設計的存儲系統(tǒng)采用副本集的方式來實現(xiàn)數(shù)據冗余。即在一個分片節(jié)點中包含兩個以上存儲相同數(shù)據的mongod服務器，在寫數(shù)據文件時，把該數(shù)據分片寫入到多個mongod上，保持備份mongod之間的更新。那么即使其中某一臺mongod服務器出現(xiàn)故障，也可以立即啟用分片中的其他副本提供數(shù)據，避免數(shù)據丟失，保障存儲系統(tǒng)的正常工作，增強系統(tǒng)的安全性、可靠性、穩(wěn)定性。

　　3實驗結果與分析

　　3.1實驗環(huán)境搭建由于基于NoSQL的中醫(yī)藥大數(shù)據存儲系統(tǒng)依賴于一定的大數(shù)據平臺。選擇1臺計算機做為主機，另外8臺計算機作為從機，搭建實際的集群節(jié)點。逐步配置大數(shù)據平臺，具體步驟在此不做贅述。

　　3.2數(shù)據來源采用數(shù)據源來自全國各省中醫(yī)院在線公開的大量藥方數(shù)據庫資源，數(shù)據總大小達280GB。該數(shù)據源記錄了自2006年起至今的多所中醫(yī)院公開的藥方數(shù)據。例如：復方藿香洗劑治療手足癬(克白醋500克，黃精、明礬各10克，生大黃2克，藿香25)，熏洗法治足癬感染(黃柏、黃芩、白鮮皮、百部、防風各15克，萆薢20克，枯礬12克，廣丹3克)等。

　　采用的藥方對象具有數(shù)據量大、關系復雜、數(shù)據異構等特點，RDBMS針對這類數(shù)據通常很難達到預期效果。因此通過基于NoSQL的大數(shù)據存儲技術進行管理，對大量公開的藥方進行收集、整理，探究其內在規(guī)律，以期把實驗結果提供給臨床進行檢驗。

　　3.3MongoDB數(shù)據存儲系統(tǒng)與傳統(tǒng)RDBMS性能對比

　　3.3.1存儲性能對比分別對基于MongoDB數(shù)據存儲系統(tǒng)與RDBMS各進行1，20，100，500，1000次文件存儲，其中每個文件所占空間大小為40KB。MongoDB與RDBMS在數(shù)據存儲性能方面的比較如圖3所示。

　　由圖3可以看出，處理的文件數(shù)量越多，兩種方式所需的處理時間越長，另一方面，數(shù)據量超過某一“閾值”時，RDBMS所需時間急劇增加，而MongoDB的時間增長率一直比較平穩(wěn)，甚至趨近于線性增加。由此可以看出，數(shù)據量越大MongoDB數(shù)據存儲系統(tǒng)的性能優(yōu)勢越明顯，更適用于大數(shù)據的存儲。

　　3.3.2查詢性能對比分別對基于MongoDB數(shù)據存儲系統(tǒng)和RDBMS各進行數(shù)據量為500，1000，3000，6000，10000查詢操作，MongoDB與RDBMS數(shù)據查詢性能的對比如圖4所示。

　　由圖4不難看出，基于MongoDB數(shù)據存儲系統(tǒng)的查詢過程耗時非常少，幾乎可以忽略不計，在數(shù)據量大幅增多的情況下，其耗時增幅沒有明顯變化。而RDBMS查詢耗時較大，隨著數(shù)據量的增加，其耗時增幅會有明顯增加。

　　因此，與RDBMS相比，基于NoSQL的數(shù)據存儲系統(tǒng)具有更好的數(shù)據讀寫性能、擴展性和靈活性。

　　4結論

　　本文首先研究了MongoDB的特性和關鍵技術，設計了基于MongoDB的中醫(yī)藥大數(shù)據存儲系統(tǒng)架構，包括集群設計、數(shù)據分片設計、負載均衡和冗余設計等關鍵方面，具有較強的可擴展性、負載均衡性和可靠性。實驗結果表明，基于NoSQL的中醫(yī)藥大數(shù)據存儲方法從系統(tǒng)架構層面進行的設計與改進，使得對海量非結構化、半結構化中醫(yī)藥數(shù)據的讀寫效率大幅提高。

　　不斷擴大中醫(yī)藥數(shù)據量和集群規(guī)模，從更廣的層面檢驗系統(tǒng)性能并完善系統(tǒng)，以加強數(shù)據檢索能力，進一步提高中醫(yī)藥數(shù)據存儲和訪問性能是下一步的研究方向。

看本篇文章的人在健客購買了以下產品更多>

養(yǎng)陰生津。用于面黃肌瘦，津少口渴，腰膝酸軟，食欲不振，頭暈眼花，心悸氣短，神經衰弱。

健客價：￥28

用于單純皰疹或帶狀皰疹感染。

健客價：￥2.29

瀉熱導滯，潤腸通便。用于熱結便秘，長期臥床便秘，一時性腹脹便秘，老年習慣性便秘。

健客價：￥8.5

調節(jié)三高、提高視力、益智健腦、抗菌消炎。

健客價：￥138

調節(jié)全身代謝，恢復細胞活力，改善心血管功能，健腦健身，延緩衰老，扶正固本。用于冠心病、高脂血癥、腦動脈硬化、老年性視力減退。對甲狀腺機能減退和慢性老年性支氣管炎有輔助治療作用。

健客價：￥119

清熱利濕，涼血止血。用于急、慢性腎盂腎炎血尿、腎小球腎炎血尿，泌尿結石及腎挫傷引起的血尿及不明原因引起的血尿，亦可作為治療泌尿系統(tǒng)腫瘤的輔助藥物。

健客價：￥75

結腸癌輔助化療：卡培他濱適用于 Dukes’ C 期、原發(fā)腫瘤根治術后、適于接受氟嘧啶類藥物單獨治療的結腸癌患者的單藥輔助治療。其治療的無病生存期（DFS）不亞于 5－氟尿嘧啶和甲酰四氫葉酸聯(lián)合方案(5-FU/LV) ?？ㄅ嗨麨I單藥或與其他藥物聯(lián)合化療均不能延長總生存期（OS），但已有試驗數(shù)據表明在聯(lián)合化療方案中卡培他濱可較 5-FU/LV 改善無病生存期。醫(yī)師在開具處方使用卡培他濱單藥對 D

健客價：￥319

手機開啟網絡（移動數(shù)據或無線網絡），接聽免費業(yè)務，移動、聯(lián)通、電信用戶均可使用。（本軟件僅適用于智能手機的安卓、蘋果系統(tǒng)）

健客價：￥100

舒肝開郁，鎮(zhèn)驚安神。用于頭昏頭痛，心煩易怒，心悸不寧，胸悶少氣，少寐多夢。

健客價：￥15

解表散寒，宣肺止咳，清熱解毒。用于感冒、頭痛發(fā)燒，鼻塞流涕，咳嗽咽痛，肢體酸痛等癥，亦可作防治流感常備藥。

健客價：￥9

解表散寒，宣肺止咳，清熱解毒。用于感冒、頭痛發(fā)燒，鼻塞流涕，咳嗽咽痛，肢體酸痛等癥，亦可作防治流感常備藥。

健客價：￥13

解表散寒，宣肺止咳，清熱解毒。用于感冒、頭痛發(fā)燒，鼻塞流涕，咳嗽咽痛，肢體酸痛等癥，亦可作防治流感常備藥。

健客價：￥11.5

清熱瀉火，解毒止痛。用于復發(fā)性口瘡(輕型口瘡或口炎性口瘡)心脾積熱證，癥見口腔潰瘍、疼痛、伴有心煩急躁、口熱口干、舌質偏紅而干、苔黃而膩、脈弦細數(shù)等。

健客價：￥28

心絞痛發(fā)作的預防性治療。眩暈和耳鳴的輔助性對癥治療。

健客價：￥25

本品適用于治療有乙型肝炎病毒活動復制證據，并伴有血清氨基酸轉移酶（ALT或AST）持續(xù)升高或肝臟組織學活動性病變的肝功能代償?shù)某赡曷砸倚透窝谆颊摺?/p> 健客價：￥33

?？虅谶m用于治療下列敏感菌株引起的感染：中耳炎：由肺炎雙球菌、流感嗜血桿菌、葡萄球菌、化膿性鏈球菌(A組β溶血性鏈球菌)和卡他莫拉氏菌引起。下呼吸道感染(包括肺炎)：山肺炎雙球菌、流感嗜血桿菌。化膿性鏈球菌(A組溶血性鏈球菌)和卡他莫拉氏菌引起。上呼吸道感染(包括咽炎和扁桃體炎)：由化膿性鏈球菌(A組溶血性鏈球菌)和卡他莫拉氏菌引起。注：青霉素是治療和預防鏈球菌感染(包括預防風

健客價：￥26

本品為免疫刺激劑，適用于細胞免疫功能低下的下列患者： 1.呼吸道反復感染（氣管炎、支氣管炎）； 2.耳鼻喉科反復感染（鼻炎、鼻竇炎、耳炎、咽炎、扁桃體炎）； 3.泌尿系統(tǒng)反復感染； 4.婦科反復感染；可用于預防感染急性期病癥、縮短病程、減輕疾病的嚴重度、減少反復發(fā)作的次數(shù)、也可作為急性感染時抗菌藥物治療的輔助用藥。

健客價：￥36

1、改善腸胃，2、改善體寒，3、提高免疫力，4、美容養(yǎng)顏，5、減肥瘦身，6、淡斑"。

健客價：￥1750

健客價：￥428

1.用于成人和1歲及1歲以上兒童的甲型和乙型流感治療（磷酸奧司他韋能夠有效治療甲型和乙型流感，但是乙型流感的臨床應用數(shù)據尚不多）。2.用于成人和13歲及13歲以上青少年的甲型和乙型流感的預防。

健客價：￥73

1.化膿性鏈球菌引起的急性咽炎、急性扁桃體炎。 2.敏感細菌引起的鼻竇炎、中耳炎、急性支氣管炎、慢性支氣管炎急性發(fā)作。 3.肺炎鏈球菌、流感嗜血桿菌以及肺炎支原體所致的肺炎。 4.沙眼衣原體及非多種耐藥淋病奈瑟菌所致的尿道炎和宮頸炎。 5.敏感細菌引起的皮膚軟組織感染。

健客價：￥6.5

高血糖的病機主要在于陰津虧損，燥熱偏盛，而以陰虛為本，燥熱為標，兩者互為因果，陰愈虛則燥熱愈盛，燥熱越盛則陰愈虛。高血糖進一步發(fā)展易引起下肢動脈硬化，此時尚是糖尿病足早期，在服用降血糖藥物的同時，配合足浴外用有一定的效果。本方桂枝、丹參活血通經，忍冬藤清熱解毒，黃芪利尿托毒，乳香、沒藥活血止痛。現(xiàn)代藥理學研究表明：桂枝、丹參、乳香、沒藥等均具有改善周圍血液循環(huán)、抗炎、鎮(zhèn)痛等作用，忍冬藤具有抗菌消炎

健客價：￥240

癲癇：對12歲以上兒童及成人的單藥治療：簡單部分性發(fā)作復雜部分性發(fā)作繼發(fā)性全身強直-陣攣性發(fā)作原發(fā)性全身強直-陣攣性發(fā)作目前暫不推薦對12歲以下兒童采用單藥治療，因為尚未得到對這類特殊目標人群所進行的對照試驗的相應數(shù)據。 2歲以上兒童及成人的添加療法：簡單部分性發(fā)作復雜部分性發(fā)作繼發(fā)性全身強直-陣攣性發(fā)作原發(fā)性全身強直-陣攣性發(fā)作本品也可用于治療合并有

健客價：￥45

拉莫三嗪片，適應癥為癲癇：對12歲以上兒童及成人的單藥治療： 1. 簡單部分性發(fā)作 2. 復雜部分性發(fā)作 3. 續(xù)發(fā)性全身強直- 陣攣性發(fā)作 4. 原發(fā)性全身強直- 陣攣性發(fā)作目前暫不推薦對十二歲以下兒童采用單藥治療，因為尚未得到對這類特殊目標人群所進行的對照試驗的相應數(shù)據。兩歲以上兒童及成人的添加療法 ( add-on therapy ) ： 1. 簡單部分性發(fā)作 2. 復雜部

健客價：￥94