利用信息技術打造中醫術語加工平臺
來源:新浪網發布時間:2013-06-01
劉保延發表演講
有關術語的標準研究在20世紀30年代就有很大進展,60年代在美國、蘇聯等國家形成獨立的研究領域,90年代以后進入活躍的發展時期。一種語言的普通詞匯的數量大約有十多萬個,專業詞匯的數量要大得多,比如說化學學科的專業詞匯有三百多萬個。每過25年,科學學科術語的數量就要翻番。
1985年,我國成立了全國術語標準化技術委員會。2006年,各專業領域已制定術語標準約48萬條。目前國外已經形成權威的醫學標準,分為語義的標準和語法的標準。中醫藥學的發展已經有2000多年,中藥的術語也是非常之多,但中醫在標準化和規范化方面做的工作遠不能滿足信息化及中醫藥學發展的需求。目前,文獻里面的中醫藥名詞超過60萬,但標準術語不足5%。利用信息手段對中醫藥進行研究,已經成為中藥學發展的重要任務。
世界衛生組織近幾年對傳統醫學術語也加快了研究速度,世界上已經有100多個國家使用針灸,使用中醫中藥。在醫療的體系當中,肯定會涉及到有關中醫藥的術語問題,這個術語到底怎么運用,怎么標準化、規范化,也成為其他國家醫學界必須解決的一個問題,2005年,在國家自然基金的資助下,中醫藥學委員會公布了中藥學5000多個基本名詞。中醫基礎理論術語已經成為國家標準,最近要開始實施,它收入1130條術語。
中國中醫科學院于1987年開始研究中國中醫藥學主題詞表,近幾年主要在做三方面的工作。一是借鑒國際上統一醫學語言這個系統研究的思路和方法,做了一個中醫藥學語言系統。二是在中醫臨床標準術語集方面也做了一些工作。三是把上述兩者結合到中醫藥的臨床研究和電子病歷的實施當中。
我們的主要目標,是充分利用現代信息手段,對中醫藥所發現的人體現象、規律與相關物質進行重現與認識,形成各種類別的數據庫,利用數據統計、數據挖掘等方法,對中醫藥學進行整體和動態個體化的研究。
我們以中藥學的特點為基礎,請中藥學專家、語言學專家、信息學專家共同研究中醫術語標準,再借鑒國外醫學標準的先進模式和思路,組織全國中醫藥科研機構和高等院校,分別進行中醫藥學語言系統、中醫藥臨床術語集、中醫臨床術語編碼系統的研究。
我們希望遵循中醫藥學的語言特點,引進和改造美國統一醫學語言系統的方法,建立中國第一個計算機化的中醫藥學與相關學科的檢索語言集成系統。主要分四個步驟來做的首先搞一個系統總體設計,第二建立數據加工平臺,第三建立語用關系醫藥庫,第四建立檢索平臺。
要做這一件事情,靠一個單位幾個人是完不成的,全國有13家大學和研究機構100多位專家參與這項工作。還有一個專門的小組,就是中國中醫科學院的信息所,專門建立了一個中醫藥學語言系統中心,負責組織實施。
這個工作從2002年開始,到目前為止,我們基本上就把中醫藥常見的60多萬個詞匯收入其中,加工了10萬個概念及完全語義關聯40萬條,在此基礎上出版了一套《中國中醫藥學術語集成》9本術語集。
我們做的另外一項工作,是在三四年以前就開始采集中醫臨床數據,作為評價體系的研究參考。這里面涉及到的臨床數據采集,相當于臨床電子病歷,也就是中醫藥的電子病歷研究,它涉及到術語的標準化和規范化。
我們把臨床當中的術語分為六大類,為這些術語提供編碼的規則和方法,同時我們也做了一個加工術語的平臺,每一個術語的性質,每一個術語所涉及的內容,全部由這個平臺加工出來。我們將把這些數據快速錄入到系統里來,為下一步的規范化利用奠定基礎。