時間:2023-05-30 09:28:12
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇古籍數字化,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
中醫古籍是中醫藥學傳承和發展的載體,既具有重要的學術價值,又具有相當的文物價值。最新出版的《中國中醫古籍總目》共收錄中醫古籍13 455種,基本上反映了當前我國中醫古籍的存世和分布現狀。如何在保護的基礎上更好地利用這些珍貴的中醫藥資源是中醫藥研究人員的歷史使命。通過數字化處理,既實現了對中醫古籍的永久保存,又可為方便、快捷、無損地開發和利用這些寶貴資源搭建起研究平臺。中國中醫科學院中醫藥信息研究所自2002年始,對館藏中醫典籍進行了數字化再生性保護和利用研究,目前,已建成“中醫藥珍善本古籍多媒體數據庫”、“中醫藥古籍資源數據庫”,實現了部分中醫古籍的數字化保護與利用。
1 “中醫藥古籍資源數據庫”建設
1.1 研究背景
中醫古籍是中華民族幾千年來防病治病寶貴經驗的結晶,是中華民族的優秀文化遺產。中醫藥古籍文獻中所收載的理法方藥、養生保健知識是取之不盡、用之不竭的寶庫,具有極高的實用價值。古籍屬于不可再生的文化資源,近年來,盡管我國加大了對于古籍的保護力度,使古籍的保存環境得到改善,但隨著歷史的推進,古籍還是會悄無聲息、不可避免地出現損毀,乃至消亡。中醫古籍整體保存環境較差,各藏館保存條件良莠不一,中醫古籍保護和傳承令人擔憂。
鑒于此,用數字化手段對中醫古籍進行處理,既可以使中醫古籍的原圖原貌永久保存,又可以通過數據庫和網絡廣泛利用,避免閱讀原書對古籍造成的損傷。因此,中醫古籍數字化是中醫古籍保護和利用的理想方式。中國中醫科學院圖書館所藏中醫古籍占存世中醫古籍數量的一半以上,其中中醫珍善本古籍就達2萬余冊。中國中醫科學院中醫藥信息研究所利用該資源優勢,構建了“中醫藥古籍資源數據庫”,現已收錄1 500種中醫古籍的元數據信息和其中的850種中醫古籍的原文圖像,已經可以通過中醫古籍閱覽系統實現電子閱覽,為中醫古籍數字化保護和利用開辟了途徑。
1.2 “中醫藥古籍資源數據庫”建庫流程
1.2.1 中醫古籍書目的選取
根據中醫古籍的年代、版本價值、文獻價值、保護等級等確定收錄標準,對破損嚴重的珍善本古籍優先進行數字化處理。
1.2.2 數據庫結構設計
考慮到對古籍的再生性保護,我們
以古籍原文圖像作為主要數據來源,部分古籍實現全文本化。由于圖像要求的存儲空間較大,我們采用支持多媒體數據的oracle 9i數據庫系統,并對系統結構進行優化,基本解決了運行速度問題。
1.2.3 元數據加工
根據古籍文獻的特點,按中醫古籍的分類、題名、責任者、出版年代、出版者、版本項、版式、卷數、館藏地、書籍特征、保存狀況、復制狀況等進行著錄,著錄規則參見“我國數字圖書館標準規范建設”項目研究成果——古籍元數據著錄規則(CDLS-S05-014),對收錄古籍撰寫提要,力求建立完整的古籍書目數據庫。
1.2.4 數字化處理
包括古籍的掃描、質檢、圖像處理、文本錄入等。為實現保存和利用雙重目的,掃描時采用全彩模式,300 dpi,JPEG格式保存,按頁碼順序重命名,對掃描后圖像的順序、偏斜度、完整性、清晰度進行檢查,并進行糾偏、去污、裁邊等處理。對部分古籍進行文本錄入,實現圖文對照。
1.2.5 古籍原文圖像標引
采用自主開發的古籍編輯器對文中有效的檢索點進行抽取和xml格式標引,如病證方藥的名稱、索引信息、各級標題等,力求實現圖像的全文檢索,避免標引過繁或過簡,影響檢索效果。對標引后數據進行審核。
1.2.6 數據
將圖像數據、元數據、標引數據、文本數據合成、入庫,形成中醫古籍電子書,到閱覽系統后進行數據庫測試,實現中醫古籍的數字化保護與利用。
1.3 采用技術
數據庫采用Oracle 9i,數據搜索采用Oracle Text技術。整個系統采用基于Java的Web應用技術,結合基于J2EE的Struts 和實現數據持久化的Hibernate框架的MVC設計模式,構建了高內聚、弱藕合、可維護和可擴展的中醫古籍數字化系統[1]。
2 中醫古籍數字化存在的障礙
2.1 中醫古籍中生僻漢字的處理
漢字從產生至今經歷了漫長的演變過程,由此也產生了大量的繁簡字、異體字、古今字、通假字等。中醫古籍數字化過程中遇到的字體障礙有兩個方面,一個是對字體的認知障礙,生僻漢字的準確錄入需要很深的中醫文獻學功底,而對于一般的操作人員很難辦到;一個是技術障礙,Unicode字符集雖然可以解決字庫問題,但是很多軟件不支持,常用的輸入法和搜索引擎不支持大字符集,很多生僻字仍不能正確顯示和檢索。用造字的方法費時費力,而且很難共享和檢索,生僻漢字的處理仍是中醫古籍數字化過程中的一大障礙。
2.2 全國古籍數字化標準尚待建立
目前,雖然參與中醫古籍數字化工作的單位較多,但幾乎都處于各自為戰的狀態,所采取的途徑多樣,因此產生的數字化成果形式多樣,不利于中醫古籍數字化發展,也不利于中醫古籍數字化資源共享。究其原因,除了缺乏統一的協調規劃外,沒有可參照的行業標準也是其中重要的原因。
2.3 中醫古籍數字化軟件有待改進
軟件功能是否強大對中醫古籍數字化過程和成果具有直接影響,選擇合適的軟件可以起到事半功倍的效果。目前,可供選擇的數字化加工系統很多,掃描和圖像處理技術已較為成熟。而OCR軟件對古籍中部分繁體字和不規則用字的識別效果很差,輔以人工校對則需要大量的時間和人力,如何提高OCR在古籍字符識別上的準確率是古籍數字化面臨的一大難題;數據加工軟件在批處理、大字符集、內容管理等方面存在缺陷;檢索系統如何根據中醫古籍的特點提高檢索速度和精準度也是值得進一步研究的問題。
2.4 古籍信息的精準檢索
快速、準確地檢索到所需要的內容是古籍數字化應有的基本功能,也是評價其優劣的重要指標。全文本的數字化古籍可以實現任意字符的檢索,但是數據準確度小、檢索噪音大的問題尚待進一步解決;圖像版可以保證信息的準確無誤,但在全文檢索上存在一定缺陷,通過對有效檢索點的標引可以在一定程度上彌補上述不足,但仍不可避免地要遺漏某些信息。由于中醫古籍中病、證、方、藥的同名異義、異名同義現象普遍存在,使內容的精確檢索更加困難。如何建立后控詞表,實現關聯檢索也是中醫古籍數字化面臨的一個難題。
2.5 研究支持功能尚不完善
研究支持功能是指能夠提供有關古籍內容本身科學、準確的統計與計量信息,提供與古籍內容相關的參考數據、輔助工具,這些信息、數據或工具都是古籍內容的增值或補充[2]。中醫古籍具有極高的研究價值,其研究支持功能應更強大。除常用的中醫古籍研究輔助工具外,還應具有不同版本和相關數據的鏈接。對病、證、方、藥的參考數據進行匯聚,對生僻字進行注解,建立學術論壇等,都是研究支持功能的重要組成部分,而目前的中醫古籍數字化成果在此方面尚顯薄弱。
2.6 深度開發不夠
中醫古籍數字化不應僅僅滿足于對古籍的閱覽和查詢。古代中醫藥文獻是一個知識寶庫,在數字化的基礎上挖掘古籍中的寶貴知識財富,實現知識發現和知識拓展,更好地為中醫藥事業的發展和人類健康服務是中醫古籍數字化的最高目標。
3 中醫古籍數字化建設的建議
3.1 圖文關聯是實現中醫古籍數字化的較好方式
圖文關聯是將古籍文獻分別存儲為圖像、文本兩種形式。圖文關聯是將文本對應放在與之相匹配的圖像之下,并建立索引關系,實現圖文對照。此種方式可以彌補“圖像”在檢索和內容編輯上的不足,又可以校對“文本”的準確性,使讀者既能看到原書原貌的古籍文獻,又可以快速準確地查到所需要的內容。尤其對于研究者,對原始版本信息和文本的準確性要求更高,而通過圖文對照便可很好地解決這一問題。
3.2 中醫文獻與計算機專業人員的通力協作
中醫古籍數字化是古典文化與現代技術的結合,需要有精通中醫古籍整理、目錄學和版本學知識的人才與掌握計算機網絡知識和多媒體技術的專業人員通力協作。中醫古籍數字化雖屬新的古籍整理方式,但仍歸于中醫文獻整理范疇,離不開文獻整理的知識。在整個過程中,中醫知識不可或缺;同時,在數據處理、數據庫設計、應用平臺構建等方面都需要計算機專業人員參與。中醫文獻專家的需求和建議能指導計算機技術人員對整個系統的設計,進而改善中醫古籍數字化系統的功能。上述兩方面人員的深入合作是創建理想中醫古籍數字化模式的前提。
3.3 重視統一標準的研究和制定
建立完整的中醫古籍資源庫需要全行業的合作。因此,有必要建立統一的標準,包括中醫古籍的分類法、著錄規則、軟件和數據庫的使用、數字化加工標準、加工和利用平臺等。統一的標準是實現中醫古籍數字化資源共享的基礎,也是促進中醫古籍數字化建設進程的有力保障[3]。
3.4 統一規劃,共建共享
中醫古籍數字化是對中華文化遺產的保護和弘揚,具有強烈的公益色彩。各單位需要在統一的協調和領導下,建立一個整體的規劃。整體規劃應包括數字化對象的內容,確定工作重點和合作分工,同時包括相關標準、規范的統一,而恰好這兩方面問題在目前的工作中較為突出[4]。解決了這兩方面問題,就避免了重復建設和資源浪費,才能實現共建共享。
4 結語
中醫古籍數字化是一項長期的系統工程,需要中醫藥科研人員付出長期的艱辛和努力。雖然在建設過程中還有許多問題有待解決,但隨著研究的深入,信息技術的飛速發展,中醫古籍數據庫建設和利用將呈現廣闊的前景。
參考文獻
[1] 符永馳,李 斌,郭敏華,等.中醫古籍電子化系統的研究與實現[J].中國中醫藥信息雜志,2008,15(2):103-104.
[2] 李國新.中國古籍資源數字化的進展與任務[J].大學圖書館學報,2002, (1):21-26.
關鍵詞:數字化;古籍軟件;成就;挑戰
中圖分類號:G250.76 文獻標識碼:A 文章編號:1007-9599 (2012) 13-0000-02
一、引言
自古以來,古籍是我們的祖先留給我們的最珍貴的精神財富遺產。據不完全統計,古籍的存在,有大約130,000種。他們有一部分的收集掌握在私人手中,也有一部分分布在各地的圖書館中以及國外和國內的科研院里面。在很早以前古籍整理都依賴手工,這樣不僅低效、而且費力。
二、古籍數字化工程的主要成就
古籍的數字化,其實質就是怎么用數字化媒體來承載古籍。我國的古籍數字化至今已走過20多年的發展歷程。它起步于20世紀80年代,發展于90年代中后期。從目前的情況下看,在國內古籍數字化的工作還是主要依賴于如社科院文獻信息中心等學術型研究機構和北京大學等學校,如迪志、漢文化聯盟的出版社,還有一些像北京書同文、超星等專門技術公司,以及公共圖書館(如上海圖書館、北京圖書館),并且已經有大量的優秀的成果問世。
(一)為古籍整理的檢索提供了高效的工具
以《國學寶典》為例,《國學寶典》大型古籍文獻數據庫全文檢索系統,含二千多部重要古籍文獻,具有全文逐字索引、字詞頻統計、智能模糊查詢、自動卡片生成等功能,極大地滿足了科研開發和學術研究的需要,在統計分析、主題查找、古書輯佚辭書編纂、等方面具有極大的輔助作用。《國學寶典》不僅為古籍整理后研究成果的出版創造了方便條件,同時也為古籍資源整理提供了高效的工具。
(二)解決了古籍的保護與使用之間的矛盾
我國古籍是我們的前人給后人最寶貴的遺產,數量一般不會有大的增加。一直以來,我們對估計進行物理和化學保護,實行防霉、防蟲等基礎工作,為了保護古籍,許多古籍保存單位嚴格限制古籍使用這就使得書不能不使用,不能發揮它應有的作用。古籍保存是一個問題,但是數字產品卻易于保存,所以只有通過將古籍制成數字產品就可以真正的達到永久保存的目的,這些史料就會被人們充分的利用和共享。
(三)目前已經完成和開發了大量的古籍數字化相關工程
在我國古籍數字化在20世紀90年代中期以后才算是真正的得到迅速的發展。當時一些比較大的商業公司、學術機構和出版單位開始對古籍的數字化產生興趣,開始著手古籍數字化的工作,所以就開始迅速擴大古籍數字化的規模。例國學公司推出了《國學寶典》等系列產品。如北京大學圖書館推出了“秘籍琳瑯”項目,北京大學“中國基本古籍庫”光盤工程。該工程正式啟動于1998年,共500張光盤庫,分哲學、史地、藝文、綜合4個子庫20個大類,范圍涉及先秦至民國的重要典籍1萬余種,并提供多重檢索功能,每種典籍有1個通行版本的全文信息,另附1-2個珍貴版本的圖像數據,預計全文20億字、版本圖像2千萬頁。書同文公司推出的《四部叢刊》的全文檢索版。中華書局正在進行的中華古籍語料庫的建設。
另外還有一些個人和機構都對古籍進行了數字化工作。在整理的過程中,人們對古籍實現數字化的原則、數字化古籍資源的特征等基本問題的認識都會有一定的加深,這些個人和機構經過持續的研究和試驗,對我國古籍數字化實現的一些關鍵性技術也做出了不少的貢獻,使得估計數字化也取得了很明顯進展。
三、古籍數字化工程所面臨問題
在我國古籍數字化是具有很大的現實意義,在充分挖掘古籍的史料價值和文化價值的基礎上,對古籍的長久保存發揮重要作用,但是也面臨這很大的問題。
(一)重復建設嚴重
我國分散各地,并且古籍數量十分龐大。目前,我國的數字化古籍整理沒有一個統一的結構,來做出一個統一的協調與指導。一般都是單獨開發。而古籍數字化工作基本上處于一種缺乏宏觀調控和管理的狀態,古籍整理出版規劃也并沒有明確規定古籍數字化的規劃問題,重復性建設嚴重。很多開發單位各自為政,也大量的造成冷門項目少有問津,熱點項目重復建設。就拿《四庫全書》為例,它是我國歷史上規模最大的從書,單是1998年一年內就至少出現了3種不同的光盤版,這就造成了很大的浪費,很大程度上阻礙了我國古籍數字化的發展。
(二)錄用字時的識別和檢索問題
古籍漢字識別的規模一般是很大的,這就使得工作變得困難重重,所以專家就要對古籍漢字識別進行嚴格控制,對于一些大型古籍數據庫,由于操作人員本身的知識水平,就很難識別古籍中的異形(體)字、俗字,不得不“照搬照畫”,其結果就是大量生造的字,這不僅僅增加了檢索“模糊度”,還會出現一大堆生造的繁簡字、俗字、異形(體)字。這些生造的字,對資源的共享造成了很大的困難,另外還有一些制作單位,可能會因為一些識字,采取替代法來代替一些疑難字符,這就很大程度上違背了真實性。另外,從目前看來,現行的繁簡字轉化系統是一種單一的一對一對應關系,沒有辦法解決繁簡字的一對多、多對一的對應關系,所以簡化字對繁體字進行轉化輸出時出現錯誤或一些其他的有歧義的字。
(三)古籍數字化缺乏一定的引導
在古籍數字化迅速發展的同時,是缺乏一定的引導的,并且在數據內容、數據質量等方面也存在不足:
1.缺少復合型人才。目前看來,從事這種古籍整理工作的人才不多,尤其是不僅僅可以熟練的應用信息技術又具備很強的古籍整理知識的人才。
2.缺少統籌規劃。在我國國內是缺乏一個統一的協調和指導,缺乏一個統一的機構,各個開發單位就可能做一些重復建設,這就浪費了很多的時間。
關鍵詞: 古籍概況古籍數字資源古籍數字化應用
隨著計算機科學信息技術的發展,大多數史學研究者很自然地提出古籍數字化。以網絡為主要載體,數字圖書館建設迅速發展,古籍數字資料的應用與史學研究的結合日益緊密,信息技術對人文社會科學研究的影響在向深度和廣度發展,相關問題的應用與研究也越來越受到人們的重視。
一、古籍概況
中華民族創造了輝煌浩瀚的歷史文化遺產,古代典籍是我國歷史文化遺產最為重要的物質載體,是世界文化的重要組成部分。雖然經史研究有很多優秀遺產,但存在著范圍狹窄,缺乏參考資料等積弊。針對以上缺陷,近代以來學術界編纂了多種引得、通檢、索引、匯編等工具書,部分完成了索引式整理的任務,為查閱古籍提供了諸多便利。但中國歷史古籍卷帙浩繁,經過系統整理的只是少數,即便已有的索引古籍,在解決具體問題時仍會有種種不便。古典整理主要包括標點、校勘、箋注等工作。史料是歷史研究的基礎,每一個從事史學工作的人都要搜集和積累史料,以前抄錄卡片的方法基本上是按照個人的需要輯錄的,難以大家共享。搜集資料的工作麻煩而又艱巨,但十分重要。而且,只有盡可能全面地占有資料,才能對所研究的問題進行科學論證,得出正確的結論。因此,我們需要應用便捷、高效、準確的檢索工具為人文學術研究服務。
信息時代,數字卡片將取代傳統的紙質卡片是不爭的事實,數字圖書館正在迅速豐富著個人的數字藏書。古籍數字資料的搜集與整理是一個完整的過程,包括數字資料搜集范圍的確定,數字資料的篩選與鑒定等[1]。利用計算機把史料的整理歸類工作做好,方便廣大讀者,這需要史學工作者熟悉、掌握基本的計算機信息技術,便于和信息技術人員配合協作,把古籍數字資料建設和史學研究推向深入。
現階段古籍數字資料的應用喜憂參半。一方面,信息技術的迅速發展,為古籍數字化提供了充分的技術條件。互聯網提高了電子文獻的檢索效率,擴大了服務范圍,便捷的信息傳遞節省了遠程通信費用。另一方面,現有的網絡古籍數字資料分布極不平衡,大部分網絡古籍數字資料庫集中在海外,我國學者在使用上存在諸多不便。
二、古籍數字資源
數字化古籍文獻為史學文化研究的繁榮奠定了基礎,其功能不僅在于一般的信息查詢,更重要的是古籍文獻中的知識發現。古籍數字化應符合國際通用標準,具有開放性,可以在網絡上傳輸,實現信息資源共享。古籍數字化的過程,基本上可以視為文獻全文數據庫的生成過程。通過計算機輸入一部古籍文獻,就形成了無標引的全文數據庫,即半結構化的數據庫。[2]但其最大的缺陷就在于,半結構化的數據庫不能像結構化數據庫一樣,由排序、篩選、分類和統計等管理過程產生再生資源,更談不上知識發現。這遠遠不能發揮計算機的技術優勢,也難以達到研究者的要求。因此,只有對古籍中的數據進行充分的分析和處理,制作成結構化數據庫,與半結構化數據庫相結合,才能滿足研究者的需要。古籍數字資料搜集得方便快捷的同時,帶來了新的問題。
古籍數字資料尚沒有方便適用的程序和統一的方法,古籍研究者可根據自己對資料的理解和研究需要進行二次歸類整理。其方式有以下幾種:按性質歸類,按時間順序排比,按研究問題分組等。檢索得到的數字資料可以分為兩類:一是數據性資料,二是需要進行邏輯分類的文字。對數據性資料進行分析,是史學研究的重要內容。我們可通過Excel之類的電子表格軟件來實現常用的數據,如平均數、近似值、時間序列、分布規律等。在古籍中的數據性資料也占有相當一部分,但更多的是文字資料。
從古籍學術研究的角度上來看,古籍中既有我們古代先賢哲人所表述的撰述,又有保存歷史斷片的記注。研究古代先賢的思想,首先,當然要尊重其撰述的完整性,而每當我們對其研究發現之后,往往會有新的解讀,這就是史學研究的一般過程。其次,古籍研究者對文獻本身的認識也是隨著研究工作的深入而逐步清晰起來的,如果在大范圍內進行模糊查詢或漸進式查詢,紙本檢索工具書就不能解決。使用數字檢索系統就能解決上述困難,然后再使用Word和Excel,對文字性資料進行邏輯分類,以便從中獲得新的知識發現。[3]
三、古籍數字化現存的主要問題
1.技術問題
目前古籍文本輸入的主要方法有兩個:鍵盤輸入,但手工作業,效率低成本高;而OCR雖然是一種較為先進的自動化信息資源輸入技術,但也存在一些諸如圖像質量不高,掃描速度低,識別率低等技術性問題。此外,現有的漢字識別系統多數針對簡體,識別豎排繁體古籍的效果非常不理想。相對古籍中眾多的繁體字、異體字、通假字、避諱字而言,計算機的文字編碼不敷應用,缺字一直是古籍電子化的瓶頸。
2.人才問題
因為古籍原本都是豎排繁體字,包含大量的異體字、通假字等,沒有標點符號,必須先進行整理,而古籍整理工作只能依賴于專業人員,所以古籍數字化需要一批既懂得古籍整理又精通計算機技術的人才。現狀卻是急需培養古籍資源數字化專門人才。
3.統籌問題
我國古籍數量龐大,往往分散各地,而國內的古籍數字化工作缺乏一個全國性的權威機構的統一指導和協調。
4.標準問題
我國急需建立規范、統一的數據庫形式。沒有規范的機讀目錄格式,數據庫就無法進行交換,無法真正實現國家乃至世界范圍內的資源共享,給讀者的使用和研究帶來極大不便。
5.經費問題
現在我國公共圖書館擁有古籍文獻資料最多,但因缺少經費,無法購置必需的設備和軟件,并且缺乏相關的古籍與計算機人才,無法正常開展古籍數字化工作。
四、古籍數字資源在史學領域的應用
目前,盡管許多的史學研究者對應用計算機的認識,已經有了很大的提高,但是我們應該更加努力地提高利用計算機綜合分析處理文字信息的水平,豐富研究手段,積極主動地參與信息化與史學關系的方法和理論研究,深入挖掘蘊含在浩瀚古典文獻中的知識寶藏。此外,歷史研究是一項系統而全面的學術活動,我們在運用古籍數字資料時,要擺正系統讀書和按需搜集資料之間的關系,應當對古代文獻中最基本的史料有比較正確、全面的理解,在此基礎上搜集資料、發現問題和研究問題。掌握和運用的電腦網絡知識,充分利用信息技術和古籍全文檢索料為我們帶來的方便快捷,可以把大量的時間和精力投入到文獻資料的考訂、分析和歷史問題的思考上,提高我們的研究質量和效率。總之,加快古典文獻數字化進程,對于史學研究有著極其重要的意義。
參考文獻:
[1]龔婭君,劉春金.中文古籍數字化建設[J].浙江大學學報:人文社科版,2006,(4):176.
關鍵詞:古籍保護;數據庫建設;統一標準
中圖分類號:G253.6 文獻標識碼:A
古籍是指以文字符號(含圖形)方式記錄的古代典籍。其載體則以紙本印刷書籍為主,也還包括了像碑刻,青銅銘文,簡牘帛書等以文字為記錄符號的古代文獻。
從某種概念上說,古籍屬于文物,但又不同于其他種類的文物。人們對古籍的利用,也就是對其的研讀,是要通過翻閱的,但由此產生的二次傷害又給古籍保護帶來新的難題。我們不能因噎廢食,不能為了保護古籍,而將其“冷藏”不提供使用,又不能為了利用古籍,而無節制使用。面對這個兩難的命題,數字化,無疑是個很好的折衷點。
1 古籍數字化相關的保護背景
古籍的重要歷史文化價值,已經被全社會認可,并由政府不斷出臺相關的配套政策,提供古籍搶救性保護和數字化開發的政策支持。2007 年國務院辦公廳《關于進一步加強古籍保護工作的意見》( [2007]6 號) ,其中第五條提出了古籍數字化的具體要求,更將古籍數字化推向了。
2011年文化部、財政部發出實施全國范圍的“數字圖書館推廣工程”中,古籍的數字化作為其建設的重中之重,并成為其推廣的對象。截止到目前為止,古籍數字化工程已完成的重大項目包括了建成“中國基本古籍庫”。
2 進一步解讀古籍數字化
2.1古籍數字化的技術簡介
所謂古籍全文數字化就是在保持古籍原貌的前提下,通過多媒體的圖文掃描技術,提取古籍的內容,生成JPEG、TIFF等格式存儲的圖片,該圖片文件可以直接作為源數據存儲成古籍檔案,也可以通過進一步的文字識別,如采用OCR技術,生成以WORD、TXT、HTML等格式文字文件,在此過程中涉及到的最基本的就是數字影像技術。這也是古籍數據庫的建立的前提。我們通過現今的數據庫對象處理技術,是能夠給讀者提供了方便快捷的界面,來進行古籍的全文搜索,全文閱讀,甚至可以圖文并茂,呈現出高真度的閱讀體驗。
2.2 古籍數字化的意義
2.2.1 從保護性開發的角度,可以避免原件丟失與損壞的風險
能保留至今的古籍大部分已是孤本,文獻紙質已經脆化、圖片發黃褪色,把其進行數字化轉換,一方面可以通過減少與原件直接的使用接觸,從而達到最大限度保護文獻的目的。筆者通過與縣市區圖書館的文獻互助加工的工作,了解到,例如肇慶地區的高要館,正是通過將孤本古籍進行高清度圖像攝影,首先把紙質文獻轉化為可辨識的圖像,實現了數字化的基礎工作;與此同時,把原件通過恒溫恒濕的冷凍技術,通過物理技術的轉換,最大限度優化了文獻的儲存環境。
2.2.2 古籍數字化資源的直接便捷檢索,利于優秀傳統文化的傳播
古籍文獻作為一個文本化的物質文化遺產,對于現代中國社會建立一個完整系統的傳統文化學習研究的體系,起到根本性的支撐作用。正是基于現代社會對數字資源的高比重需求,現代圖書館的古籍資源數字化應運而生,以便捷的全文檢索為核心的古籍數字化建設,建設目的是使得有研究需求的讀者人群,能最快速最直接的得到準確的“第一手”研究資料。
2.3 古籍數字化關鍵點
古籍數字化涉及到如下幾個關鍵點:元數據,文獻圖像,全文文本等。
在數據庫技術的層面上的元數據,是整個數字化物理層的基礎,它以數據條的形式記錄了古籍對應的特征和屬性等
古籍原文圖像,就是將古籍以圖像形式掃描,全文錄入計算機,它一定程度上規避了文本搜索的過程存在一些技術上的“失真”的情況。
全文文本就是把掃描后的圖像識別轉換成數字文本,它的優點在于方便檢索,編輯,存儲空間小。缺點是對于生僻字,繁簡字,通假字,識別后的錯訛率高,不方便錄入。
3 國內古籍數字化現狀調查與問題分析
3.1 技術實現層面上
由于考慮到研究相關技術和相關設備投入的成本過高的問題,僅僅依靠政府的投入還是無法有效推動古籍數字化的發展,因此迫切需要一些有技術實力的企業參與到該項工作中來。
由于有相關的法律法規關于版權的規定,很多擁有古籍孤本或者需要做古籍研究的學術機構,包括了上至國家圖書館,各大學圖書館,以及相關學術研究機構大部分采用與數據庫出版商合作或購買的方式,主要通過租用或購買數據庫產品的途徑,擁有數字化古籍的使用權限。同時還可以用相對少的經費,輕松解決內容更新等等冗繁的問題。
成功的案例里就有《廣東省歷代方志》,廣東省歷代方志具體項目內容是,先通過圖書館方面內部的協調,通過總分館之間的協調,省級館與市級館之間的協調,市級館到縣級館之間的協調,全面的協調機制開始運作以后,實現了紙質珍貴孤本方志,在省級圖書館廣東省立中山圖書館的總調度和統籌下,完成了紙質文獻的基礎收集工作,接著,就是通過圖書館方,和數字化加工商之間的協商,完成了文獻每一頁的圖像高清度攝影工作,也就是文獻原本圖像化。
在這個過程中,圖書館方與數字加工商很好的協調了版權方面的問題,就圖像化的原本,再加工出版成為精裝版的版權歸屬問題已經達成了很好的共識。精裝版的《廣東歷代方志》從明清到民國,形成一個連貫的歷史發展脈絡,精美的裝潢,高辨識度的文字閱讀效果,使得有研究需要的讀者群體得到了最終的閱讀需求和權益的滿足。同時《廣東歷代方志》的數字化平臺,版權的歸屬也是屬于館方的,這也體現了對原始資源的占有方的尊重。數字化的《廣東歷代方志》通過網絡,可是在圖書館以外的外網直接訪問,與精裝版的《廣東省歷代方志》的閱讀效果等同,這也排除了很多離圖書館相距較遠的讀者直接“登門”的麻煩。
3.2 技術成果背后的隱憂
3.2.1 項目形式單一,圖書館與數字開發商缺乏深層互動
業界成功的數字化古籍的案例無一不是,技術開發商和圖書館方的“無縫”對接的成果。這是一個合作而非彼此“博弈”的一個過程,作為主導方的圖書館,因其本身占有原始資源的優勢,往往輕視了與數字開發商平等交流的一個合作基準。
基于以上種種因素,造成了最后資源的使用者――古籍研究的讀者群的閱讀質量和權益得不到保障。
比如廣東省立中山圖書館的古籍的數字化閱覽功能。只對持有本館讀者證的讀者,在本館范圍內使用。
從一個側面看,用戶的需求還是和現在的項目開發還存有一定的差距。
3.2.2 直接經濟利益驅動不足,市場不成熟,經濟效益不明顯
我國古籍數字化產業的特點是:在數字化開發商的前期投入研發的成本巨大,而研發資金的投入主要來自國家、和擁有古籍文獻的圖書館,國內的數字化開發商由于行業形成時間比較滯后,商業的推廣和營銷策略跟不上市場的發展,出現了盲目的搜索用戶群,往往收效欠佳,不但浪費了時間也消耗了寶貴的研發成本。
古籍數字化的研究開發、商業化應用都需要大量資金投入,而資金回收期相對較長,在很大程度上限制了我國古籍數字化的發展。
3.2.3 對從事古籍數字化的復合型人才的缺乏
在古籍數字化的過程,一項基礎的關鍵工作是錄入文本前對古籍的整理,在全國范圍內,從事這方面工作的人才非常少,因其需具備的不單是古籍整理知識,更需要熟練的計算機技術。
3.2.4 涉及版權的問題
古籍數字化要解決的另一個重要問題是版權。所有的文化產品都涉及到版權,而對于古籍資源,版權歸屬的界定尤其困難。
比如最簡單的標點整理,就牽涉到版權問題。某A方整理的版本,與某B方整理的版本,由于都基于同一文本但僅僅因為標點的差異,兩者就存在版權的爭議,到底是誰盜用了誰,我國版權法執行了多年,積累了不少經驗,但對于這樣的案例的責任追究難度還是比較罕見的高。
另外,原本文獻由于盜竊的難度,責任易于認定。一旦實現了數字化,由于數字化古籍處理系統安全管理存在這樣那樣的漏洞,很容易數據庫被惡意攻擊訪問,從而盜竊了相關的數字資源,用于非法的復制和使用。這樣的版權的認定就增加了難度。
4 探求古籍數字化發展對策
4.1 行業內急需標準化的制定和有力度的執行
古籍數字化標準是古籍數字化建設長遠持久的根本保障。在多年的數字化實踐中,陸續研制并應用《古籍著錄規則》、《古籍專門元數據著錄規則》、《漢語文機讀目錄格式使用手冊》等等相關標準,可參照執行。目前大部分古籍數字化標準規范已經研發完成,可直接參照執行。國家古籍保護中心組織編制了《古籍數字化工作手冊》,對即將開展的珍貴古籍數字化工作進行規范。古籍數字化標準規范體系建設要以實現古籍資源的共建共享為基本目的,優先采用已經成熟的國際標準和通用規范,認真貫徹國家標準和行業標準。建立全國統一標準,包括元數據著錄標準、數字化影像標準、資源格式標準、資源標引標準、數字化古籍長期保存和標準等。
4.2 古籍資源共建共享的統一平臺開發方案的相關設計。
古籍數字化的目標是通過統籌規劃,共同建設,使所有古籍數字化成果能夠在統一平臺上便捷的檢索和利用,真正實現古籍資源的共建共享。
古籍數字化是通過圖書館方與數字化開發商在項目開發協議的指引下,共同開發,達到使數字化成果在一個統一的平臺上方便快捷的檢索的最終于目的。
而針對現今古籍處理業界各自為陣,缺乏交流的現狀,在技術層面的理解是,根源在于缺少公用的計算機支撐環境,因此以上提到的古籍數字化統一平臺的開發,就尤顯必要。
該平臺應針對不同對象,進行操作界面的切換。主要是數字化建設方,和數字化使用者之間的切換。
而對于建設者,應該具有以下具體功能:
(1)掃描錄入
通過掃描將古籍以圖片形式錄入系統,可以隨時編輯更改、放大縮小、旋轉、精密打印等操作;能夠對掃描圖像進行數據庫管理;能提供強大的OCR漢字識別軟件,以便將古籍圖像轉化成文本。
應當由一個適用于古籍整理的漢字庫,具有古籍中常見字、異體字及某些特殊用字,應有補字軟件。
(3)全文檢索功能
能夠將普通文本文件植入檢索系統中,實現主題詞檢索和全方位檢索,并根據檢索要求自動匯集成段資料。
(4)能夠和互聯網直接聯通,滿足網絡交流的需要。
而對于古籍資源的使用者,也劃分為兩種:
一種是大眾讀者,由于古籍數字化成果的服務利用的公益性質,可以免費向大眾讀者開放的功能包括:用戶檢索,普通閱覽等。一般的這類讀者可以通過圖書館官網的統一平臺,憑借自己的讀者證,通過單點登錄,實現無障礙閱讀。
另一種是從事古籍研究工作的用戶,在兼備以上大眾讀者的使用權限的前提下,還可以提供圖像數據的下載功能。這也有賴于文獻平臺的技術基礎,比如首先檢索的技術要實現圖文數據庫的技術。
但由于涉及到版權的問題,在使用下載功能之前,必須獲得授權許可、簽署保證書。
結語
數字化古籍是現今數字化時代古籍保護上的必然選擇,在有關政府,研究機構,和數據庫商三方的共同努力下,建設初現規模,但距離真正實現古籍資源的共建共享的目標,還有待各界同仁的共同努力探索,完善數字化工作的制度執行體系,建設體系,共享體系和服務體系,為古籍文化傳播和古籍文物保護貢獻自己的力量。
參考文獻
[1]楊琳.大陸古籍數字化的現狀及存在的問題[D].第一屆中國古籍數字化國際學術研討會論文集.
關鍵詞:素質;古籍數字化;數字化進程;發展方向
我們所說的古籍數字化,也就是利用計算機技術,對古籍文獻進行加工、處理,制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻中所蘊涵的極其豐富的信息資源,為古籍的深度開發打下良好的基礎。目前高校古籍工作者在網絡時代應該加強自己的素質修養,提高古籍工作人員的素質。以便更好地順應古籍數字化工作的要求,重點要從以下幾方面人手:
一、認識和了解古籍
古籍沒有明顯、固定的著錄依據。普通圖書翻開版權頁,幾乎所有的著錄款項皆一目了然,而古籍往往在書名前冠上說明性文字,而且有的是用不同的書法題寫書名,并在著者前加上籍貫、職官、爵位、字號等,版本式樣更是風格各異,木刻、石印、抄稿本一應俱全。它涉及經史子集、天文地理、星象術數等。作為一名古籍工作人員,要想出色地做好本職工作,一方面應具有廣博的知識;另一方面更要具有文字學、音韻學、版本學、目錄學、考據學等方面的專業知識。要具備較強的古籍整理功底和較高的綜合素質能力,要清楚中國古籍分類源流的遞變脈絡,了解中國古代文化的發展走向。
二、掌握古漢語知識
圖書館的古籍編目,主要是對古籍進行著錄、確定版本、分類等,而這些工作往往與理解分析古籍的內容是分不開的。要想對一本古籍書有一個完整的了解,就必須能看懂古籍的序跋以及它的大致內容,如果沒有一定的古漢語知識,是很難勝任這項工作的,因此掌握古漢語知識也是古籍工作人員的一項基本素質。
三、掌握古籍編目知識
一般來說,古籍編目工作可分為兩個步驟:第一步是著錄圖書,就是按照一定的標準記錄一部古籍:第二步是將著錄好的卡片組織起來,使它按一定的規定組織形成為一套有邏輯性的體系,經過工作人員認真、細致的工作,在經、史、子、集、叢之下就出現了一個井然有序的系統,讀者查閱起來非常方便。
四、熟悉古蔣分類
我國古籍分類雖然目前還沒有一個統一的標準,但分類體系和主導思想都是基本相同的,大體分為經、史、子、集、叢五個部分。經部是指四書、五經等儒家經典和文字、音韻等方面的著作;史部是指各種體裁的歷史著作;子部是指諸子百家的著作。集部是指各種體裁的文學著作;叢部是指匯集一人或多人的多種著作,用一個總名概括起來刻印出版的書。在熟悉了古籍分類的范圍后,對于一些還不能定下分類的書要多查看各種工具書,看哪一種分類更為合理,千萬不可妄下定論,這樣會給管理工作和讀者的利用帶來不良的后果。
五、有良好的職業道德
作為一名古籍工作人員,對待讀者要像對待朋友那樣,同他們真誠交流,互通信息,盡量為他們提供有用的文獻資源,注意留心讀者查找的系列資料,以便日后再有讀者查找該系列資料時提供快捷服務。要經常翻看藏書,熟悉了解藏書內容,這樣就可以幫助讀者分析、查找文獻,達到古籍文獻得以充分使利用的目的。
六、古藉數字化發展的展望
在古籍數字化的過程中,以下幾項技術和目標將會逐步采用和實現。
一要做好古籍標準的研究和制定工作
要想建立一個完整的中國古籍數據庫,使用戶一上機就能縱覽古籍全貌,用其所需,就要重視統一標準的研究和制定工作,因為資源庫建設是依靠各單位的合作,因此必須統一標準,以保證數據庫的質量和查詢服務效果。
二要實現古籍數字化的標準化和規范化
可由中國圖書館學會古籍整理專業委員會牽頭,以國家圖書館、上海圖書館、南京圖書館為龍頭,在深入研究的基礎上,確立古籍數字化的統一著錄格式和標引方法。
三要培養新型的古籍研究員
【關鍵詞】 中醫古籍;書目數據庫;古籍標注
以往中醫古籍整理研究采用的傳統方式受到技術條件的制約,雖然在中醫古籍的保存方面取得了很大成就,但是在利用方面效果并不顯著。雖然目前國內對古籍數字化的研究開展了很多項目,而且諸多企業也在積極參與,但由于商業運作模式的不同,各個軟件之間很難兼容,而且我們對軟件只有使用權,沒有修改權,這在很大程度上制約了古籍數字化、智能化的發展。目前,我們采用具有自主知識產權的古籍標注軟件以及相應的器,古籍標注軟件(古籍編輯器)的作用是通過在原始圖像上增加一些置標信息,以便加工后的圖像可以被有效地檢索。它可以輸出中醫古籍電子書,電子書包含如下信息:置標信息,可用于全文檢索和瀏覽;原掃描圖像,可和文本信息對照使用;包括書目的元數據信息,如分類、成書年(出版年代)、作者、版本、館藏地、內容提要、書籍特征、保管措施、復制狀況等。通過使用古籍編輯器和器,不僅實現了中國中醫科學院圖書館部分館藏古籍的數字化,而且賦予了這些古籍智能化的特點。因此,通過標注,徹底改變了這些古籍的傳播和使用方式,展現出了大量隱含的有用信息。由于我們對軟件具有修改權,為古籍有效信息的深度發掘開拓了巨大的空間,并且為今后古籍數字化、智能化積累了一些可以借鑒的經驗。
古籍標注分為語義標注和引導標注,目前我們的工作是引導標注。主要工作是抽取已經圖片化古籍中隱含的有效信息,將其文本化,便于檢索,有別于全文文本化。從某種意義上來講,實際上是對古籍目錄的擴充。通過對古代醫籍的標注,發現了其中一些問題,并且試圖找到解決問題的方法。
1 研究意義
中醫藥古代文獻記錄了中醫學數千年來積累的豐富理論知識和臨床經驗,不僅具有珍貴的史學價值,而且具有重要的學術研究和開發利用的實用價值,因此,中醫古籍在中醫學的發展過程中占有極其重要的地位。中醫古籍不僅在古代是中醫學理論發展和實踐探索的源泉和動力,而且對現代中醫學的發展和實踐也具有啟發和指導作用。例如,獲得國家科技成果獎的中藥“青蒿素”的研制開發,就是受到中醫古籍有關“青蒿截瘧”記載的啟迪。因此,加強對中醫古籍內容的深入研究,將會促進中醫現代化進程的發展。考慮臨床醫生、科研人員、醫學生等在閱讀古籍時確實有很多實際困難,受到時間、空間等多種因素的限制,制約了對古代醫籍內容的深度開發,即使有了古籍的電子版本,解決了時間與空間的一般困難,但是要在浩如煙海的眾多古籍中找到所需要的信息,仍然是很大的工作量,那么能夠檢索文本和圖片的古籍閱讀器將使這個難題迎刃而解,所以針對古籍內容有效信息的抽取將直接影響專業人員對古籍的應用,信息點的取舍直接影響檢索結果,所以古籍標注標準解決得當與否決定著古籍閱覽器的應用程度,長遠來看,影響著專業人員對古籍的深度發掘,進而影響中醫事業的健康發展。
2 遇到的問題
古籍標注質量的優劣直接影響專業讀者的檢索,進而影響對古籍價值的深度發掘與利用,所以探索適合中醫古籍的標注標準是十分必要的。首先考慮的問題是古籍標注的深度,以“臨證各科”類古籍為例,僅僅按照目錄來進行有用信息的提取是遠遠不能滿足專業檢索需求的,因為許多有意義的信息點并未包含在目錄中,這類書的目錄僅編寫到“疾病門”,而其中疾病的具體分類、癥狀、方劑、自擬方的加減、服藥宜忌等內容同樣是重要的信息點,對這些內容的取舍直接關系到標注細節問題。其次,如何規范字形也是問題之一。古籍標注的基本原則是尊重原文,但是如何處理繁體字,還有諸如通借、古今、異體等文字,對這項工作就要有一個適當的尺度。還有就是針對一些大型著作,如何處理各類“序”、“敘”、“跋”,也是需要慎重處理的問題。
3 標注方法探討
古籍標注基本分為兩大部分,一部分是古籍的自然狀況,比如分類、成書年(出版年代)、作者、版本、館藏地、內容提要、書籍特征、保管措施、復制狀況等,這一部分需要專人進行標注。本文針對的主要是古籍內容的標注。
3.1 預覽概況
在正式標注之前,應用讀圖軟件對古籍進行瀏覽,確定書的分冊情況,章節信息,有的書目還要留意其具體內容的分類,比如內科雜癥類的書籍,除了內科以外,還分別列出婦科、兒科等等;“分科”之下又分“門”、“門”下列“類”,“類”中還根據辨證的差別而繼續分列出“陰”、“陽”、“表”、“里”等證。為了利于劃分書的清晰層次結構,要根據內容建立不同級別的文件夾,這種結構暫時命名為樹狀結構。根據數字序列命名,比如一級文件夾為01,二級文件夾則為001,三級文件夾為0001,以此類推,進入編輯界面后可以根據文件夾內容重新命名,但前提是這些分類不能互相跨越。舉個例子,如果卷一中的“中風門”跨越到了卷二,那么將不再建下一級文件夾,文件夾僅涉及至“卷”這一級別。建好文件夾后通過“添加”直接進入編輯界面,但文件夾不能以“卷一”、“卷二”這種形式命名,轉入編輯器后出現自動排序,需要人工調整,費時費力。預覽的主要目的是通過瀏覽文獻的全貌,建立清晰的目錄結構,既利于掌握該書的基本結構,又加快了標注速度。需要指出的是,就目前情況而言,新建的樹狀結構最多不超過3級。
3.2 遵照原文
即標注的內容要符合古書的原貌,比如《孫豐年先生幼科三卷》,第一卷中有這樣一頁內容,“幼兒雜癥說要 治幼首重望聞二診”,標注時,這段話看作是兩個特征,分別標注為“幼兒雜癥說要”、“治幼首重望聞二診”,雖然這兩個特征不符合現代語義特征,但是保留了古籍的原貌;從檢索角度講,可以通過不同的檢索式來控制檢出數量,通過圖片來補充、對照相關的內容。
3.3 優先標注的原則
在古籍標注中我們制定了標注中的優先原則。根據書名和目錄,凡是目錄中存在的,必須優先標注出來;凡是單獨以標題形式出現的信息,必須優先標注出來。但是,特征提取如果僅僅局限于這些方面,將會遺漏很多有意義的信息,所以,雖然不以標題形式出現的、具有概括意義的詞語也納入優先標注的范疇。比如《丹溪先生醫說》其中的“中風門”,“中風有汗”不是以標題形式出現,但書中還有“中風無汗”,并且有相應的方藥,那么,“中風有汗”、“中風無汗”都要作為特征標示出來。優先標注的原則主要還是取決于書目的題目和分類,比如本草類的古籍,除了建立清晰的樹狀結構之外,主要標示出藥品名稱,如果該書具備功效分類,那么也要相應標出。至于醫案類、雜類的標示,除了依據目錄外,在選取信息特征時,要參考以下幾個特性:獨立性,唯一性,完整性,單一性。比如《農經酌雅》,屬于本草類的雜著,其內容和作用近似于工具書,書中匯集了29種本草類書籍所記載的本草別名,沒有記載功效,這種情況下只能標注本草的正名,其他一律不予標注。
就《全國中醫圖書聯合目錄》來講,“醫經”和“基礎理論”屬于一類,基本按照目錄標注,由于這類書的主要內容都是集中論述。“診法”與“針灸推拿”列為一類,除目錄以外,還要將書內所涉及的疾病名等列出。“本草”自成一類,主要以建立樹狀結構為主,標注出書中所列的每一味藥;如果有功效分類,也要標示;但功效分類中再次出現的中藥不必標示;“傷寒金匱”與“方書”視為一類,除建立樹狀結構和一般標注外,增加的內容比較多,“門”、“類”以及有實義方名的方劑必須標示,同方異治、同病異方也要標注,避免漏檢,但是疾病的癥狀、方劑的加減、無名自擬方不必做出標示。“養生”、“醫案醫話醫論”、“醫史”和綜合性著作同屬一類,由于體例、內容等比較繁雜,尚無規律可循。
古籍標注目前還不是全文文本化,不可能將所有信息標示出來,依據文獻自身的特點、分類而有所取舍。所以,目前針對提取古籍信息這項工作,必須具體問題具體分析。
3.4 正字規范
古籍標注雖然不同于校斟學,但在實際操作中還是會遇到很多棘手的問題。在抽取有效信息點時,常常會遇到各種繁體字、區別字、異體字等古籍有的漢字現象,這一部分在概念的定義上一直是激烈爭論的焦點,但如果從檢索角度來講,可以歸避部分錯誤的出現。在提取特征信息時,盡可能使用簡體字,這一點是從檢索角度出發的,因為就軟件本身而言,暫時不能解決繁體字和簡體字互相轉化的問題,所以考慮到普遍性的原則,盡可能以簡體字標示,比如“鬱金”,應該標注為“郁金”,比如“芎藭”,應該標示成“川芎”,又比如“藏府”,標注為“臟腑”,“四支”標注為“四肢”,“藥齊”標注為“藥劑”,“文理”標注為“紋理”,“金絲艸”標注為“金絲草”。采取這種方法進行標注,還是有一些漢字無法處理,如果遇到因年代問題而丟失的文字,可以用簡體版來補充;利用“逍遙筆”、“金山詞霸”等軟件查找生僻字,再經過正式出版的字典加以對照。上述方法都不能辨認的字,則需要專家進行校斟。所以在實際操作當中,標注者都必須建立“工作日志”,以便記錄無法解決的難題,匯總后統一處理。
3.5 其它
針對大型著作中出現比較多的“序”、“敘”、“跋”,如果作者不同,直接標示,如“黃序”、“李序”;如果有時間標志,則按照“先序”、“后序”標注;如果沒有任何標志,可以標注為“序一”、“序二”,其余依此類推。
4 結語
【關鍵詞】 中醫藥信息 古籍數字化 中醫古籍
古籍數字化是當前中醫古籍文獻整理工作的熱點。中醫古籍傳承了數千年中華醫藥文化,是寶貴的歷史遺產。對中醫古籍文獻進行數字化處理,不僅可以再生性保護這些珍貴的中醫古籍,而且為更加便捷地開發和利用古籍資源開辟了新的途徑。
通過對目前國內外古籍數字化尤其是國內中醫古籍數字化的研究與發展現狀的深入研究,結合中國中醫科學院中醫藥信息研究所近幾年來在中醫藥珍籍秘典的整理搶救、保護及相關研究方面所取得的經驗,本研究提出了一種新的中醫古籍電子化系統的解決方案。旨在介紹一種實現無缺/錯字、圖文對照、通用性好、檢索快捷方便、輸入/輸出靈活、讀者互動交流、輔助研究性強的中醫古籍電子化系統。該系統具有電子化編輯、壓縮、上傳、存儲、圖書分組管理、讀者分組管理、讀者-圖書授權借閱、網絡在線閱讀、原文圖像瀏覽、圖書需求信息分析、計費電子借閱、古籍學術論壇、短信互動平臺、準確快速檢索等功能。其科學、便捷、安全、高效的古籍資源管理,將進一步實現古籍閱覽由傳統方式向電子/網絡方式的重大轉變。
1 系統主要功能結構
1.1 中醫古籍編輯平臺
中醫古籍編輯平臺提供對數字中醫古籍的編輯處理功能。我們開發了《古籍編輯器》軟件,用來對古籍圖片元數據進行標注和壓縮,輸出電子書。
中醫古籍電子書籍一般包含的信息有:①置標信息,古籍中的主要知識點,如病、證、方、藥等;用于全文檢索和瀏覽古籍圖片;②原掃描圖像,保待原圖原貌,用于與文本信息對照使用;③書目的元數據信息,如分類、書名、成書年(出版年代)、作者、版本、館藏地、內容提要、書籍特征、保管措施、復制狀況等;④書的章節信息,用于劃分清晰的書籍層次結構。
其特點主要體現在以下方面: ①古籍的卷、章、節可以靈活分級管理;②支持對圖片的標記和編輯,不會改變原始圖片,可以搜索圖片信息和圖片的標記數據;③支持縮略圖方式瀏覽章節中的圖片,支持鼠標放大/縮小圖片和旋轉查看,圖片能自動播放和根據顯示器分辨率調整大小;④依據中醫古籍總目的分類標準歸類書籍。
1.2 電子古籍系統
電子古籍系統用于將中醫古籍編輯平臺輸出的電子
古籍上傳、解壓、導入并存貯到閱覽系統中。系統會根據古籍分類信息自動歸入正確的分類位置并建立索引,以樹狀形式展示,且在樹的每個層次上顯示該層次結構下的總條目數,與原有書庫無縫集成。
1.3 電子古籍閱覽系統
電子古籍閱覽系統實現了用戶在線進行圖文閱覽,并可以記錄用戶在線閱覽古籍的種類和時間信息,從而分析讀者對各古籍的借閱和需求信息。同時,電子古籍閱覽系統具有網上計費借閱功能,以便于珍貴古籍的保護和有效利用。計費借閱方案靈活,主要有按時計費(按實際借閱時間、包月/年等)、按書籍計費、按會員級別計費、按流量計費和綜合計費。
1.4 古籍信息搜索平臺
搜索平臺具有簡單查詢、組合查詢和全文搜索功能。對于中醫古籍涉及眾多生僻字的問題,平臺建立了中醫古籍的繁簡字體對照表,增加繁簡字體關聯互檢功能,提高搜索準確率,同時提供基于內容的高效檢索和對知識的準確挖掘功能。
1.5 學術論壇即時通訊
古籍學術論壇和即時通訊平臺提供讀者與讀者之間、讀者與中醫古籍管理員之間進行互動古籍學術交流和即時通訊功能。
1.6 輔助軟件操作平臺
輔助軟件操作平臺提供了字數詞頻統計、歷史年表、古今紀年換算、干支/公元紀年換算、六十四卦表等輔助功能,為古籍研究者對古籍數據進行多角度的分析研究提供方便,從而提高系統的實用性和友好性。
2 系統采用的主要技術
考慮到基于Java的Web應用技術的實用性、靈活性和穩定性,同時結合基于J2EE的Struts和實現數據持久化的Hibernate框架的MVC設計模式所具有的優良特點,本文采用了該架構來構建高內聚、弱耦合、可維護和可擴展的中醫古籍電子化系統。數據庫采用Oracle 9i,數據搜索采用Oracle Text技術。下面對其中一些關鍵技術予以介紹。
2.1 MVC設計模式
MVC(Model-View-Controller,模型-視圖-控制器)是一種著名的用戶界面軟件開發設計模式,最早由Xerox在20世紀80年代為Smaltalk-80語言發展提出,后來被廣泛應用于其它面向對象的編程語言中。MVC設計模式把應用程序分成了3個核心部分,將應用程序進行了分層,視圖和模型通過控制器連接,從而減少了用戶界面和業務邏輯之間的耦合,使程序設計更加清晰、靈活,也提高了軟件的可擴展性、可維護性,克服傳統Web系統的不足之處[2]。
2.2 Struts框架
Struts框架是Apache的一個開源項目,體現了MVC設計模式的特性,遵守了J2EE的Servlet、JSP等技術規范,同時根據J2EE的特點做了相應的變化和擴展,是J2EE體系架構的一種輕量級實現。作為一款優秀的Java Web應用程序的開發框架,Struts框架憑借其清晰性和靈活性,成為當前最為廣泛應用的輕量級Java Web開發框架[3]。
2.3 Hibernate框架
Hibernate框架是開放源代碼的對象關系映射工具(Object-Relational Mapping),是一款基于Java環境的優秀的對象持久化開發框架,根據O/R(對象/關系)映射技術思想,對JDBC進行了輕量級封裝,使開發人員可以使用一種面向對象的方式來操縱和管理關系數據庫,所以從技術本質上來說該框架是一種提供面向對象的數據庫服務中間件[4]。
2.4 Oracle Text搜索技術
Oracle Text是一種功能強大的搜索技術,內置于Oracle數據庫中,其提供的開發API使軟件設計人員能輕松實現功能齊備的內容搜索應用程序,可用于搜索結構化和非結構化文檔,是對SQL通配符匹配技術的補充。Oracle Text支持使用基本的布爾運算符(AND、OR、NOT、NEAR等)將多個搜索條目組合到一起,同時具有更高級的功能,如soundex和模糊搜索以及結果排序等。該技術支持數百種文件類型,包括Microsoft Office和PDF。
2.5 中醫古籍中生僻漢字處理
古籍生僻漢字問題是中醫古籍電子化工作的一大障礙。目前很多電子化古籍系統采用偏旁相加的方法來寫,看起來非常別扭,而且如果遇到無法用偏旁相加的方法來輸入的漢字,表達起來會更為麻煩。本系統通過對中醫古籍電子化中遇到的生僻漢字問題進行深入研究并對生僻漢字進行分析統計后,對其進行編碼、造字,建立繁簡字體對照表,增加繁簡字體關聯互檢功能,從而有效提高了搜索準確率。用戶可以通過輸入相近的簡化字或者生僻漢字的模糊發音,即可進行生僻漢字有關的查詢搜索。這種簡單易用的方法實現了古籍電子化中遇到的生僻漢字的存儲、檢索和顯示,較好地解決了古籍電子化中遇到的生僻漢字問題。
3 中醫古籍電子化系統的實現
從2002年開始,中國中醫科學院中醫藥信息研究所先后承擔了科技部公益項目《1 100種中醫珍籍秘典的搶救整理》、《中醫藥珍貴典籍的保護技術及相關問題研究》的工作,已初步建立起中醫古籍電子化系統。通過自主開發的《古籍編輯器》、《古籍系統》,已經完成了1 500種中醫古籍的書目元數據信息編輯工作,850余種的數字中醫古籍的編輯工作;建立起的中醫古籍閱覽管理系統,實現簡單檢索、組合檢索、全文檢索、模糊檢索、精確檢索,實現了用戶的分級管理,圖書分組管理、讀者分組管理、網絡在線閱讀、原文圖像瀏覽等功能。可檢索信息48多萬條。系統功能正在逐步的建設和完善。
在系統建設中我們也碰到很多問題,如據根項目支持的經費,我們尚不能對數字化的中醫古籍全文本化,那么如何實現閱讀的檢索呢·我們采取了對原書圖標注的方法,通過標注,基本能實現古籍中主要知識點的檢索。標注的度是達到檢索量的要點,標注度過細,會大量增加工作量,標注度過粗,又會遺漏主要認知點,為此我們制定了標注的基本原則。數字古籍的圖像,保待了原圖原貌,除海外回歸古籍是縮微膠片掃描完成外,原書掃描都是彩色儲存。這樣就大大地增加了儲存的量,使圖像的處理、圖像上傳及網上閱讀都出現了速度慢的問題,為提高檢索和閱讀的速度,我們對數據庫結構進行了多次優化和設備功能的提升,基本上解決了速度問題。速度問題隨著數據量的加大,可能還會出現。
4 小結
本研究結合中國中醫科學院中醫藥信息研究所多年來在中醫藥珍籍秘典的整理搶救、保護及相關研究方面所取得的經驗,提出了一種基于數據庫和Web網絡技術的中醫古籍電子化系統的解決方案,并就解決方案設計了技術路線和系統架構。該方案已在中國中醫科學院中醫古籍電子化研究項目中得到了良好的應用并取得了一定成效。
隨著技術的進步和人們對電子古籍閱讀需求的變化,中醫古籍電子化系統是在不斷發展,許多問題還需進一步研究。如:古籍中同藥異名、異藥同名,古籍中的病證和現代病名問題,這些目前已有相關的研究成果,如何利用這些成果建立起關聯詞表,將為中醫古籍的閱讀檢索提供更加便捷的支持。
電子古籍生僻漢字問題的研究。傳統的計算機二字節編碼技術只能處理2萬多個漢字,對古籍中大量的生僻字、俗體字、異體字、通假字、避諱字無能為力。龍語瀚堂典籍數據庫采用Unicode四字節編碼技術解決了古籍整理和研究中生僻漢字數字化的瓶頸,完善了漢字信息網絡化的平臺。
提供人性化的電子中醫古籍閱讀方式也是一個值探討的問題。新加坡電子書系統有限公司推出的E-Book Systems Pte.Ltd.解決方案,其用戶界面將傳統瀏覽的多媒體內容如數碼相片、文字、音樂乃至動畫等表現形式通過三維翻頁界面以虛擬翻書頁的方式呈現出來,將自然貼切的真實書本效果帶入電腦及網絡世界。如何將其技術應用到中醫古籍電子系統中,我們還需進一步的探討。
【參考文獻】
[1] 符永馳,孫海舒,李 斌,等.多媒體技術在中醫藥信息工作中的應用[J].中國中醫藥信息雜志,2006,13(12):103-104.
[2] Steve McConnell. Code Complete[M]. Washington:Microsoft,2006. 101.
摘要:信息化是中醫藥向高效、科學方向發展的必然選擇,通過闡述醫療信息化、資源數字化、學術交流虛擬化,明確信息化于中醫藥發展
>> 我國中醫藥信息化建設與發展的思考 高職院校信息化建設中存在的問題與對策 淺談漁業信息化建設中存在的問題與對策 高校檔案信息化建設中存在的問題與解決對策 糧食行業會計信息化建設中存在的問題與對策 企業信息化建設中存在的問題與對策 淺談監獄財務信息化建設中存在的問題與對策 林業信息化建設中存在的問題與對策 財務管理信息化建設中存在的問題與對策 中醫藥信息化建設重標準 用“標準”規范中醫藥信息化建設 中醫藥信息化建設向“標準”看齊 高等中醫藥教育信息化建設探析 人事檔案管理信息化建設中存在問題分析與對策 中醫藥信息化建設機遇與挑戰并存 軍隊審計信息化建設中存在的問題及對策 淺談消防部隊信息化建設中存在的問題及對策 企業會計信息化建設中存在的問題及對策 煤炭企業財務信息化建設中存在的問題及對策 市級國土資源信息化建設中存在的問題及對策分析 常見問題解答 當前所在位置:中國 > 政治 > 中醫藥信息化建設中存在的問題與對策 中醫藥信息化建設中存在的問題與對策 雜志之家、寫作服務和雜志訂閱支持對公帳戶付款!安全又可靠! document.write("作者: 沈杰 趙興官")
申明:本網站內容僅用于學術交流,如有侵犯您的權益,請及時告知我們,本站將立即刪除有關內容。 摘要:信息化是中醫藥向高效、科學方向發展的必然選擇,通過闡述醫療信息化、資源數字化、學術交流虛擬化,明確信息化于中醫藥發展的意義。為進一步完善中醫藥信息化,針對中醫藥信息化建設過程中存在的問題,提出了建設性措施,包括強化信息檢索功能、深入規范中醫藥信息標準、加強中醫藥信息學科建設等。關鍵詞:中醫藥;信息化;問題;對策doi: 10.3969/j.issn.2095-5707.2014.02.001Problems and Solutions in the Informatization Construction of Traditional Chinese MedicineShen Jie, Zhao Xingguan(Library of Zhejiang Chinese Medical University, Hangzhou Zhejiang 310053, China)Abstract: Informatization is the inevitable choice to facilitate traditional Chinese medicine to move in a direction of high efficiency and science. The article described medical treatment informatization, resource digitalization, virtualization of academic communication, with a purpose to clarify the significance of informatization to Chinese medicine. In order to tackle problems in the informatization construction of Chinese medicine, the article further proposed some solutions as follows: strengthen functions of information retrieval, perfect standards of Chinese medical information, and consolidate subject construction of Chinese medicine information sciences and so on.Key words: traditional Chinese medicine; informatization; problems; solutions 中醫藥是我國獨具特色和優勢的傳統醫學,積淀了數千年的理論知識和臨床經驗。我們需要繼承珍貴的傳統經驗,而發展更是首要任務。在信息技術高速發展的今天,中醫藥信息化建設是使中醫藥走向現代化的必然選擇。中醫藥信息化,能夠集中整合中醫藥信息資源,促進信息交流和知識共享,改善中醫藥服務質量,推進中醫藥事業跨越式發展的過程。1 信息化是中醫藥向高效、科學方向發展的必然選擇1.1 診療信息化――進一步提高醫療質量,滿足中醫藥服務需求中醫藥是我國獨具特色和優勢的傳統醫學。病歷中會記錄望、聞、問、切的四診、辨病辨證、中醫處方、中醫診斷等具有中醫特色的內容,以往這些病歷信息都是靠醫生書寫記錄,由于字跡的辨識、保存不便等障礙,造成了珍貴經驗流傳中斷。根據擴展標記語言(XML)技術,設計開發出的中醫電子病歷系統,不僅給醫生的診治提供了便利,還升級了病歷信息的基金項目:浙江省科技廳公益技術研究社會發展項目(2013C33045)第一作者:沈杰,館員,研究方向:圖書情報信息。E-mail: 統計保存。同時對中醫病歷進行了結構化的處理[1],如將24個節氣、各種舌色、舌苔、舌形、脈象等通過下拉列表形式加以提供,可以讓醫生快速完成病歷,而且電子存檔的診療數據可以實時檢索,使得典型病例的用藥方案等信息可以隨時被查詢借鑒,挖掘出更多的價值。還有的電子病歷系統設置了用藥錯誤提醒功能[2],能對中藥方劑配伍禁忌發出即時警示,從而避免醫生疏忽導致的失誤發生,進一步提高了中醫治療質量。另外,信息化助推下建立的中醫醫療服務平臺、在線醫生、專家遠程網絡會診等,方便了患者異地咨詢、就診,提升了中醫醫療服務水平。1.2 資源數字化――有效集中信息資源,保障資源利用充分中醫藥文獻信息最大的特點是擁有近萬種古籍,這些古籍是數千年的理論知識和臨床經驗的積淀,其中所蘊含的科學信息難以計量,因此,要做到資源的充分利用,就必須對海量信息進行挖掘與整合。中醫古籍數字化[3]是利用數字化技術,將中醫古籍進行掃描、文字識別與轉換或錄入,并經專門軟件使之結構化,制作出新的電子版中醫古籍。中醫古籍數字化有效集中了具有傳承性和連續性的中醫藥珍貴文獻資源,可以通過計算機進行檢索和閱讀,也可以在網絡上傳輸、共享,還解決了中醫古籍保存價值與使用功能之間的矛盾。中國中醫科學院中醫藥信息研究所自2002年開始,對館藏中醫典籍進行了數字化再生性保護和利用研究[4],目前已建成“中醫藥珍善本古籍多媒體數據庫”、“中醫藥古籍資源數據庫”等,實現了部分中醫古籍的數字化保護與利用。中醫藥數據共享平臺的建立,實現了各類相關中醫藥信息的有效整合。如國家中醫藥管理局網絡平臺上,已經建立了中醫基礎數據庫、中醫方劑應用數據庫、中醫藥養生、北京中醫藥數字博物館等的鏈接。1.3 學術交流虛擬化――打破地域限制,資源信息無障礙傳輸信息資源只有經過整合與交流,才能得到不斷的擴展、延伸。“中醫藥虛擬研究院”[5]的建立,利用網絡空間,形成跨行業、跨部門的研究組,實現了跨地域的數據庫整合與學術討論交流。“中醫藥虛擬研究院”人力集成虛擬化、信息網絡化、研發活動并行分布化、組織結構柔性化、產權模糊化的特征,解決了中醫藥信息化過程中資金分散、建庫無組織、研究與開發技術能力不足的狀態。在該虛擬研究院提供的共建平臺下,全國30余家中醫藥院校和研究院所的數百位中醫藥專業人員共同進行數據庫的整合與建設,完成了中醫藥藥理實驗數據庫、中醫個案數據庫、中藥化學實驗數據庫、針灸臨床病案數據庫等。同時還建立了網上專家研討廳系統,當專家或科研人員想就某一類科研問題進行討論時,該系統可按需求召集相關領域的專業人員,提供網上協作環境和溝通平臺。這種無地域障礙的學術交流實現了快速、便利與集中解決問題。同時,在“中醫藥虛擬研究院”中,集中培養了全國的中醫藥信息人員,通過利用虛擬研究院提供的計算機設備與網絡環境,掌握了最新技術,而通過共享平臺上的科研數據,又可提高自身的科研能力。2 中醫藥信息化建設中存在的問題2.1 中醫藥古籍數字化的障礙在中醫古籍數字化過程中,生僻漢字的處理是一大障礙[6]。由于對字體的認知障礙,只有具備扎實的中醫文獻學功底才能保證生僻漢字的準確錄入;另外,中醫古籍數據庫檢索功能單一,實現精確檢索成為困難。全文本的數字化古籍可以進行任意字符的檢索,但是數據準確度小,檢索噪音大,以任意的實義詞檢索,都會出現成百上千條信息,而其中大多數與用戶需求無關,用戶必須逐條瀏覽挑選才能得到所需信息,信息檢索專指度差。而中醫古籍中病、證、方、藥的同名異義、異名同義的普遍現象[4],又使內容的精確檢索更加困難。 2.2 中醫藥數據信息化過程中的標準問題近年來,各中醫藥醫療機構及研究院所組織建立了大量中醫臨床數據庫,很大程度地促進了醫療、臨床教育、科研工作的發展。然而在中醫臨床數據信息化過程中,卻缺乏統一標準,如中醫術語、方劑組成原則與變化規律、中醫診療方案等,沒有統一標準,就使得大量臨床數據間互不兼容,造成數據集成效果差、不規范,形成大量分散的信息孤島,中醫臨床數據資源的不合理開發和低水平重復建設對深入共享臨床數據[7]、深度挖掘其中的內在價值造成了很大的阻礙。2.3 中醫藥信息研究領域尚缺乏統一的學科體系和學科規范中醫藥信息數字化及現代化的發展,離不開中醫藥學科知識與信息學的支撐,而僅靠單一學科的知識體系也是不能實現中醫藥信息化過程的,必須將兩者緊密結合,相互滲透,這就需要一個交叉學科來支持中醫藥信息化建設。中醫藥信息學作為一門新興學科應運而生,但是理論研究較為薄弱,在基本理論內涵的確定及明晰方面還存在較大爭議,學科的基本框架結構也主要是基于各自的研究領域及應用需求來設計,缺乏對學科系統深入的概念內涵的研究、理論的梳理和提煉,以及理論體系結構的合理構建等[8],難以滿足指導實踐的需要。而中醫藥信息學的建立完善也體現出復合型中醫藥人才培養的迫切需要。3 完善中醫藥信息化的建設性措施3.1 強化信息檢索功能,建立輔助功能平臺將全文檢索配合條件檢索,對檢索范圍進行限定,限定范圍包括一定的字數、類別、段落、特定作者、特定作品等,從而幫助用戶快速準確獲取所需資料。另外,還可將關聯檢索功能嵌入到全文檢索的引擎中,實現簡繁異體字及同義詞的關聯、知識工具與內容主體關聯(如聯機字典等)、原文圖像與文本的關聯等,而圖文關聯既可以彌補圖像在檢索和內容編輯上的不足,又可校對文本的準確性,使讀者既能看到原書原貌的古籍文獻,又可以快速準確地查到所需要的內容。另外,將中醫古籍中的多內容分解成多個具有獨立意義的信息單元并加以多級標引,并采用XML標識語言定義鏈接點,包括多目標鏈接、擴展鏈接等。當用戶完成目標檢索后想進行深入檢索相關信息時,就可通過超文本鏈接方式匯聚發散性的相關資料,從而充分滿足個性化的信息需求。建立基于超鏈接技術的閱讀環境,實現中醫古籍各種傳本、校勘本和注釋本等相關內容之間的鏈接,能夠匯聚相關信息,使讀者可以對發散性的相關資料進行對比分析和綜合研究。還可以建立相關研究的輔助功能平臺,提供輔助工具,如在線字典、字頻統計、異體字的匯聚顯示,讀音的自動標注和朗讀等等[7]。3.2 深入規范中醫藥信息標準制定中醫藥信息化標準規范,包括總體性和分體系標準規范。首先根據總體方案,從框架性思路出發,制定所涉及的基本術語、主題詞表、標準體系、標準化指南等方面的標準。其次建立中醫臨床數據標準分體系,包括信息資源標準分體系、交換標準分體系、安全標準分體系及業務應用標準分體系。而信息資源標準分體系包括信息資源采集與共享,以實現不同格式、不同類型中醫臨床數據信息資源的加工、分類、標引、入庫管理等,是整個標準體系的核心內容[8]。3.3 加強中醫藥信息學科建設,提升專業人才信息學素養建立、完善中醫藥信息學理論體系框架,包括基礎理論和應用理論。基礎理論包括中醫藥信息學的定義、內涵及外延;中醫藥信息學的方法論;中醫藥信息、知識特點。應用理論包括中醫藥信息獲取、處理、存儲和轉換的技術和方法的基本原理等。框架構建過程中,首先應確定中醫藥信息學的基礎、技術和應用各領域應該涵蓋的研究內容;其次應明確定義中醫藥信息學特有的基本概念,深入詮釋其內涵和外延,對其基本原理等也應細致的闡釋。還應綜述最新的中醫藥信息學研究成果,指導實踐應用。最后,明確各部分理論的邏輯關系,深化理論體系內在結構的認識和表述,形成明晰的理論體系框架結構[9]。而對于中醫藥專業人才,也應對其開展繼續教育,大力提升中醫藥信息學素養,培養一批具備中醫藥學、信息學知識的復合型人才,不斷鞏固和擴大中醫藥信息化高素質專業隊伍[10]。參考文獻[1]張湘菊,魏丹蕾.具有中醫特色的整體化電子病歷系統構建[J].醫學信息學雜志,2011,32(4):22-24.[2]孟凡紅,萬芳.我國中醫藥信息化建設與發展[J].中國中醫藥信息雜志,2010,17(11):3-6.[3]符永馳,李斌,郭敏華,等.中醫古籍電子化系統的研究與實現[J].中國中醫藥信息雜志,2008,15(2):103-104.[4]李兵,符永馳,張偉娜.白芍治療類風濕性關節炎配伍應用古代文獻分析[J].遼寧中醫藥大學學報,2014,16(1):132-133.[5]尹愛寧,崔蒙,范為宇,等.中醫藥虛擬研究院[J].國際中醫中藥雜志,2006,28(3):141-143.[6]吳桂英.中醫古籍文獻數字化建設的實踐與思考[J].醫學信息學雜志,2010,31(4):54-56.[7]裴麗.中醫古籍信息利用障礙與數字化信息平臺構建[D].黑龍江:黑龍江中醫藥大學,2006.[8]趙麗娜,周吉順.中醫臨床數據信息化過程中的標準化問題[J].世界科學技術-中醫藥現代化,2011,13(4): 719-722.[9]張華敏,裘儉.淺談中醫藥信息學理論體系框架結構的建構[J].中醫雜志,2011,52(18):1537-1538.[10]沈紹武,肖勇,陳偉.我國中醫藥信息化建設與發展的思考[J].醫學信息學雜志,2010,31(7):1-4.(收稿日期:2014-03-04,編輯:魏民)
關鍵詞:中醫醫院;圖書館;特色數據庫;建設
一、特色數據庫建設內容
1.中醫藥古籍數據庫
中醫藥古籍種類多,查閱起來非常不便,采用計算機技術可以將館藏古籍進行掃描、分類,通過文字識別與轉換技術可以使一些晦澀難懂的書籍更加容易理解,輔之相應軟件可以提供多種查詢手段,便于網絡資源共享。一般而言,中醫藥古籍數據庫有以下幾種格式。
(1)文本格式。文本格式可以直觀地呈現古籍內容,全面揭示古籍重點,借助全文檢索軟件可以實現不同方式的檢索,如,關鍵詞檢索、內容檢索、條目檢索等,通過不同的檢索方式,讀者可以快速查閱到相關古籍內容。[1]
(2)圖像格式。圖像格式可最大限度地保持古籍原貌,制作過程也比較簡便,但是不能進行全文檢索。
(3)圖文關聯格式。圖文關聯格式就是在圖像存儲的基礎上,將古籍中具有檢索價值的內容進行數字化處理,這種格式結合了文本格式和圖像格式的優點,既有多重檢索功能,又便于查看古籍原貌。因此,圖文關聯格式應當作為中醫藥古籍數據庫的首選格式。中醫藥古籍不論通過何種格式數字化,均可被無限制地檢索、查閱、下載、打印,其查閱率也將大幅度提高。[2]
2.中醫藥標本數據庫
中醫藥標本數據庫的建設目的在于全面收集中藥材標本信息。中醫藥標本數量眾多,在建設數據庫之前需要參考《中華人民共和國藥典》《中國植物志》《中國藥材學》中的相關內容,詳細論述各味藥材的學名、拉丁名、別名、資源分布、用藥部位、性味歸經、炮制方法、藥典處方等,數據庫建成之后要便于從上述任意一個字段上進行檢索。此外,還要提供原植物的圖像信息,從而多角度、全方位地展示標本形態及理化特性。還可以借助CALIS特色軟件將中藥材標本的文字信息、圖像資料等以規范模式錄入。提供查詢、檢索、援引、下載功能,借助本院的中藥開發等途徑補充藥用植物資源,為用戶建立一個圖文并茂、資源豐富的數據庫檢索系統。通過互聯網檢索、查詢,使寶貴的中藥材信息能夠得到傳播和利用,從而實現重要標本信息的網絡資源共享。
3.中醫經驗案例數據庫
一些名老中醫的經驗,是其通過多年的科研、教學、實踐活動不斷積累的,是中醫研究領域的寶貴財富,受到諸多因素限制,一些馳名海內外的老中醫的經驗和實踐案例未能得到系統的整理和總結。因此,可利用這些中醫的經驗和案例建設數據庫,可以將他們多年的學術思想和治療經驗永久保存下來,給后人參考。中醫經驗案例數據庫應當包含各位中醫的生平、人物肖像、主要成就、驗方、偏方及對特殊案例的分析記錄等,具體建設前,要廣泛搜尋有關名老中醫的資料,不僅是紙質文獻資料,還包括光盤、錄像等,這些資料可以來自于圖書館自身館藏,也可以來自于家屬親友及師承弟子的口述,建庫前要將資料搜集妥當,避免丟失重要信息。[3]中醫經驗案例數據庫來源廣泛,可以借助計算機技術將這些信息進行匯總,形成圖文并茂、具有鮮明特色的文獻集合數據庫。
4.中醫碩博學位論文數據庫
中醫碩博論文是一種重要的文獻來源途徑,雖然國內已編制有多個碩博論文數據庫,但是在收集廣度和深度上還有待提升,因此,需要建立一個更加全面、權威的碩博學位論文數據庫。針對浩繁的碩博論文,可以采用激光掃描轉化技術,將文本資料快速輸入計算機,傳輸過程中需要重點揭示論文特征,包括作者姓名、導師姓名、摘要、關鍵詞等,為了保證論文收集的連續性,應當建立相應的論文呈繳制度。
二、特色數據庫建設方法
1.圖書館自建
自建圖書館數據庫需要依靠強大的技術支持和先進設備,如,配備一批專業的編程人員、具備掃描儀和大容量存儲設備等,這種建設方法成本較高,需要醫院圖書館結合自身實際量力而行。
2.委托建設
圖書館可以將數據庫建設任務委托給更加專業的數字化加工公司,在委托之前,需要將全部業務信息交付給加工公司,這種建設方法可以為圖書館節省軟硬件購置、人員培訓、組織協調等大量的業務工作,只需要與專業公司簽訂委托合同即可。[4]在專業公司交付標的時,圖書館需要進行嚴謹的質量審查,確保數據庫滿足圖書館實際需求。
3.聯合共建
聯合共建即由某些專業公司與圖書館合作共同建設數據庫,圖書館的任務是提供各種館藏資源和文獻資料,而專業公司的任務則是根據匯總信息制作數據庫。這種聯合共建的方式可能會出現版權爭議問題,因此,選用聯合共建方式之前,需要與專業公司協調好,避免出現版權糾紛。
三、注意事項
數據庫建設過程中,一個不容忽視的問題就是版權問題,一些公共領域的資源和中醫古籍可能不會涉及版權侵犯問題,但是一些碩博論文和中醫經驗在制作的過程中可能會涉及侵權問題,雖然版權法賦予圖書館一定的信息資源使用權利,但是這種使用權只能在適當范圍內應用,其前提是為了滿足社會公眾利益,而且不能以任何方式牟利,否則就會構成侵權。圖書館在合理范圍內使用信息資源,可以不征求著作權人同意,也無需支付費用,但是需要保證使用目的具有公益性。圖書館應當充分利用版權法所賦予的權利,努力開發建設不以營利為目的的特色數據庫,只有這樣才能使寶貴的中醫信息得到資源共享。
四、應用實例
某中醫醫院自2008年伊始堅持開展特色數據的建設,2012年版《醫學總覽》的生物醫學類核心期刊所占比例與2008年版相比,提高了23個百分點,《醫學總覽》中還收錄了多種國外醫學系列期刊,涉及衛生學、免疫學、生物醫學工程、腦血管疾病等。此外,除了在內容上愈加豐富外,《醫學總覽》還增加了下載量評價指標,評價體系也更加完善。2009年黑龍江某中醫醫院基于對本草古籍的專項信息需求,成立專門的建設小組,對國內中醫古籍的數字化整體情況進行實際調研。項目建設小組對國內現有的、具有代表性的本草古籍進行了系統收集,收錄典型的本草古籍作為數字化范本,結合學科用戶的需求,設計開發出了一款B/S模式的結構化數字信息系統――本草古籍數字化信息平臺。該平臺集閱讀、檢索、維護于一體,并加入了輔助利用功能,用戶既可以縱觀體會本草古籍研究成果,又可以橫向比較現有研究熱點,因此,該平臺的建設為有本草古籍需求的用戶提供了更加便捷的數字化檢索平臺。
五、小結
為建成專業、規范、系統的特色數據庫,圖書館首先需要明確數據庫建設內容,其次是選擇建設方式,不論是數據庫內容還是建設方式,都需要圖書館結合本館的實際情況,在綜合分析的基礎上做出權衡,確保數據庫符合本館使用和發展需求。中醫醫院圖書館的特色數據庫建設是一項長期工程,建成后還要經常進行維護和更新,只有這樣才能保持特色數據庫特有的生命力。
參考文獻:
[1]周 建.中醫醫院圖書館信息化建設和管理探討[J].華章,2013,19(14).
[2]許敬麗.科技興院背景下醫院圖書館建設與服務[J].醫學信息學雜志,2014,35(04):80―82.
[3]朱 蓉.醫院圖書館特色化建設芻議[J].醫學信息學雜志,2013,34(04):70―74.
關鍵詞:特藏資源的著錄;特藏資源的獲取;服務評估
本文系華中師范大學管理類項目《高校古籍與珍貴文獻的保護與利用機制研究》課題(課題編號:CCNU16ZY0015)成果之一
特藏資源的傳承與收集需要我們有一定的戰略眼光。特藏資源是在學校辦學過程中收集起來的具有一定歷史價值、文學價值的特殊館藏資料。包括教師或社會人士捐贈的珍貴文獻資料。特藏資源的種類包括:珍本古籍、名人捐贈,名家手稿或題贈、特定年代的宣傳冊、字畫、西文文獻等形式的出版物,還包括相關的數字產品和音像資料。特藏資源的建設與推廣是圖書館服務中重要組成部分,我們只有結合本館館藏資源特點,提煉選題,并持續完善主題收藏,才形成本館特色。
特藏資源的描述決定著資源服務的廣度與深度,目前對文獻的著錄一般是按中圖法分類著錄,檢索項有題名、著者、分類號、出版年、出版者、捐贈者、尺寸,開本等,用戶可通過OPAC按書名或主題查找到檢索結果。此類目錄描述雖然對文獻的主題有所提示,但檢索書目呈現出來的是特藏文獻與普通文獻混雜。檢索目錄上不能體現文獻的分級,用戶只有一一對應才能找到特藏資源。影響了特藏資源的利用。加大對特藏文獻的著錄描述及內容的挖掘有利于提高其辨識度,方便讀者查詢,提高文獻的使用率。
1 特藏資源的描述
如何加大特藏資源的識別度呢,1.我們認為有條件的圖書館可以為特藏資源做專門的平臺,將資源分級標識,并在目錄里將特藏文獻的背景知識做鏈接,即有目的地錄入文獻所涉及的相關背景文字或視頻資料,以期引發用戶的閱讀興趣。在檢索界面允許用戶互動、糾錯、提供最新進展資料及與館員互動交流。用戶可與圖書館員共同完善特藏資源的建設,加大用戶的參與力度。2.特藏資源中的珍本古籍在目錄中應體現其相關出版狀況。近年來國家圖書館重新結集出版發行了一批善本古籍,如中華再造善本等紙質影印圖書。也許我們圖書館珍藏的善本古籍也在其中,這些古籍珍本更多地作為版本價值被我們收藏。對此類古籍的著錄,我們可以引入大型古籍數據庫中的版本信息,如瀚堂典藏古籍數據庫,該數據庫對同類文獻的收錄有的可達六七個版本。文獻的不同版本及查找方式的顯現,對用戶的研究有極大的幫助。就各個圖書館來說,善本古籍數量有限,我們越詳細的著錄,越能方便用戶查閱。3.可在本館目錄里嵌入高校聯合目錄、全國古籍普查平臺等目錄檢索網站,有利于用戶對古籍版本及借閱地點的了解。我們還可以在目錄中注明館際合作的方式及收費標準;對免費電子書,提供鏈接地址在線閱讀。利用社交媒體讓用戶可及時聯系館員,實現一站式服務。
2 特藏資源的數字化
對特藏資源的數字化建設要做好相關調查,避免出現不必要的資源重復與資源浪費。了解國家出版計劃及各院校的數字化進程就顯得十分重要,力爭做到人無我有,各圖書館或機構數字化資源的最終目的是方便用戶使用,各類提供方將來都會在一個平臺上供用戶使用,所以我們應有以下幾條數字化建設原則:國家有計劃出版的資料可后置;珍本書中書品破損程度高的要先行掃描;與本校學科關聯大的特藏資料要優先掃描。這些資料一般查閱量大,數字化后有利于在教師的幫助下建成相關學科主題的資料庫。另外,對一些非書資料如字畫、宣傳冊、題贈等要進行裝裱,制作成圖片,再進行數字化留存。總之,在數字化進程中,圖書館是資源與用戶之間的協作者,不是服務的設計者,這就要求我們強化與教師課程設計者之間的聯系,征詢教師與用戶意見,聯合開發和管理數字資源,將圖書館的教學支持服務整合進課程。加大用戶的體驗度與參與度,他們才是數字化資源建設的設計者。我們要促成用戶愿景的實現。在特藏資源的服務上堅持數據優先。
3 特藏資源的可獲取性
目前阻止用戶使用特藏資源的因素有:人為的規定對用戶開放的身份限制,如校內外、社會讀者,館際互借等;為保護特藏資源不能提供的服務,如復制、掃描、拍照上傳遠程服務等。特藏資源的服務現在多還維持在傳統的到館借閱,圖書館館際間的特藏資源僅限于代查復印,并有嚴格的篇幅限制,且收費政策及收費標準不一。用戶往往為查找資料不得不周旋于各個圖書館之間,用戶體驗感差,急需簡化獲取途徑。文獻開放獲取的進程與各自圖書館的價值觀有著極大的關聯。有的圖書館覺得特藏資源是寶貝,不能輕易示人,有的顧慮好不容易有點特色資源拿出來后會不會影響圖書館的地位。近年來圖書館陣地正在一天天減少,我們的傳統業務部分地被人取代,在這個流行跨界的時代里,我們不做就有人會替代我們做。特藏資源的開放共享是全球發展的大趨勢,我們要從本校從研究者的需求出發,統籌協調本館特藏與地區資源建設的關系,力爭促進特藏資源的開放獲取。在特藏數據庫的建設中最好能聯合多家單位共建設,如我校有關文華公書林的資源建設,在歷史進程中,有武漢圖書館,湖北教育學院資料室都接收過文華圖書館的資料,只有我們團結分工才能更好理清文華圖書館的歷史脈絡。我們可以向WORLD DIGITAL LIBRARY 學習,淡化學校突出主題,在文獻的出處標明貢獻者單位名稱。文獻資源是人類的文化遺產,越用越能體現其價值。
4 特藏資源的推廣與評估
特藏資源每每養在深閨人未識,對文獻揭示不夠深刻是影響其傳播的一大原因,宣傳力度與宣傳切入點不對也會影響特藏資源的傳播效果。如何讓圖書館特藏資源都具有意義?我們首先提倡文獻分級管理,標注,第一時間吸引用戶的眼球。再者與相關院校及社會機構合作,走出去,請進來,舉辦相關主題的展覽。我館有什么資源不重要,重要的是我們能提供怎樣的服務,通過我們的精心組織將這些塵封的歷史翻開,以期引起用戶的關注及興趣,提高特藏資源的利用。其次還可利用社交媒體,更新宣傳手段,尊重用戶閱讀習慣,重視所有形式的特色館藏,不定期地做好資源推介。每年針對不同資源輪流展開專題推介活動。
5 特藏資源利用評估
文獻滿足率的評估,每年對到館用戶與網上用戶的借閱、咨詢做詳細的登記,對用戶出版文獻中的參考文獻進行分類檢索,通過對提供文獻的分類統計及定性定量分析,調整我們下一步的收藏計劃,科學分配各種類型資源的購置額度,防止資源的重復建設。而今用戶服務的力度不再僅取決于館藏,資源的組織更為重要。他館收藏也能為我所用。分清哪些資源該購買,哪些可能通過訂閱或其他許可協議的方式獲得是館員下一步的工作重點,電子資源的比重將越來越大。
讀者體驗度的評估,圖書館的核心服務是將人們聯系在一起,首先要發揮圖書館SPACE的作用,保持對用戶的相關性,用戶看重圖書館作為資源收集者與采購角色,在圖書館的服務工作中要引進用戶意見,拓展與用戶的關系,讓用戶參與設計流程,與用戶保持動態合作交流,重視用戶的體驗,定期以多種形式收集他們在使用圖書館特藏資源中的意見,他們的要求是我們工作的動力,不斷改進我們的服務。
項目評估,圖書館每年應嘗試推進一到二個因用戶需求變化而產生的新服務項目,在用戶服務方面做有益的探索,如編制研究指南、配合相關課目編制學習單元材料;在特藏資源的可發現性及獲取性上做有益的嘗試,促進特藏資料的開放獲取。
圖書館收集歷史中一些有特殊意義的館藏資料,有的還埋沒在普通文獻中,未有人識。我們有責任建立相關平臺,針對學校歷史留存的資料進行有意識地收藏與推廣。特藏資源的組織是圖書館員、用戶及不同機構的全面合作,是聯合共建。基于技術的資源獲取成為當今圖書館的重要任務,我們對特藏資源的著錄描述正是為將來按主題的地區資源建設做準備。在特藏資源的使用上,圖書館員要與教師和用戶合作構想,開發特藏資源的教學支持服務,開發和管理數字及其他格式的特藏資料,促進特藏資源的開放獲取。
參考文獻
1.高校圖書館特藏資源建設流程的再思考 張楠 宋仁君 圖書館學刊 2015.11
關鍵詞:海淀;國學文化;對策
中圖分類號:F061.5 文獻標志碼:A 文章編號:1673-291X(2013)14-0084-02
黨的十對加快發展文化產業,推動文化產業成為國民經濟支柱性產業提出了明確要求,北京市和海淀區也先后出臺了一系列支持文化產業發展的政策制度。這為國學文化產業的發展提供了條件和機會,我們要緊緊抓住這一契機,大力推動國學文化產業的發展。
一、國學時代文化發展中存在的突出問題
國學文化產業在發展中不同于其他類型企業,其產品具有獨創性、高技術性和專業性,產業對社會的貢獻價值周期長,對人才素質要求高,尤其是隨著數字化的發展,傳統文化如何運用高科技手段,發揮其更大的使用價值,越來越受到國內外的廣泛關注。北京國學時代文化傳播股份有限公司通過10年來的發展,雖然取得了一些成功的經驗,但是也不免存在一些問題亟待解決。具體體現在以下幾個方面。
1.優惠政策難以落實到位
為鼓勵文化企業發展,我國從中央到地方都出臺了一系列的政策,但是關于國學文化產業的政策還不夠具體,執行過程中也沒有明確的措施,這樣就使國學文化企業很難像高科技企業一樣享受到優惠政策,也難以像中小型企業一樣得到政策層面的關照,以至在產品定性、產業發展、技術開發等方面尚面臨不少困境。
2.國學文化企業的權益難以保障
文化創意無疑是文化產業的靈魂,也是國學文化產業的核心利益。具體而言,文化產業的創意應包含兩個層面:一是文化內涵的獨特性,二是文化科技的創新性。欲求產業之持續發展,必須在這兩方面銳意求新。當前,中國文化產業的發展迅猛,創意也十分豐富。但同時我們也應該看到,一些文化行業模仿痕跡嚴重,往往拿來主義者多,而本土主義者少,表面一片繁榮,實則潛伏著斷裂的危機,亟須引水歸流,正本清源。海淀相當一部分國學文化公司一直致力于中國傳統文化的拓展和傳播,堅持從基礎做起,使國學具備了深厚的學術素養和文化底蘊,獨立創新了多項古籍數字化尖端技術,形成了一整套大規模古籍文獻資料的數字化加工體系和集成化解決方案,已逐漸成為中國古籍數字化的學術重鎮。隨著成果的日益增多,海淀投入了相當多的力量用于知識產權保護,對于一些新開發的技術積極申請了專利和軟件著作權。但由于電子圖書研發成本很高,復制成本卻很低,盜版的威脅仍然無處不在。就以普及面最廣的“國學經典文庫系列”為例,其盜版在網上隨處可見,僅《國學備覽》一種的下載量就已逾100萬次。如果文化企業通過訴訟維權,不僅難度很大、成本高,時間也不可掌控。侵權事件的不斷出現,侵害了文化企業的權益,挫傷了文化企業發展的積極性。
3.資金投入嚴重不足
雖然以國學文化企業目前的規模還遠不能與那些動輒產值上百億的企業航母相比,但是論其對文化傳承的貢獻和在學術界的影響力,則絕無遜色,而且還有巨大的成長空間。當前,資金投入不足是制約國學文化企業發展的一個重要因素。顯而易見,無論是前期的數據整理、技術研發,還是后期的系統維護、圖書出版,古籍數字化都是一個需要巨大投入和長期運作的行業,亟盼國家在政策上和資金上予以扶持與資助。但據目前情況而言,國家對于國學文化產業的重視還不夠、資金投入也不十分充足。
4.從事國學文化產業的專業人才匱乏
國學文化產業專業人才短缺,與當前國學文化產業發展需求之間的矛盾日益突出。目前,國學文化傳播日益升溫,迫切需要一大批創意文化人才、經營管理人才、技術開發人才、市場營銷人才,尤其是既懂文化又懂經營的復合型高級人才。但在現實發展中,從事文化產業的相關人員的素質遠遠不夠,專業人才數量嚴重不足,結構嚴重失衡,這將在一定程度上制約了國學文化產業的進一步發展。
二、促進海淀區國學文化產業發展的對策
海淀區國學文化企業發展至今,積累了豐富的經驗和技術,擁有了深厚的學術背景,具有一些發展潛力。從我們調查了解的情況看,海淀區國學文化產業有以下幾種類型:一是以教育培訓為主的國學機構,如北京大學乾元國學、北京易和書院等;二是以學術研究和出版為主的國學機構,如北京大學儒學研究院等;三是以提供國學文化產品為主的國學機構,如北京國學時代文化傳播股份有限公司等。目前,海淀區有數十家有一定規模的國學文化類產業機構,不僅有專門的教育培訓機構,而且有一大批熱心從事國學研究發展的科技人才。海淀區應積極采取相應的措施,及時加以引導,以促進國學文化產業的跨越式發展。
1.加快國學文化產業發展的機制創新和制度創新
機制創新是國學文化產業發展的最為重要的方面,必須堅持以改革為中心按照整體推進、分步實施、突出重點的原則,改進組織機構建設。一是創新組織機構。組織機構創新是當前海淀區國學文化產業發展中的關鍵所在,只有從機構改革入手,進一步加強組織領導,理順職責,形成充滿活力、富有效率、更加開放的組織機構和制度安排,才能有效提高執行和落實能力,為打造具有區域影響力的文化中心奠定基礎。當前,要進一步梳理政府與市場的關系,推進國學文化教育產業組織機構的規范化,解決好權責不對等的問題,發揮好政府機構與非政府組織在國學文化產業發展中的應有作用。二是在決策部署上,要按照中央和北京市的要求,制定切合實際的具體制度和措施,注重培育和繁榮國學文化市場;要更加注重國學文化產業的理論研究、政策研究和產業規劃,做到著眼長遠、統籌安排、突出特色。
2.加大國學文化產業知識產權的保護力度
一是國學文化產業具有專業性強、技術含量高的特點,推進海淀區國學文化產業發展,必須注重保護海淀區國學文化科研和產業研究的成果。目前,我國關于文化產業知識產權保護的法律體系建設還不完善,打擊非法盜版的力度還不夠。更為窘迫的是,由于常見的古籍絕大多數都已被點校出版,版權掌握在傳統出版社手里。為了避免糾紛,像國學公司這樣的數字出版者們只好舍近求遠,翻譯古本為底本,重起整理之爐灶。這極大地浪費了學術資源,且依然會面臨來自傳統出版社的版權質疑。當務之急,應盡快建立專門的傳統文化資源開發機構,著手制定相應的古籍數字化版權保護措施,明確古籍數字出版的合法權益和自主的版本價值,推動傳統出版與數字出版的對接與合作,以保證整個產業的健康發展。
二是加大出版質量監管,提高出版物質量。近年來,國家對產品質量問題非常重視,工業產品和農業產品的質量標準越來越高,食品安全更是提到了相當的高度。相對而言,作為精神食糧的紙質圖書和電子圖書,其質量卻存在諸多問題,古籍的出版情況更令人堪憂。新聞出版總署規定,圖書出版質量標準為差錯率不得超過萬分之一。國學公司曾抽查了個別國家一級出版社長期銷售的古典文獻,差錯率超過國家標準一倍以上,更遑論其他普通版本。至于電子出版物,標準不明,質量監督亦無從管起。建議新聞出版總署加大出版質量監管,盡快制定電子出版物的質量標準,并建立獎優罰劣機制,大力獎勵對古籍質量有突出貢獻的單位和個人,扶持優秀企業研發的優質產品,并處罰出版質量不合格的出版機構。
3.加大投入,加強對國學文化產業的政策引導
一是設立專項資金支持國學文化產業的發展。國學文化企業在發展過程中難免會遇到資金不足的發展瓶頸。企業在前期的數據整理、技術研發,后期的系統維護、圖書出版、古籍數字化等方面都需要巨大的資金投入,這需要政府部門的廣泛重視和大力扶持。政府部門可以通過建立多元化的投融資體制,拓寬資金來源渠道。要改變主要依靠財政投入和文化企業自身積累擴大再生產的方式,運用投資控股、金融信貸、資本市場融資等手段,加快建立和發展文化產業基金組織、文化投資公司和資本市場融資等多元投資主體,尤其是民間資本的參與。
二是及時推廣國學文化的優秀成果。由于受出版管理政策的限制,海淀區像國學公司這樣的文化企業至今尚無圖書出版權,所擁有的數千種文獻只能以電子出版的形式為社會提供服務。如果能將這些成果進一步轉化為紙質出版物,則將使國學公司文化產品的社會價值和經濟價值大幅提升,甚至會掀起一場古籍數字化出版的巨大革命,推動數字出版產業的迅速發展。政府有關部門要關注國學文化企業這方面發展的需要,加強對國學文化產業的政策扶持,不斷推進已有成果的轉化。
三是適時建立國學文化產業園區,推進國學文化產業形成規模發展。借鑒中關村科技園區和國內外其他產業園區發展的經驗,對海淀區域內的國學文化產業和教育培訓、研究機構進行整合,使之形成產、學、研相結合的具有海淀特色的經營模式,既能夠節約資源、改善產業結構,又能夠優化區域發展環境。
四是加強國學文化產業專業人才隊伍建設。人力資源是企業發展重要的戰略資源之一。國學公司一直采取外部引進和內部培養兩方面的措施,加快人力資源建設。但由于從事古籍整理工作的專業人才本來就十分稀缺,特別是既具備國學功底,又能熟練應用現代信息技術的高層次人才更為匱乏,而古籍數字化作為新興行業,還未被納入國家人才引進政策之內,戶口、職稱、廉租房等一系列問題得不到落實,導致人才供求關系隱伏矛盾,人才流失現象嚴重。要改變這種現狀,就要在人才引進政策上有所完善。例如,分配適量的進京指標,這對于優秀人才的延攬以及整個古籍數字化產業的穩定發展,無疑都是至關重要的;重視專業性人才的培養,把國學文化專業性人才培養納入海淀區整體的人才培養計劃之列,加強對專業性人才的教育和培訓;建立國學文化專業人才資源庫,注重加強專業人才間的交流,通過出國考察、學習論壇、學術研討等形式,多為專業人才間的交流搭建平臺。
[關鍵詞]館藏陳舊版本樂譜;數字化;共建共享
在音樂藝術院校,音樂表演與音樂研究都離不開樂譜。天津音樂學院圖書館藏有一批珍貴的陳舊版本樂譜。這批樂譜數量龐大,曲目涵蓋面廣,版本權威性高的,是我館的館藏特色文獻資料,對于我院教學與科研都有著不可估量的的促進作用。所以,把這部分珍貴樂譜數字化,是我館義不容辭的責任。截止目前,我館已經數字化了部分館藏陳舊版本樂譜且這項工作還在進行當中。
1.情況概述
1.1定義
文獻資料數字化就是利用現代信息技術將文獻資料轉化為電子媒體的形式,通過光盤、網絡等介質予以保存和傳播。文獻資料數字化是為了進一步挖掘其利用價值,從而更充分地為教學科研服務的重要手段。
1.2館藏陳舊版本樂譜的特點
館藏原文陳舊版本樂譜是我館特色文獻,其珍貴性主要體現在以下四方面:
(1)出版年代久遠,時間集中在上世紀40-80年代;
(2)大部分為俄文原版樂譜,以俄羅斯本土作曲家作品為主,具有很高的權威性;
(3)很多樂譜在國內具有唯一性,有些樂譜在國外也很珍貴;
(4)譜曲目涵蓋面廣:對器樂作品、聲樂作品及交響樂總譜均有涉及。
1.3數字化的重要性
當前進入數字化時代,數字化特色館藏文獻是各級圖書館的一大趨勢,這也是我館本職的工作之一。除此之外,我館數字化這批館藏陳舊版本樂譜還基于以下幾點:
(1)我館的這批陳舊版本樂譜存在老化、破損及散落現象很嚴重,如果不爭取時間將其做成電子版,那么多年以后這些紙質的文獻就有變成一堆紙屑的可能,現實不容樂觀。
(2)由于歷史原因,導致其分類方法與本館現用分類法不統一,沒有進入流通系統。
(3)由于本部分樂譜在全國來說也是相當珍貴,出于對其保護的考慮,基本不外借,使得這批樂譜大多時候深藏于書庫之中,發揮不了其應用的作用。
因此,搶救這些具有珍貴價值的音樂文獻是當務之急。數字化這批館藏陳舊版本樂譜,可以有效地解決文獻保存與使用之間的矛盾。
2.陳舊版本樂譜數字化的原則
陳舊版本樂譜在數字化的“整理”過程中應該貫徹什么樣的原則?上世九十年代,國內有學者在總結我國古籍數字化實踐經驗的基礎上,提出了“保真原則”和“整理原則”,這對我館館藏特色文獻的數字化工作具有借鑒與指導意義。
“保真原則”是指數字化文獻應該具有“文物存儲性”,具備重現文獻原貌的功能。首先,數字化后的文獻要求版面齊全清晰,要反映文獻每一頁的真實原貌。其次,拍照/掃描的圖片要完整,拍照/掃描完畢后要核對頁數,不能有漏頁現象。“保真原則”主要滿足版本研究、書史研究、文字校勘、原件對照等特殊需要,可以認為是印刷版階段“影印本”的數字化。
“整理原則”是指數字化的文獻應該具有“資料應用性”,具有超文本瀏覽閱讀、全文檢索、研究支持等功能。
“保真原則”與“整理原則”是相輔相承的。作為數字化的陳舊版本樂譜,應在圖形與文本之間建立緊密的聯系,使文本顯示和圖形顯示能夠靈活切換,并且能夠迅速準確地定位轉換,以便于使用者做比勘對照。
3.實施策略
3.1統一的技術規范
目前,國內九大音樂院校圖書館都已經開始對本館的特色樂譜進行數字化制作,其他綜合類大學的圖書館也有數字化樂譜的的嘗試。但是,各單位在數字化的工具選擇、采樣標準、保存格式等方面都存在不統一的情況;另外,在數據庫平臺的選擇方面也不盡相同,無法實現共享。所以,有必要研究制定統一的建庫標準,為讀者提供可以共享的樂譜建設和應用平臺。
3.2可靠的技術支持
陳舊版本樂譜數字化的傳統步驟是:先用照相機或掃描儀把原始紙質樂譜轉換為圖像版,再把同一樂譜的每一個圖像合成一本電子書。這種利用影像技術以圖像方式存儲的樂譜可以充分的保存其原貌。我國大部分圖書館對本管館藏特色文獻進行的數字化制作多采取這種方法。
計算機光學樂譜識別技術(OMR)是樂譜數字化領域的新發展。這種技術將紙質樂譜由掃描儀輸入到計算機,利用圖像處理、模式識別、文檔圖像分析等手段,把樂譜圖像自動轉化成通用的數字音樂格式。OMR為紙質樂譜數字化提供了一個智能、高效的新途徑,在計算機音樂、數字音樂圖書館等眾多領域有著廣泛的應用前景。
我館將采用傳統方法與現代技術相結合的方式來數字化這批珍貴樂譜。
3.3注重資源的共建共享
信息資源的有效開發和充分利用,已經成為社會與經濟發展的重要推動力和重要生產要素,正在改變著人們的生產和生活方式。我館將利用互聯網的諸多功能將陳舊版本樂譜進行數字化處理,基本步驟是:文獻甄別篩選、數字化轉換、數據庫平臺搭建、電子圖書生成、文獻標引、書目數據著錄、資源庫信息與書目信息的掛接等,制成一個比較完整的樂譜資源庫。
數字化的這批樂譜資源可以被無限制的使用,不受時間和空間的限制,真正成為讀者學習研究的寶貴資源,其讀者群也將會進一步擴大。隨著以計算機技術為核心的現代技術的發展及與圖書館工作配套的應用軟件的開發,陳舊版本樂譜數據庫的共建共享已經近在咫尺。
總之,館藏陳舊版本樂譜的數字化是一項長期的、不斷完善的過程,一定要在保留樂譜原貌、邊制作邊開放的基礎上,逐步實現全文數字化。只有這樣,才能將大大提高其利用效率,在保存珍貴館藏文獻與輔助音樂院校教學科研方面都起到積極的意義。
參考文獻: