论述了中医文献数字化的必要性、艰巨性和广泛性,指出用户的主观能动性对中医文献数字化成果的应用起着关键作用。
中医文献数字化是当前中医文献研究的重要内容。虽然利用计算机技术研究中医文献已有20多年的历史,并取得了相当的成果,但数字化的概念是近几年才提出的。
数字文学和电子文学在概念上并不相同。一般电子文档只有简单的搜索、打印、编辑功能(有些电子文档没有编辑功能),是纸质书的简单延伸,而数字文档可以对知识进行探索、分析、重组和利用。
打个简单的比方,电子版文档主要是继承文档的形态,而数字文档是在继承文档形态的前提下揭示其隐含的精神。下面简单总结一下我个人对中医文献数字化研究的看法。
中医文献数字化的必要性
中医文献浩如烟海,其中蕴含的科学信息更是难以估量。根据《全国中医图书联合目录》的描述,1949年以前的中医文献有12000多种。由于中医是一门传统科学,
其整体的理论框架,以及医生个人的学术思想和经验,都具有明确的继承性和延续性。为了发展中医药,有必要对作为中医药主要载体的中医药文献进行整理,发掘和利用其中蕴含的科学信息。
建国以来,几次大规模的中医药文献整理取得了一定的成绩。经过整理,中医文献有1000多种,传统文献学的研究方法在这方面得到了广泛的应用。
我国的文献整理始于西汉末年的刘向。刘向和刘欣主持的文献整理是中国文化史上不容置疑的事件。西汉以后,历代都有文献整理。王叔和在魏晋间的排列编号为《伤寒杂病论》,
南朝齐梁间《素问训解》的编纂和中唐王冰《素问》的校勘是中医文献校勘的经典范例。传统文献学方法在清代乾嘉学派那里得到了总结和发展,达到了完美的境界。
我们今天使用的文献学方法,如目录、版本、校勘和文字学、训诂学、音韵学的知识,可以说是继承了。这些方法对于中医文献尤其是中医古籍的整理是必要的,没有理由去指责。但是,
中医毕竟是历史传承下来的,跟现代科学的概念不一样。也正因为如此,中医的学术发展非常迫切。如果还是单纯的用传统的方法来整理中医文献,首先会很久。
显然不能满足中医学术发展的需要。其次,传统的文献整理方法主要是针对具体的文献。即使有足够的时间、物力、财力和人力来整理所有的中医文献,也只是在具体的文献上增加了一个新的版本。
不同的文献之间仍然处于一种相对无序的关系,其中包含的科学信息仍然不容易被人们获取和利用。第三,中医在中国古代传统文化中经历了漫长的历史。
今天,它的思维方式、理论结构和推理方法已经失去了其文化环境,现代人很难用教育或常识去理解中医的理论和经验。即使经过专门的学习,也需要长时间的实践经验。
这样才能适应中医文献的整理工作。专门人才短缺和工作急需也是一个突出的矛盾。随着计算机技术的介入,中医文献的整理出现了新的现象,如原文检索系统的开发和电子图书的出版。
为中医文献的整理注入了新的活力。近年来,基于知识发现和知识挖掘理念的知识库技术已成为中医药文献整理的前沿。中医文献浩如烟海,其中蕴含的科学信息是中医学术发展的科学基础。
对其进行整理、挖掘、复制和利用,是促进中医学术发展的必要前提。目前,知识库技术是实现这一目标的较好选择。由于知识库技术具有强大的数据获取、数据存储、知识发现和知识挖掘功能,
在统一规划、合理设计的指导下,结合传统文献学的工作方法,可以在较短的时间内完成中医药文献整理的主体或主要工作,使中医药文献中蕴含的科学信息能够被人们方便、快捷、直接、有效地利用。
为中医药学术进步提供可靠的科技信息平台。
中医文献数字化的难点
中医文献数字化既然是以数字化手段再现中医文献和其中蕴含的知识,自然面临两个关键问题,一个是手段,一个是内涵。
就手段而言,完全可以通过数字技术对中医文献中的知识和信息进行复制、整合和利用。计算机技术和IT技术的进步为这一目标的实现提供了切实可行的手段。就内涵而言,要保证仓库存储的信息真实可靠,
在数字化处理之前,有必要对中医文献进行加工处理。这个处理过程是必要的,因为不可能将未处理的文档复制到计算机系统中;这种处理的任务也是艰巨的,因为它需要运用传统文字学的知识和方法对文献进行无歧义的处理。
实际上,数字化处理之前的中医文献处理就是文献学研究,或者说文献整理,包括目录、版本、校勘、文字、音韵、训诂等目录学知识。如果缺少这一过程或者处理质量差,
数字结果的可靠性和真实性必然会被削弱。因此,中医文献数字化实际上是在中医文献整理基础上的一种进步,并没有脱离文献整理的范畴。如果说近20年中医文献很难梳理的话,
那么中医文献的数字化之旅可能会更加艰难,因为它涉及到计算机技术的复杂应用,必须基于传统文献整理的基本方法。
再者,中医是植根于中国传统文化的传统科学,与很多人文学科密切相关。因此,即使能熟练运用文献学的方法,也不一定能保证文献整理的高质量。做一篇文字用词规范,标点准确就行了。
所需知识绝不仅限于目录、版本、校勘、文字、音韵、训诂知识。给文件加标点,虽然主办方没说什么,但是标点的使用体现了主办方的所有想法。《吕氏春秋察传》记录孔子对“一只脚”的解释,
解释标点符号不是一件简单的事情。《素问•生气通天论》,王冰解释“足”就是脚的意思,说明即使是大学里的学者也会有小的疏漏。新派古籍在用词规范、标点符号使用、词义理解等方面往往存在一些不足。
由于中医文献数字化是为中医学术发展提供科学的信息平台,用户希望以此为基础探索知识、获取信息、进行科学研究,其可靠性和真实性无疑是第一位的。为了确保这一科学信息平台的真实性和可靠性,
也许更重要的是文档的预处理,因为这个处理是信息获取和知识发现的前提。只有在正确理解原文的前提下,加工者才能发现和提取知识,而这种正确的信息或知识经过数字化加工后才能被再现。
如果对原文的理解有偏差,就找不到其中蕴含的知识,提取出不符合原意的信息,导致最终结果的偏差。因为预处理既是必要的,又是极其复杂的,需要专业人员做大量细致的工作。
因此,虽然中医药文献数字化的意义是前所未有的,但任务的艰巨程度也是前所未有的。
中医药文献数字化的普遍性
由于中医文献的数字化是以计算机技术和IT技术为依托,以知识库为模型,可以对成百上千的中医文献进行加工和数字化,使得其所覆盖的中医文献前所未有。
最理想的状态是覆盖所有的中医文献,但如果要覆盖所有的中医文献,必然会遇到时代差异的问题。中医文学经历了漫长的历史过程,不同时代的文学不可避免地带有时代的印记。如果我们强调他们的不同,
那么任何中医文献都是不同于其他文献的。如果强调彼此的相似性,除了以内容为主要标准外,时代也是一个重要指标。尽管任何文件都可能是过去和未来之间的联系,
但是,某个历史时期的文学总是与同时期的文学有更多的相似之处,而与另一个历史时期的文学却大相径庭。如果把中医的文学大致分为三个阶段,即古代文学、现代文学和现代文学。
古代文学是指民国以前的文学,现代文学是指民国时期的文学,现代文学是指民国以后的文学。之所以这样划分,是因为在民国以前,中医基本上是在中国传统文化的环境中演变而来的。
民国以后受到现代医学等现代科技文化的强烈影响,民国时期的中医无疑是两者之间的过渡。其文献的学术内涵和语言运用不同于古代文献和现代文献。
比如民国时期的何《重印全国名医验案类编》中有一篇张锡纯治疗咳嗽的医案,张锡纯在案中提到了“硫养”二字,这在古代文献或现代文献中大概都找不到。
就现代中医文献而言,有相当多的现代医学内容是古代文献所没有的。正在进行的“中医药科技信息数据库”采用知识库的模式,总体目标应该是能够对所有中医药文献进行加工和数字化。
根据中医药文献的时代特征,在总体设计下设计不同时代中医药文献的具体工作方法,使中医药文献数字化得到进一步论证。
中医药文献数字化成果的应用前景
中医文献数字化的结果是形成一个容量巨大、检索和知识挖掘方便的智能数据库,其科学性和先进性在同类工作中是显而易见的。然而,无论数据库技术多么先进,容量多么巨大,检索多么方便,
所获得信息如何全面真实,数据库毕竟只是一个存储数据的仓库,决定其最终价值的是人对数据库的使用。尽管中医药文献数字化的过程还在进行之中,如何使用的问题已经摆在了我们的面前。例如本草文献部分,
几乎每一部书都有关于人参的记述,内容涉及人参的名称、产地、性味、功效、主治等,即使按照数据库所设计的自然语言检索方法去检索,检索所得的信息仍然需要使用者去分析,在分析中发现知识,发掘知识,总结规律,
从而获得真实的科学数据,为研究工作提供全面的信息支撑。
近年来建成的中医药方面的数据库数量不少,但真正得到广泛使用的并不是很多,库容相对较小、资料门类不全、检索手段滞后以及费用方面的问题成为制约数据库建设和使用的重要因素。
“中医药科技信息数据库”的建设在总体设计上考虑了上述因素,下来的关键便是如何使用的问题。关于使用,可以分为两个层面。一个层面是需要通过计算机手段解决的问题。“中医药科技信息数据库”的库容巨大,
检索所得的信息数量自然也会比较大,比如人参的性味,在200种本草文献中可能有数十条信息,而在数千种中医药文献中可能就会有上百条甚至数百条信息,如果让使用者进行人工分析筛选,
仍然需要花费一定的时间和精力。这类对检索所得的信息进行进一步的处理的问题似乎可以由计算机来解决。再一个层面是必须由使用者自己来解决的问题。使用者要做什么研究项目,要检索什么信息资料,是使用者的事,
与计算机无关。计算机可以也只能给使用者提供最大的方便,但毕竟不能代替人脑的思考。借助数据库的帮助进行科学研究,使用者的主观能动性是起关键作用的。
在知识膨胀、信息爆炸的时代,使用数据库进行信息检索、知识发现、科学研究是合理而又便捷的途径。要促进中医药学术的发展,中医药文献数字化是必须的,但任务是艰巨的。
在工作的过程中似应考虑其信息数据进一步的广泛性,并在其成果的应用方面做一些宣传和推动工作。
陕西省中医药研究院(西安,710003)焦振廉