当前位置:内蒙古区情网  /  数字史志  /  期刊  /  方志期刊  /  2022年  /  第四期

第四期

  • 【工作研究】 论地方志鉴文本信息化的“三部曲”
  • 发布时间:2023-07-06
  • 来源:

  • 摘要:地方志的信息化是业界公认的发展方向,是地方志事业走向繁荣的必由路径,而地方志和信息化的结合工作量非常庞大,必须对其进行深入研究,构建清晰明了的实施步骤。通过分析各省的地方志数据库的统计数据和各省志鉴文本信息化完成的工作量、展现形式,提出志鉴文本信息化的发展步骤,并使用“物”“器”“用”三个词作为说明辅助,阐明三个步骤之间区别和关联,为地方志信息化工作提供参考借鉴。

    关键词:地方志鉴  文本信息化  步骤  逻辑关系

    地方志鉴文本信息化是一项跨越计算机学科和方志学科的研究课题。目前国内的相关研究中,针对地方志数字化、信息化的研究已有较多分析文章和成果,但多数是阐述信息化对地方志的重要性、作用及需要实现信息化的地方志资源种类,有的涉及到了信息化的实现方式,但不够系统,对于地方志资源的信息化表现方式也没有进行层次化的分析,从数字化和信息化概念辨析入手,清晰地解构地方志鉴文本信息化工作发展步骤的研究内容仍较为罕见。国内大部分的志鉴文本信息化基本停留在将文本内容转换存储致电磁介质的阶段,本文的研究内容将为志鉴文本信息化的下一步发展提供一定的方向性拓展。

    一、全国志鉴文本信息化数据库建设情况分析

    根据中国地方志指导小组办公室的全国地方志统计数据,截至2019年12月31日,全国地方志系统已建设有省级数据库24个,地市级数据库50个,县区级数据库26个。其中,地市级数据库山东16个、河南10个占比较高,县区级数据库山东6个、重庆5个、四川4个、河南3个占比较高。从数据中可以分析得到以下两条结论。一是省级地方志机构中已建设数据库的占总比为75%统计数据中包含新疆生产建设兵团,不包含香港、澳门、台湾,总体来看,省级地方志工作机构中已建设数据库的比率较高。二是市县两级地方志工作机构中已建设数据库的占比较低,而且主要集中在山东、河南等省份。部分县、县级市的地方志工作机构采取的是党史、档案、地方志三合一的架构,实际建设的是档案数据库,并不是地方志的数据库,因而县级的地方志工作机构已建设数据库的比率比统计情况还要略低。

    通过调查研究,市县两级的地方志工作机构建设数据库的比例较低的原因主要是以下三个方面:一是地方志鉴文本信息化建设本身就是一个集约过程,省级机构已经完成了大量的地方志鉴文本信息化,很多市县只需要采用“拿来主义”,就可以使用,无需重复开发建设。二是市县两级的地方志工作机构的地方志鉴文本信息化建设经费没有保障。三是缺乏信息化人才,工作难以开展。市县两级的志鉴文本信息化的发展存在着不充分、不均衡的状况,但这种不充分、不均衡的情况并不意味着发展趋势不对。信息化本身存在一个集约建设的问题,数据只有充分饱和集中,数据才有价值,信息化才有作用。因此,市县两级较少地进行志鉴文本信息化的工作,而由省级地方志工作机构代替其完成这部分工作,在现有条件下,是较为合理的发展模式。

    二、各省志鉴文本信息化工作情况

    经过对各省地方志工作机构的网站内容进行分析统计,得到各省志鉴文本信息化工作情况如下仅统计志书、年鉴、旧志三部分内容,其余史志期刊、地情书籍不统计在内,统计情况可能存在讹漏,排名顺序不分先后

    1.北京市,完成了部分志书、年鉴、明清和民国古籍的信息化展示,更换多个浏览器无法在线阅读。

    2.天津市,有市级志书71册,天津区级地方志书18册,天津区县年鉴10卷,旧志点校1种。采用双层PDF形式展示。

    3.河北省,无,外链万方数据知识服务平台的2018部与河北有关志书、年鉴。

    4.山西省无。

    5.内蒙古自治区,内蒙古年鉴1998卷至2019卷22卷,采用纯文本格式展示。另有数据库系统需要账号密码访问,其中内容未知。

    6.辽宁省无。

    7.吉林省,有省市县三级地方志书,吉林年鉴1989卷至2000卷,少量其他志书,因点击“更多内容”时出现错误,无法明确志鉴总数量。内容采用纯文本格式展示。

    8.黑龙江省,有省级志书71册,市县两级地方志书218册,黑龙江年鉴1986卷至2020卷35卷),市县两级综合年鉴108卷,农垦志鉴若干,采用纯文本格式展示。旧志Flash翻页动画4种。

    9.上海市,有市级志书231册,区县级志书174册,乡镇街道村志124册,上海年鉴1996卷至2020卷25卷),上海区县综合年鉴116册。采用纯文本格式展示。

    10.江苏省,有省级志书138册,江苏年鉴1988卷至2019卷32卷),市县两级年鉴1548卷,省市县三级综合年鉴和专业年鉴1580卷。采用双层PDF格式展示,直接加载整本书PDF文件。旧志1种11卷,采用纯文本格式展示。

    11.浙江省,有省级志书70册,采用纯文本格式展示。

    12.安徽省,有省级志书67册,市县两级志书94册,山湖志7册,采用纯文本格式展示。安徽年鉴1984卷至2020卷37卷),年鉴部分内容为单层PDF,年鉴内容无法选中复制。

    13.福建省,有省级志书127册,市县两级志书142册,采用纯文本格式展示。行业及部门志148册,采用双层PDF格式。乡镇村志24册年鉴387卷采用单层PDF格式内容无法选中复制。旧志种类若干,分405卷,混用双层PDF和单层PDF,以上下滚动翻页的形式展示。

    14.江西省,有省级志书98册,市县两级志书81册江西年鉴2002卷至2020卷19卷,采用双层PDF格式,选中后直接弹出PDF。旧志1种57册),采用竖版滚动条双层PDF格式展示。

    15.山东省,有省级志书174册,乡镇村志11册山东年鉴1987卷至2018卷32卷),各市州区县志鉴资料等1153册,采用网页纯文本格式展示。旧志5种,采用图片或纯文本形式展示。

    16.台湾地区无。

    17.河南省,有省级志书101册,市县两级志书2册河南年鉴1984卷至2016卷33卷,采用网页纯文本格式展示,使用脚本语言限制复制功能。

    18.湖北省无。

    19.湖南省,有省级志书册129册,省级年鉴1985卷至2018卷36卷94卷有增刊),采用纯文本格式展示。市县两级志书329册,采用双层PDF格式展示。旧志101种,采用Flash翻页动画展示。

    20.广东省,有省级志书110册,市县两级志书83册广东年鉴1987卷至2020卷34卷),市县两级年鉴650册采用单层PDF格式展示。

    21.广西壮族自治区,有省级志书166册,市县两级志书146册,乡镇村志31册,广西年鉴1987卷至2019卷33卷),市县两级年鉴336册,专业年鉴54册,采用单层PDF格式展示。

    22.海南省,有省级志书72册,市县两级志书19册,部门志2册,乡镇村志6册,农场志13册海南年鉴1989卷至2020卷32卷,市县两级年鉴26卷,专业年鉴4卷,采用纯文本格式展示。旧志3种,采用图片或纯文本格式展示。

    23.香港特别行政区,无。

    24.澳门特别行政区,无。

    25.重庆市,有市级志书59册,重庆年鉴1987卷至1999卷13卷),采用纯文本格式展示,使用脚本语言限制复制功能。旧志10种,采用单层PDF格式展示。

    26.四川省,有省级志书112册,市县两级志书若干,其他志书23册,四川年鉴1986卷至2020卷35卷),采用双层PDF格式展示。

    27.贵州省,有省级志书94册,市级志书316册,县级志书163册,采用纯文本格式和单层PDF格式和双重展示。

    28.云南省,有省级志书120册,市县两级志书214册云南年鉴2007卷至2018卷12卷),市县两级年鉴14卷旧志18种采用单层PDF格式展示。

    29.西藏自治区,无。

    30.陕西省,有省级志书89册,市县两级志书134册陕西年鉴1987卷至2020增刊卷35卷,市县两级年鉴若干,旧志64种,采用纯文本格式和双层PDF格式和双重展示。

    31.甘肃省,有省级志书133册,市级志书23册,县级志书164册,专业行业志若干,乡镇村志8册,省级年鉴2009卷至2020卷12卷,省级部门年鉴6卷,市州区县年鉴若干,采用双层PDF格式展示。

    32.青海省,有省级志书23册,市级志书0册,县级志书1册,青海年鉴2010卷至2020卷2018卷10卷),采用单层PDF格式展示。

    33.宁夏回族自治区,有部分宁夏通志和宁夏年鉴的目录图片。

    34.新疆维吾尔自治区,建设有地情资料信息库,显示正在维护中,无法访问。

    通过各省级地方志工作机构的志鉴文本信息化情况分析,已经启动或准备实施志鉴文本信息化是各省级地方志工作机构的普遍状态,但在完成的数量和形式上存在较多差异化。在完成进度上存在一个差量化的区别,有的省已经基本完成省市县三级地方志书和综合年鉴的文本信息化初步处理,有的省还剩下部分地方志书和综合年鉴未进行文本信息化初步处理,有的省则还刚开始起步。在表现电子文档的形式上也有较大差异,有的省采用网页纯文本展示,有的省采用双层PDF格式展示,有的省则还处于单层PDF展示状态。综合来说,各省已进入志鉴文本信息化建设大踏步前进的阶段。

    经过对现有方志数据库的比对研究,将志鉴文本信息化的工作步骤划分为三个阶段,即由纸质化提升为数字化、由数字化整理为结构化、由结构化转变为智能化。通过现有情况和数据的分析,对志鉴文本信息化工作提出“三部曲”设想。

    三、志鉴文本信息化的步骤解析

    由纸质化提升为数字化

    由纸质化提升为数字化,是志鉴文本信息化的第一步。纸质化,即书面化,以定稿印刷成册的形式承载志鉴的文本内容,是一种沿袭上千年的文字承载形式。显而易见,纸质化的优点和缺点都十分明显,优点是更具质感、立体感和厚重感,便于人的阅读和批注,缺点则是不方便寻找特定数据,不利于携带,传播速度相对要慢。数字化,一些从事数字化服务的企业也将其称之为碎片化,主要变化为存储介质由纸张变为电磁物质,其标志就是能实现文字内容可编辑以及全文检索。前文中统计的采用单层PDF或图片形式展示志鉴内容的形式,不属于志鉴文本信息化,因为其未能实现文字内容的可编辑,只是将纸质书籍转变为存储在电磁物质中的图片,只能算志鉴书页的信息化。还有一种特殊情况,即完成了志鉴文本内容的扫描识别,实现了文字内容可编辑,但未能实现全文检索功能。因为这种形式并没有摆脱纸质化不方便寻找特定数据的特性,在此处将其定义为半数字化。由半数字化变为数字化,只需要对数据进行章节整理,然后按章节格式存储至数据库中即可。

    实现由纸质化提升为数字化,大多数地方志机构采用的是扫描纸质书进行文字识别,然后进行机器及人工校对的工作流程,难以直接采用志鉴电子版文件。这是因为,第一轮出版的地方志书和早期的综合年鉴,大多数采用铅字印刷工艺,没有使用计算机排版,从而也不存在所谓电子版,第二轮出版的地方志书和本世纪以来的综合年鉴基本采用计算机软件排版,但地方志工作机构并无志鉴资料定稿的电子文件,出版社或印刷厂提供的PDF文档也多数采用了转曲的排版工艺,已经将文档转换成了纯图片,文档里面的文字无法进行复制。已经有一些学者提出,需要打通地方志资料搜集、编纂、出版、展示的全流程信息化,但仍存在一些难以克服的问题,因本文集中于探讨志鉴文本信息化步骤,此处不作深入说明。

    地方志工作机构实现志鉴文本内容数字化主要有纯文本形式和双层PDF形式,有单独采用一种格式的,也有采用两种格式混用的,两种形式各有利弊。从存储空间上来看,纯文本格式的数字化成果需要的存储空间小,双层PDF格式需要存储图书的图片,需要更大存储空间。从网页加载速度上来看,纯文本格式的数字化成果响应时间短,双层PDF格式需要加载图书的图片,需要更长的加载时间。如果网络资源有限,将会导致二者加载速度出现较明显区别。从兼容性上看,纯文本格式具有更好的兼容性。双层PDF格式可能会存在两方面的兼容性问题,一是少部分电脑网页PDF文件加载不出来,二是复制PDF下层文字时会出现一些格式混乱的问题。从成果验收上看,纯文本格式验收更简便,因双层PDF格式的文字在下层,需要复制出来,粘贴到其他文字软件后,才能进行检查差错。从学术需求的角度上来看,双层PDF格式展示内容和原书一致,有效保存了书籍的原本样貌,方便用户获取引用资料所在页码。综合来看,纯文本格式在技术上更有优势,双层PDF格式在学术需求上更有优势。选取何种格式的方式进行加工,需要各地方志工作机构根据自身实际情况进行分析判断。

    由数字化整理为结构化

    数字化的文本数据进一步加工,可以将其变为结构化数据。结构化即指数据排列具有规则性,有内在联系,其标志就是任何一个数据有其对应的元数据元数据,描述数据的数据,可视为数据的一种属性,且元数据保持相对固定不能随意发生变化。目前广泛使用的数据库MySQL、SQL  Server、Oracle、Sybase等都是结构化数据库,所以广泛的意义上来说,存储在数据库中的数据几乎都是结构化数据。大量数字化文本要实现全文检索功能,存储在数据库中是唯一的可行方式,因此数字化文本必然是结构化数据。但是数字化文本内容存储在数据库中的模式是将书的每一节或每一页的文本以长字段存储在数据库中,结构化的是志鉴书籍和志鉴的目录,元数据为书籍的章节或其他版权信息等,而不是志鉴文本中数据的结构化。此处所指需要进一步提升到结构化,是指为数字化志鉴资料中的所有数据整理出属性。

    志鉴资料中,有三种类型的文本内容可以转换为结构化数据。第一种就是表格。志书的体裁有序、述、记、志、传、图、表、录等,构成志书的基本框架。表格这一类型的数据按行列存储在数据库中即可变为结构化数据,是志鉴资料可直接转换成结构化数据的内容。在志书的篇目中,除大事记之外,其余部分均有表格类型的数据存在,如《湖南省志·地理志》的第三章第一节,在记录湖南人口的历史记载时,就从历朝历代的文献中整理出16个表格记录了从西汉至民国1947年的户口数据。表格的标题列为湖南的各行政区域,表格的标题行省略了,但根据内容可以推测为户数量和人数量等。这个表格存储至数据库中,其内容即为结构化数据,表格的元数据为行政区域和数量。

    第二种可以转换为结构化数据的就是志鉴资料中在同一段落或同一章节内以枚举的形式记录的属性重复的有关数据,可以将其先转换为表格,再存储至数据库中,即可得到结构化数据。仍然以《湖南省志·地理志》为例来说明,如第一章疆域文字部分最后一段的内容为:“全省90个县的面积,在5000平方公里以上的有1个县;5000平方公里以下4000平方公里以上的有4个县;4000平方公里以下3000平方公里以上的有11个县;3000平方公里以下2000平方公里以上的有39个县;2000平方公里以下1000平方公里以上的有34个县,1000平方公里以下的有1个县……”。通过观察,就可发现,文字部分每一句都在阐述行政区划的面积和数量,因此可提炼如下湖南县级行政区划面积大小数量统计表格。

     

    image.png 

    将该表格按行列存储至数据库,即可得到一组结构化数据。在第一种类型举例时提到的湖南人口历史记载,其数据也是散列在各历史文献中,通过参与编纂的人员整理后形成的表格,然后才可直接存储至数据库中得到结构化数据。虽然志鉴资料中有为数不少的表格,但是毕竟以叙述性文字内容为主,通过属性重复的文字内容的整理,就能有效扩大志鉴文本结构化数据的数据量。

    第三种可以转换为结构化数据的就是志鉴资料中,分散于各篇目或部类之间的具有联系的文本内容。例如湖南年鉴从1985卷开始,均刊载了政府工作报告,通过查阅各卷中的政府工作报告,得到1985年至1992年的全省国民生产总值GNP如下344.98亿元、392.64亿元、469.44亿元、584亿元、640.8亿元、703亿元、784亿元、900亿元得到19932018年的全省国内生产总值地区GDP如下:1192.41亿元、1694亿元、2640亿元、3000亿元、3211.4亿元、3407亿元、3692亿元、3983亿元、4340.9亿元、4634亿元、5612.3亿元、6500亿元、7493亿元、9145亿元、11000亿元、12930.7亿元、1.5万亿元、2万亿元、2.2万亿元、2.45万亿元、2.7万亿元、2.9万亿元、3.12万亿元、3.64万亿元、3.64万亿元均摘录原文字样,其中部分数据原文标注为预计数,2020卷中记录的2019年政府工作报告未提到具体生产总值。当然其中还存在其他年度性数据,不一一列举,将这些年度性数据全部整理后汇总并存入数据库,即可得到一组随年度变化的结构化数据。

    由结构化转变为智能化

    结构化的数据相比普通的数字化文本更加简洁明了,但数据的使用和分析仍然限定在单一结构化区域。如何实现结构化数据的跨区域联系,使得结构化数据发挥最大的价值目前现有的技术途径是人工智能AI,即采取机器学习的方式,根据人类对志鉴数据的比较、判读方法形成算法,使用机器对数据进行不断分析和挖掘、提取数据中有价值的信息,通过机器的运算结果反馈优化算法,使数据智能化。其标志就是机器自发对数据进行处理和加工,形成优质的分析结果。

    志鉴文本数据的一个重要特征就是具有较高广泛性,但是数据深度不足。这与地方志的编纂方式有关,地方志的编纂有“众手成志”的说法,数据资料来源于各类组织和社会各界,但是受限于地方志的篇幅,必然在每一个领域只能攫取最为紧要和概括性的数据。根据这一特点,实现志鉴文本数据的智能化最首要的方式就是对跨领域的数据进行比对和分析,并寻找其中的关联点。通过这些数据关联,为党委政府决策提供支撑,为各类研究人员提供全新的数据关联构造,方便研究人员能站在更高广度的基础上解读和分析所研究的领域。举个例子来说,国务院总理李克强任职辽宁省委书记时,喜欢通过耗电量、铁路货运量和贷款发放量三个指标分析当时辽宁省经济状况。因为GDP的统计较为复杂,存在干扰数据或统计不完全数据的可能性,而这三项数据统计相对较为简单,通过工业用电量新增、铁路货运量新增和银行中长期贷款新增与GDP增长量之间的线性关系,可以很好地评估GDP的统计准确性。这里就是通过工业用电量新增、铁路货运量新增和银行中长期贷款新增与GDP的增长速度之间,建立一个数据模型。就志鉴文本数据来说,可以通过计算机分析已实现结构化的数据的曲线,建立起多个这样的数据模型,实现志鉴文本数据的智能化。在记录这些数据模型后,可以更进一步分析模型和模型之间的关联程度,建立起一套全新的解释话语,为社会公众提供高质量服务。

    实现志鉴文本数据的智能化的第二种方式是引入数字人文技术。数字人文是近年来新兴起的概念,实际上,在人文领域引入计算机辅助研究已有很长的历史,数字人文是对这方面交叉关系的一个总概括,应用十分广泛,前文所阐述的建立结构化数据,实际也是数字人文的一个方面。要实现志鉴文本数据智能化,可以引入部分数字人文的分析方法,对数据进行分析利用。举例来说,可以通过抓取互联网的有关数据,建立链接关系,并和志鉴文本数据进行比对,打通志鉴文本数据和其他社会数据的联系,以实现志鉴文本数据的“远读”。

    四、三部曲之间的关系

    由纸质化提升为数字化,是地方志鉴文本信息化基础阶段,对应中国哲学“物”的概念,为后续的信息化准备好充足的材料。强调的是通过扫描和识别两道工序进行数字化加工,虽然会耗费一些人工,但是在志鉴文本信息化三部曲里面,仍然是较为简单和基础的步骤。

    由数字化整理为结构化,是地方志鉴文本信息化的发展阶段,对应中国哲学“器”的概念,通过基础阶段的材料,建立起不同的版块资源。强调的是通过人工建立起直观的数据联系,如果没有基础阶段实现志鉴数据的全文检索功能,那么发展阶段的结构化数据必然是不充分和不全面的。

    由结构化转变为智能化,是地方志鉴文本信息化的高级阶段,对应中国哲学“用”的概念,通过发展阶段的版块资源,拼合起丰富的宏观空间。强调的是人工和机器的深度结合,结构化数据越充分和全面,智能分析的结果就越精准和有效。需要注意的是,此处的智能并不意味着取代人工,人工智能有“越多人工、越多智能”的说法,要实现数据的整理利用,必须投入大量人工进行数据清洗和核验。

    概括来说,“物”“器”“用”三部曲的每一个阶段,是下一阶段的基础。“物”和“器”,都存在一定的“用”途,但是“器”的“用”途更加准确和方便。因此,三部曲之间不存在绝对的、不可动摇的步骤顺序,但是只有“物”的丰富,才有“器”的充盈,最后“用”才能广泛和有效。

    五、结语

    信息化是人类社会的先进生产力,将地方志与计算机技术、互联网技术深度融合起来,实现地方志鉴文本的信息化,既是地方志工作发展的当前阶段的必然要求,也是决定着地方志工作下一阶段的发展前景,过去因为诸多原因,地方志鉴文本的信息化整体水平仍停留在较浅的数字化层次。在地方志引入信息化技术的过程中,需要做好分阶段、分步骤的科学规划,在引入成熟的技术的基础上,对新技术进行分析和研判,确保地方志工作紧跟前沿科技的步伐,不断繁荣壮大新时代地方志事业。

    撰稿:任璀洛,湖南省地方志编纂院湖南省地方文献研究所

    参考文献

    1.沈松平,汪凤娟.新中国地方志信息化建设的历史回顾、存在问题及发展建议[J].中国地方志2021,(4):1826.

    2.游桃琴.数字化助推新时代地方志事业发展[J].新疆地方志2021,(01):2427.

    3.欧长生,程立雪.浅谈地方志的活态化应用[J].史志学刊2021,(01):4754.

    4.林秀玲.方志数字化实践与研究的现状评析[J].黑龙江史志2020,(03):1619.

    5.金雄波.以第三轮修志为契机加快地方志数字化建设步伐[J].新疆地方志2019,(04):4043.

    6.周能汉.新时代地方志信息化建设随想[J].新疆地方志2019,(02):1415.


  • 声明: 转载请注明来源于《内蒙古区情网》官方网站
  • 【工作研究】 论地方志鉴文本信息化的“三部曲”
  • 发布时间:2023-07-06
  • 来源:

  • 摘要:地方志的信息化是业界公认的发展方向,是地方志事业走向繁荣的必由路径,而地方志和信息化的结合工作量非常庞大,必须对其进行深入研究,构建清晰明了的实施步骤。通过分析各省的地方志数据库的统计数据和各省志鉴文本信息化完成的工作量、展现形式,提出志鉴文本信息化的发展步骤,并使用“物”“器”“用”三个词作为说明辅助,阐明三个步骤之间区别和关联,为地方志信息化工作提供参考借鉴。

    关键词:地方志鉴  文本信息化  步骤  逻辑关系

    地方志鉴文本信息化是一项跨越计算机学科和方志学科的研究课题。目前国内的相关研究中,针对地方志数字化、信息化的研究已有较多分析文章和成果,但多数是阐述信息化对地方志的重要性、作用及需要实现信息化的地方志资源种类,有的涉及到了信息化的实现方式,但不够系统,对于地方志资源的信息化表现方式也没有进行层次化的分析,从数字化和信息化概念辨析入手,清晰地解构地方志鉴文本信息化工作发展步骤的研究内容仍较为罕见。国内大部分的志鉴文本信息化基本停留在将文本内容转换存储致电磁介质的阶段,本文的研究内容将为志鉴文本信息化的下一步发展提供一定的方向性拓展。

    一、全国志鉴文本信息化数据库建设情况分析

    根据中国地方志指导小组办公室的全国地方志统计数据,截至2019年12月31日,全国地方志系统已建设有省级数据库24个,地市级数据库50个,县区级数据库26个。其中,地市级数据库山东16个、河南10个占比较高,县区级数据库山东6个、重庆5个、四川4个、河南3个占比较高。从数据中可以分析得到以下两条结论。一是省级地方志机构中已建设数据库的占总比为75%统计数据中包含新疆生产建设兵团,不包含香港、澳门、台湾,总体来看,省级地方志工作机构中已建设数据库的比率较高。二是市县两级地方志工作机构中已建设数据库的占比较低,而且主要集中在山东、河南等省份。部分县、县级市的地方志工作机构采取的是党史、档案、地方志三合一的架构,实际建设的是档案数据库,并不是地方志的数据库,因而县级的地方志工作机构已建设数据库的比率比统计情况还要略低。

    通过调查研究,市县两级的地方志工作机构建设数据库的比例较低的原因主要是以下三个方面:一是地方志鉴文本信息化建设本身就是一个集约过程,省级机构已经完成了大量的地方志鉴文本信息化,很多市县只需要采用“拿来主义”,就可以使用,无需重复开发建设。二是市县两级的地方志工作机构的地方志鉴文本信息化建设经费没有保障。三是缺乏信息化人才,工作难以开展。市县两级的志鉴文本信息化的发展存在着不充分、不均衡的状况,但这种不充分、不均衡的情况并不意味着发展趋势不对。信息化本身存在一个集约建设的问题,数据只有充分饱和集中,数据才有价值,信息化才有作用。因此,市县两级较少地进行志鉴文本信息化的工作,而由省级地方志工作机构代替其完成这部分工作,在现有条件下,是较为合理的发展模式。

    二、各省志鉴文本信息化工作情况

    经过对各省地方志工作机构的网站内容进行分析统计,得到各省志鉴文本信息化工作情况如下仅统计志书、年鉴、旧志三部分内容,其余史志期刊、地情书籍不统计在内,统计情况可能存在讹漏,排名顺序不分先后

    1.北京市,完成了部分志书、年鉴、明清和民国古籍的信息化展示,更换多个浏览器无法在线阅读。

    2.天津市,有市级志书71册,天津区级地方志书18册,天津区县年鉴10卷,旧志点校1种。采用双层PDF形式展示。

    3.河北省,无,外链万方数据知识服务平台的2018部与河北有关志书、年鉴。

    4.山西省无。

    5.内蒙古自治区,内蒙古年鉴1998卷至2019卷22卷,采用纯文本格式展示。另有数据库系统需要账号密码访问,其中内容未知。

    6.辽宁省无。

    7.吉林省,有省市县三级地方志书,吉林年鉴1989卷至2000卷,少量其他志书,因点击“更多内容”时出现错误,无法明确志鉴总数量。内容采用纯文本格式展示。

    8.黑龙江省,有省级志书71册,市县两级地方志书218册,黑龙江年鉴1986卷至2020卷35卷),市县两级综合年鉴108卷,农垦志鉴若干,采用纯文本格式展示。旧志Flash翻页动画4种。

    9.上海市,有市级志书231册,区县级志书174册,乡镇街道村志124册,上海年鉴1996卷至2020卷25卷),上海区县综合年鉴116册。采用纯文本格式展示。

    10.江苏省,有省级志书138册,江苏年鉴1988卷至2019卷32卷),市县两级年鉴1548卷,省市县三级综合年鉴和专业年鉴1580卷。采用双层PDF格式展示,直接加载整本书PDF文件。旧志1种11卷,采用纯文本格式展示。

    11.浙江省,有省级志书70册,采用纯文本格式展示。

    12.安徽省,有省级志书67册,市县两级志书94册,山湖志7册,采用纯文本格式展示。安徽年鉴1984卷至2020卷37卷),年鉴部分内容为单层PDF,年鉴内容无法选中复制。

    13.福建省,有省级志书127册,市县两级志书142册,采用纯文本格式展示。行业及部门志148册,采用双层PDF格式。乡镇村志24册年鉴387卷采用单层PDF格式内容无法选中复制。旧志种类若干,分405卷,混用双层PDF和单层PDF,以上下滚动翻页的形式展示。

    14.江西省,有省级志书98册,市县两级志书81册江西年鉴2002卷至2020卷19卷,采用双层PDF格式,选中后直接弹出PDF。旧志1种57册),采用竖版滚动条双层PDF格式展示。

    15.山东省,有省级志书174册,乡镇村志11册山东年鉴1987卷至2018卷32卷),各市州区县志鉴资料等1153册,采用网页纯文本格式展示。旧志5种,采用图片或纯文本形式展示。

    16.台湾地区无。

    17.河南省,有省级志书101册,市县两级志书2册河南年鉴1984卷至2016卷33卷,采用网页纯文本格式展示,使用脚本语言限制复制功能。

    18.湖北省无。

    19.湖南省,有省级志书册129册,省级年鉴1985卷至2018卷36卷94卷有增刊),采用纯文本格式展示。市县两级志书329册,采用双层PDF格式展示。旧志101种,采用Flash翻页动画展示。

    20.广东省,有省级志书110册,市县两级志书83册广东年鉴1987卷至2020卷34卷),市县两级年鉴650册采用单层PDF格式展示。

    21.广西壮族自治区,有省级志书166册,市县两级志书146册,乡镇村志31册,广西年鉴1987卷至2019卷33卷),市县两级年鉴336册,专业年鉴54册,采用单层PDF格式展示。

    22.海南省,有省级志书72册,市县两级志书19册,部门志2册,乡镇村志6册,农场志13册海南年鉴1989卷至2020卷32卷,市县两级年鉴26卷,专业年鉴4卷,采用纯文本格式展示。旧志3种,采用图片或纯文本格式展示。

    23.香港特别行政区,无。

    24.澳门特别行政区,无。

    25.重庆市,有市级志书59册,重庆年鉴1987卷至1999卷13卷),采用纯文本格式展示,使用脚本语言限制复制功能。旧志10种,采用单层PDF格式展示。

    26.四川省,有省级志书112册,市县两级志书若干,其他志书23册,四川年鉴1986卷至2020卷35卷),采用双层PDF格式展示。

    27.贵州省,有省级志书94册,市级志书316册,县级志书163册,采用纯文本格式和单层PDF格式和双重展示。

    28.云南省,有省级志书120册,市县两级志书214册云南年鉴2007卷至2018卷12卷),市县两级年鉴14卷旧志18种采用单层PDF格式展示。

    29.西藏自治区,无。

    30.陕西省,有省级志书89册,市县两级志书134册陕西年鉴1987卷至2020增刊卷35卷,市县两级年鉴若干,旧志64种,采用纯文本格式和双层PDF格式和双重展示。

    31.甘肃省,有省级志书133册,市级志书23册,县级志书164册,专业行业志若干,乡镇村志8册,省级年鉴2009卷至2020卷12卷,省级部门年鉴6卷,市州区县年鉴若干,采用双层PDF格式展示。

    32.青海省,有省级志书23册,市级志书0册,县级志书1册,青海年鉴2010卷至2020卷2018卷10卷),采用单层PDF格式展示。

    33.宁夏回族自治区,有部分宁夏通志和宁夏年鉴的目录图片。

    34.新疆维吾尔自治区,建设有地情资料信息库,显示正在维护中,无法访问。

    通过各省级地方志工作机构的志鉴文本信息化情况分析,已经启动或准备实施志鉴文本信息化是各省级地方志工作机构的普遍状态,但在完成的数量和形式上存在较多差异化。在完成进度上存在一个差量化的区别,有的省已经基本完成省市县三级地方志书和综合年鉴的文本信息化初步处理,有的省还剩下部分地方志书和综合年鉴未进行文本信息化初步处理,有的省则还刚开始起步。在表现电子文档的形式上也有较大差异,有的省采用网页纯文本展示,有的省采用双层PDF格式展示,有的省则还处于单层PDF展示状态。综合来说,各省已进入志鉴文本信息化建设大踏步前进的阶段。

    经过对现有方志数据库的比对研究,将志鉴文本信息化的工作步骤划分为三个阶段,即由纸质化提升为数字化、由数字化整理为结构化、由结构化转变为智能化。通过现有情况和数据的分析,对志鉴文本信息化工作提出“三部曲”设想。

    三、志鉴文本信息化的步骤解析

    由纸质化提升为数字化

    由纸质化提升为数字化,是志鉴文本信息化的第一步。纸质化,即书面化,以定稿印刷成册的形式承载志鉴的文本内容,是一种沿袭上千年的文字承载形式。显而易见,纸质化的优点和缺点都十分明显,优点是更具质感、立体感和厚重感,便于人的阅读和批注,缺点则是不方便寻找特定数据,不利于携带,传播速度相对要慢。数字化,一些从事数字化服务的企业也将其称之为碎片化,主要变化为存储介质由纸张变为电磁物质,其标志就是能实现文字内容可编辑以及全文检索。前文中统计的采用单层PDF或图片形式展示志鉴内容的形式,不属于志鉴文本信息化,因为其未能实现文字内容的可编辑,只是将纸质书籍转变为存储在电磁物质中的图片,只能算志鉴书页的信息化。还有一种特殊情况,即完成了志鉴文本内容的扫描识别,实现了文字内容可编辑,但未能实现全文检索功能。因为这种形式并没有摆脱纸质化不方便寻找特定数据的特性,在此处将其定义为半数字化。由半数字化变为数字化,只需要对数据进行章节整理,然后按章节格式存储至数据库中即可。

    实现由纸质化提升为数字化,大多数地方志机构采用的是扫描纸质书进行文字识别,然后进行机器及人工校对的工作流程,难以直接采用志鉴电子版文件。这是因为,第一轮出版的地方志书和早期的综合年鉴,大多数采用铅字印刷工艺,没有使用计算机排版,从而也不存在所谓电子版,第二轮出版的地方志书和本世纪以来的综合年鉴基本采用计算机软件排版,但地方志工作机构并无志鉴资料定稿的电子文件,出版社或印刷厂提供的PDF文档也多数采用了转曲的排版工艺,已经将文档转换成了纯图片,文档里面的文字无法进行复制。已经有一些学者提出,需要打通地方志资料搜集、编纂、出版、展示的全流程信息化,但仍存在一些难以克服的问题,因本文集中于探讨志鉴文本信息化步骤,此处不作深入说明。

    地方志工作机构实现志鉴文本内容数字化主要有纯文本形式和双层PDF形式,有单独采用一种格式的,也有采用两种格式混用的,两种形式各有利弊。从存储空间上来看,纯文本格式的数字化成果需要的存储空间小,双层PDF格式需要存储图书的图片,需要更大存储空间。从网页加载速度上来看,纯文本格式的数字化成果响应时间短,双层PDF格式需要加载图书的图片,需要更长的加载时间。如果网络资源有限,将会导致二者加载速度出现较明显区别。从兼容性上看,纯文本格式具有更好的兼容性。双层PDF格式可能会存在两方面的兼容性问题,一是少部分电脑网页PDF文件加载不出来,二是复制PDF下层文字时会出现一些格式混乱的问题。从成果验收上看,纯文本格式验收更简便,因双层PDF格式的文字在下层,需要复制出来,粘贴到其他文字软件后,才能进行检查差错。从学术需求的角度上来看,双层PDF格式展示内容和原书一致,有效保存了书籍的原本样貌,方便用户获取引用资料所在页码。综合来看,纯文本格式在技术上更有优势,双层PDF格式在学术需求上更有优势。选取何种格式的方式进行加工,需要各地方志工作机构根据自身实际情况进行分析判断。

    由数字化整理为结构化

    数字化的文本数据进一步加工,可以将其变为结构化数据。结构化即指数据排列具有规则性,有内在联系,其标志就是任何一个数据有其对应的元数据元数据,描述数据的数据,可视为数据的一种属性,且元数据保持相对固定不能随意发生变化。目前广泛使用的数据库MySQL、SQL  Server、Oracle、Sybase等都是结构化数据库,所以广泛的意义上来说,存储在数据库中的数据几乎都是结构化数据。大量数字化文本要实现全文检索功能,存储在数据库中是唯一的可行方式,因此数字化文本必然是结构化数据。但是数字化文本内容存储在数据库中的模式是将书的每一节或每一页的文本以长字段存储在数据库中,结构化的是志鉴书籍和志鉴的目录,元数据为书籍的章节或其他版权信息等,而不是志鉴文本中数据的结构化。此处所指需要进一步提升到结构化,是指为数字化志鉴资料中的所有数据整理出属性。

    志鉴资料中,有三种类型的文本内容可以转换为结构化数据。第一种就是表格。志书的体裁有序、述、记、志、传、图、表、录等,构成志书的基本框架。表格这一类型的数据按行列存储在数据库中即可变为结构化数据,是志鉴资料可直接转换成结构化数据的内容。在志书的篇目中,除大事记之外,其余部分均有表格类型的数据存在,如《湖南省志·地理志》的第三章第一节,在记录湖南人口的历史记载时,就从历朝历代的文献中整理出16个表格记录了从西汉至民国1947年的户口数据。表格的标题列为湖南的各行政区域,表格的标题行省略了,但根据内容可以推测为户数量和人数量等。这个表格存储至数据库中,其内容即为结构化数据,表格的元数据为行政区域和数量。

    第二种可以转换为结构化数据的就是志鉴资料中在同一段落或同一章节内以枚举的形式记录的属性重复的有关数据,可以将其先转换为表格,再存储至数据库中,即可得到结构化数据。仍然以《湖南省志·地理志》为例来说明,如第一章疆域文字部分最后一段的内容为:“全省90个县的面积,在5000平方公里以上的有1个县;5000平方公里以下4000平方公里以上的有4个县;4000平方公里以下3000平方公里以上的有11个县;3000平方公里以下2000平方公里以上的有39个县;2000平方公里以下1000平方公里以上的有34个县,1000平方公里以下的有1个县……”。通过观察,就可发现,文字部分每一句都在阐述行政区划的面积和数量,因此可提炼如下湖南县级行政区划面积大小数量统计表格。

     

    image.png 

    将该表格按行列存储至数据库,即可得到一组结构化数据。在第一种类型举例时提到的湖南人口历史记载,其数据也是散列在各历史文献中,通过参与编纂的人员整理后形成的表格,然后才可直接存储至数据库中得到结构化数据。虽然志鉴资料中有为数不少的表格,但是毕竟以叙述性文字内容为主,通过属性重复的文字内容的整理,就能有效扩大志鉴文本结构化数据的数据量。

    第三种可以转换为结构化数据的就是志鉴资料中,分散于各篇目或部类之间的具有联系的文本内容。例如湖南年鉴从1985卷开始,均刊载了政府工作报告,通过查阅各卷中的政府工作报告,得到1985年至1992年的全省国民生产总值GNP如下344.98亿元、392.64亿元、469.44亿元、584亿元、640.8亿元、703亿元、784亿元、900亿元得到19932018年的全省国内生产总值地区GDP如下:1192.41亿元、1694亿元、2640亿元、3000亿元、3211.4亿元、3407亿元、3692亿元、3983亿元、4340.9亿元、4634亿元、5612.3亿元、6500亿元、7493亿元、9145亿元、11000亿元、12930.7亿元、1.5万亿元、2万亿元、2.2万亿元、2.45万亿元、2.7万亿元、2.9万亿元、3.12万亿元、3.64万亿元、3.64万亿元均摘录原文字样,其中部分数据原文标注为预计数,2020卷中记录的2019年政府工作报告未提到具体生产总值。当然其中还存在其他年度性数据,不一一列举,将这些年度性数据全部整理后汇总并存入数据库,即可得到一组随年度变化的结构化数据。

    由结构化转变为智能化

    结构化的数据相比普通的数字化文本更加简洁明了,但数据的使用和分析仍然限定在单一结构化区域。如何实现结构化数据的跨区域联系,使得结构化数据发挥最大的价值目前现有的技术途径是人工智能AI,即采取机器学习的方式,根据人类对志鉴数据的比较、判读方法形成算法,使用机器对数据进行不断分析和挖掘、提取数据中有价值的信息,通过机器的运算结果反馈优化算法,使数据智能化。其标志就是机器自发对数据进行处理和加工,形成优质的分析结果。

    志鉴文本数据的一个重要特征就是具有较高广泛性,但是数据深度不足。这与地方志的编纂方式有关,地方志的编纂有“众手成志”的说法,数据资料来源于各类组织和社会各界,但是受限于地方志的篇幅,必然在每一个领域只能攫取最为紧要和概括性的数据。根据这一特点,实现志鉴文本数据的智能化最首要的方式就是对跨领域的数据进行比对和分析,并寻找其中的关联点。通过这些数据关联,为党委政府决策提供支撑,为各类研究人员提供全新的数据关联构造,方便研究人员能站在更高广度的基础上解读和分析所研究的领域。举个例子来说,国务院总理李克强任职辽宁省委书记时,喜欢通过耗电量、铁路货运量和贷款发放量三个指标分析当时辽宁省经济状况。因为GDP的统计较为复杂,存在干扰数据或统计不完全数据的可能性,而这三项数据统计相对较为简单,通过工业用电量新增、铁路货运量新增和银行中长期贷款新增与GDP增长量之间的线性关系,可以很好地评估GDP的统计准确性。这里就是通过工业用电量新增、铁路货运量新增和银行中长期贷款新增与GDP的增长速度之间,建立一个数据模型。就志鉴文本数据来说,可以通过计算机分析已实现结构化的数据的曲线,建立起多个这样的数据模型,实现志鉴文本数据的智能化。在记录这些数据模型后,可以更进一步分析模型和模型之间的关联程度,建立起一套全新的解释话语,为社会公众提供高质量服务。

    实现志鉴文本数据的智能化的第二种方式是引入数字人文技术。数字人文是近年来新兴起的概念,实际上,在人文领域引入计算机辅助研究已有很长的历史,数字人文是对这方面交叉关系的一个总概括,应用十分广泛,前文所阐述的建立结构化数据,实际也是数字人文的一个方面。要实现志鉴文本数据智能化,可以引入部分数字人文的分析方法,对数据进行分析利用。举例来说,可以通过抓取互联网的有关数据,建立链接关系,并和志鉴文本数据进行比对,打通志鉴文本数据和其他社会数据的联系,以实现志鉴文本数据的“远读”。

    四、三部曲之间的关系

    由纸质化提升为数字化,是地方志鉴文本信息化基础阶段,对应中国哲学“物”的概念,为后续的信息化准备好充足的材料。强调的是通过扫描和识别两道工序进行数字化加工,虽然会耗费一些人工,但是在志鉴文本信息化三部曲里面,仍然是较为简单和基础的步骤。

    由数字化整理为结构化,是地方志鉴文本信息化的发展阶段,对应中国哲学“器”的概念,通过基础阶段的材料,建立起不同的版块资源。强调的是通过人工建立起直观的数据联系,如果没有基础阶段实现志鉴数据的全文检索功能,那么发展阶段的结构化数据必然是不充分和不全面的。

    由结构化转变为智能化,是地方志鉴文本信息化的高级阶段,对应中国哲学“用”的概念,通过发展阶段的版块资源,拼合起丰富的宏观空间。强调的是人工和机器的深度结合,结构化数据越充分和全面,智能分析的结果就越精准和有效。需要注意的是,此处的智能并不意味着取代人工,人工智能有“越多人工、越多智能”的说法,要实现数据的整理利用,必须投入大量人工进行数据清洗和核验。

    概括来说,“物”“器”“用”三部曲的每一个阶段,是下一阶段的基础。“物”和“器”,都存在一定的“用”途,但是“器”的“用”途更加准确和方便。因此,三部曲之间不存在绝对的、不可动摇的步骤顺序,但是只有“物”的丰富,才有“器”的充盈,最后“用”才能广泛和有效。

    五、结语

    信息化是人类社会的先进生产力,将地方志与计算机技术、互联网技术深度融合起来,实现地方志鉴文本的信息化,既是地方志工作发展的当前阶段的必然要求,也是决定着地方志工作下一阶段的发展前景,过去因为诸多原因,地方志鉴文本的信息化整体水平仍停留在较浅的数字化层次。在地方志引入信息化技术的过程中,需要做好分阶段、分步骤的科学规划,在引入成熟的技术的基础上,对新技术进行分析和研判,确保地方志工作紧跟前沿科技的步伐,不断繁荣壮大新时代地方志事业。

    撰稿:任璀洛,湖南省地方志编纂院湖南省地方文献研究所

    参考文献

    1.沈松平,汪凤娟.新中国地方志信息化建设的历史回顾、存在问题及发展建议[J].中国地方志2021,(4):1826.

    2.游桃琴.数字化助推新时代地方志事业发展[J].新疆地方志2021,(01):2427.

    3.欧长生,程立雪.浅谈地方志的活态化应用[J].史志学刊2021,(01):4754.

    4.林秀玲.方志数字化实践与研究的现状评析[J].黑龙江史志2020,(03):1619.

    5.金雄波.以第三轮修志为契机加快地方志数字化建设步伐[J].新疆地方志2019,(04):4043.

    6.周能汉.新时代地方志信息化建设随想[J].新疆地方志2019,(02):1415.


  • 声明: 转载请注明来源于《内蒙古区情网》官方网站

版权所有:中共内蒙古自治区委党史和地方志研究室

蒙ICP备05003250号-3

蒙公安备案:15010502000173号

政府网站标识码:1500000032

技术支持: 内蒙古传星科技有限公司