您当前的位置: 商界网 > 国内 > 智能语义搜索系统上线,联著助力档案行业数字化生长

智能语义搜索系统上线,联著助力档案行业数字化生长

发布日期:2021-06-09

红色档案是赓续红色血脉的生动教材,追寻档案里的红色记忆是档案工作者的重要职责和神圣使命。近日,某档案馆接到有关单位咨询,希望查找辖区内“某小学向伟人纪念堂敬献雨花石”这一事件的相关档案。如果放在以往,档案馆的工作人员恐怕要犯难——原有检索系统是通过全宗号、文件题名、档号等字段检索的,如果上述具体信息都缺少,查询者光模糊知道事件概况,恐怕无法准确检索出相关内容。

或许乍闻之下难以理解——按平时用互联网搜索引擎的经验,只要知道事件的几个模糊关键词,比如“伟人”“雨花石”,多少可以搜索出一些关联结果。我们日常早已用习惯的各大网络搜索引擎,之所以能做到模糊检索,建立在庞大研发团队和技术支撑的双重投入基础上,作为使用者的我们,其实是“站在了巨人的肩膀上”。然而,利用关键词搜索的档案检索系统却做不到那么“高级”。打个比方,即使我们找寻的目标档案题名里含有“伟人”和“雨花石”原词,在利用关键词搜索的档案检索系统里输入“伟人 雨花石”,也很难搜出该档案。

之所以会出现这个结果,简而言之,是因为计算机系统和人脑处理信息的方式并不一样。当我们看到“伟人 雨花石”时,基于多年受教育经历和生活经验,大脑判断这是5个字、2个词,即“‘伟人’和‘雨花石’”。但是同样“伟人 雨花石”被输入系统检索框后,在计算机“看来”,这是6个字符,即“伟”“人”“(空格)”“雨”“花”“石”。至于什么是“词”,它并“不懂”。除非我们要寻找的档案题名里一字不差地含有“伟人(空格)雨花石”,即使题名是“向伟人纪念堂敬献雨花石”也极难找到。一个字都不能多、不能少,如果包含符号,那半角全角必须一模一样……关键词检索就是这么“较真”和“呆板”,如果查档者没有精确掌握全宗号、文件题名、档号,很可能一无所获。

今年,“反转”来了,为了更好、更快、更便捷服务民众的查档需求,不断提升档案服务信息化水平,该档案馆和国家高新技术企业联著实业建立合作,开始试用基于人工智能语义分析的档案智能语义搜索服务系统。利用这个系统,机器做起档案检索就仿佛装上了“大脑”和“眼睛”。

在档案智能语义搜索服务系统中输入“伟人”“雨花石”,通过语义技术的加持,新系统能“看懂”这是2个有意义的词,而不是一堆毫无意义的字符。尤其值得一提的是,与原系统只能检索题名不同,新系统支持全文检索,哪怕题名里不含“伟人”“雨花石”,只要全文里出现过,就能找到。于是,毫无意外地,新系统瞬间就在搜索结果第一的位置准确显示出题名为《雨花石献给纪念堂》的目标档案。

该档案来源于1977年的地区简报,详细叙述了某小学向伟人纪念堂敬献雨花石并被《光明日报》报道的事迹。该份馆藏档案的检出,不仅满足了有关单位的检索需求,提供红色史料信息,同时也弥补了某小学无此档案的空缺。

此外,在不确定归档时间的前提下,新系统还可通过模糊线索全库匹配定位目标文件,输入档案所属单位名称,就能迅速找到所有涉及该单位的文件。例如,利用新系统的快速搜索,该档案馆帮助某集团准确查询到下属四家子公司成立、改制的目标文件,极大地提升了查档命中率和准确率。

不仅如此,由于该馆现存近现代档案资源丰富,不少老档案原件出自手写,涵盖楷书、草书、行书等多种字体。试水新系统后,利用自主研发的OCR技术,机器全文检索时可识别包含潦草笔迹在内的各类软硬笔手写体,如同“人眼”一般工作,破解手写档案开发利用难题,提升识别率和精准度。

通过档案智能语义搜索服务系统的试运营,该档案馆档案服务信息化能力进一步升级,来馆查档群众获得感更强,充分发挥了档案资源服务民生、服务社会的积极作用。