焦点关注:“识典古籍”平台测试版上线,390部古籍线上“活”起来

来源:腾讯网 时间:2022-10-11 20:05:20


【资料图】

北京日报客户端 | 记者 赵语涵

10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

识典古籍平台负责人做介绍

据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。

当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。

识典古籍网页

据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。

未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。

一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件。在活化方面,抖音平台推出“寻找古籍守护人”计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。

X 关闭

前沿热点:山东南部49县(区市)出现降雨 鲁中、半岛局地仍有暴雨

齐鲁网·闪电新闻6月25日讯,25日,山东南部出现降雨,费县、滕州等地

2023-06-26

全球快讯:请牢记!自6月29日起,今年山东高考共有7次志愿填报时间

高考成绩公布后,对于考生最重要的事情就是志愿填报。首先要牢记志愿填

2023-06-26

山东今年高考分数线划定,30.8万余考生上了一段线

山东高考特招线520一段线4436月25日下午,省教育厅举行普通高考新闻发

2023-06-26

重磅!山东高考一分一段表来了|环球速看料

6月25日,山东省招考院发布山东2023高考成绩一分一段表。详情如下:来

2023-06-26

山东3市最新人事任免

潍坊市潍坊市人民代表大会常务委员会公告(第25号)昌乐县人民代表大会

2023-06-26

全球今亮点!数字山东的硬核实力,都在这个展览里了!

世界互联网大会数字文明尼山对话于6月25日至27日在山东济宁曲阜举办。

2023-06-26

世界首次!山东硬核科技“济南一号”“亮相”尼山对话-世界要闻

世界互联网大会数字文明尼山对话于6月25日至27日在山东济宁曲阜举办。

2023-06-26

人行南宁中支:推动高质量发展调查研究工作落地落实|新视野

近日,人民银行南宁中支党委及时部署各级领导干部认真学习领会自治区党

2023-06-26

北京地区多家银行下调房贷利率 “政策礼包”惠及“购房一族” 世界热讯

“房贷利率已经降了。”6月21日,《金融时报》记者在致电建设银行北京

2023-06-26

李云泽会见淡马锡董事长林文兴-焦点报道

近日,国家金融监督管理总局党委书记、局长李云泽会见淡马锡董事长林文

2023-06-26

联系方式:291 32 36@qq.com

Copyright © 1998-2015 by 微圈汇游戏网版权 所有 京ICP备12018864号-8

营业执照公示信息