免费开放，字节跳动与北京大学合作研发的数字化平台“识典古籍”测试版上线

大千世界 2022年10月12日 14:32 141 0

　　IT之家 10 月 12 日消息，据字节跳动宣布，字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版上线。目前，平台已上线 390 部经典古籍，共计 3000 多万字，向公众免费开放。未来三年，“识典古籍”将陆续完成一万种古籍的智能化整理工作，基本覆盖儒家、道家和佛家的核心书目。

　　“识典古籍”测试版网站首页，https://www.shidianguji.com/

　　据不完全统计，中国现存古籍约 20 万种，其中已经完成数字化影像扫描的有 8 万种，而实现文本数字化的仅 3-4 万种。

　　为了方便大家在古籍“图书馆”里检索、阅读，“识典古籍”平台主要采用三项人工智能技术：

　　一、文字识别，也就是用 OCR(光学字符识别)技术将古籍影印版图像识别成文字。目前行业内 OCR 的识别准确率平均为 93% 至 94%，而“识典古籍”将这个数字提高到 96% 至 97%。

　　二、自动标点，指通过算法，给原本缺少断句的古籍自动打上标点符号。举个例子，《论语》开篇“学而时习之不亦说乎”，自动标点后的结果是“学而时习之，不亦说乎?”

　　三、命名实体识别，即识别古籍中的“专有名词”，包括人名、地名、书籍、时间、官职五大类型。

　　字节跳动称，与同类型平台相比，“识典古籍”访问比较稳定，速度快。繁简体转换和主题词检索功能，便于高效获取内容。平台还提供了权威来源的影印版底本，与数字化文本内容互相对照。另外，一年多来，字节跳动资助国家图书馆定向修复珍贵古籍 104 册件，现已完成 50 余册件，包括一批稀有的样式雷图档。

　　IT之家获悉，未来，“识典古籍”还将实现全自动整理校对，并免费开放这项能力，促进存量古籍数字化。平台还将向全社会开放古籍阅读检索研究能力，同时鼓励拥有文献的学者自行上传文献，用户还能参与再创作和再阐释。

本文地址： https://www.dqsj.net/keji/88714.html

文章来源： IT之家