阿里达摩院发布古籍数字化平台 AI识别古籍准确率97.5%
5月18日,“汉典重光”海外古籍数字化回归发布会在中国科技馆举行。“汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化。
加州大学伯克利分校是美国的汉学研究重镇,中文藏书量排名全美第三。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。
伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。据悉,达摩院AI对20万页古籍的识别准确率达到97.5%。此外,达摩院技术团队还与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统。
“汉典重光”首批数字化古籍重要书目一览:1、周易兼义九卷(魏)王弼(晋)韩康伯注(唐)孔颖达疏 元刻本 2、易附记十六卷[存卷一至十一]书附记十四卷诗附记十卷[存卷一至七]礼记附记囗卷[存卷四至六]春秋附记[缺卷七、九](清)翁方纲撰 稿本,嘉业堂藏书 3、五代史阙文一卷(宋)王禹偁撰 清乾隆南昌彭氏知圣道斋抄本,清彭元瑞跋,嘉业堂藏书 4、瀛壖杂志一卷(清)王韬撰 稿本 清魏彦、左桂、孙瀜、赵烈文题记 5、金石古文八卷(题)双华山人乔辑 清周亮工抄本 清吴骞跋 6、居业录八卷[存卷三至四](明)胡居仁撰 清乾隆文澜阁四库全书本,嘉业堂藏书 7、学思录一卷(封面题东塾存稿)(清)陈澧撰 稿本 8、丙丁龟鉴十卷(宋)柴望撰 天一阁抄本 9、新刊履斋示儿编二十三卷(宋)孙奕撰 明抄本,天一阁、嘉业堂递藏 10、蓬轩类记四卷(明)黄暐撰 明抄本 柯逢时校,汪氏振绮堂、刘氏嘉业堂递藏 11、大般若波罗蜜多经[存卷第二百五十四] 北宋写金栗山广惠禅院大藏本 12、苏文忠公文集[存一叶](宋)苏轼撰 宋四川眉山刻本 13、淮海集四十卷淮海后集六卷(宋)秦观撰 宋乾道九年高邮军学刻宋元明递修本,嘉业堂藏书 14、傅忠肃公文集三卷(宋)傅察撰 清初经鉏堂抄本,曹溶旧藏 15、鹤山先生大全文集一百十卷目录二卷[存卷一至九、九六、九十九至一百零三、一百九十](宋)魏了翁撰 民国蒋汝藻影宋抄本,密韵楼藏书 16、後村居士集五十卷目录二卷[卷四十六至五十缪荃孙抄配](宋)刘克庄撰 宋刻本,嘉业堂藏书 17、林子真诗一卷(明)林光宇撰 明曹学佺辑 明崇祯韩锡抄本 18、茗柯文编囗编囗卷[存初编一卷三编一卷四编一卷未编稿一卷](清)张惠言撰 稿本 清范当世、近人叶恭绰跋,嘉业堂藏书 19、宋百家诗存四十卷[存卷七](清)曹廷栋辑 清文澜阁四库全书本 20、西清诗话三卷(题)无为子撰 明抄本,嘉业堂藏书 21、拜经楼诗话续编二卷(清)吴骞撰 稿本,嘉业堂藏书 22、玉茗新词四种(明)汤显祖撰 明万历四十六年雕虫馆刻本
