(央视(shì)财(cái)经《天下财(cái)经》)在日本,古代文献(xiàn)大量使用了草书和行书(shū)这样的(de)手写体来(lái)书(shū)写日语假名和汉字(zì),要看懂不容(róng)易。而AI技术,也就是(shì)人工智(zhì)能系统的开发能够帮助人们快(kuài)速识读(dú)。
包括手抄本和印刷本(běn)在内,日本流传至今的古代手写体文献据估算达到数(shù)亿件,但由于能够(gòu)看懂手写体的专业人(rén)才极为有限,所以(yǐ)导致大量史料尚未完成识读整理工作。最近,日本信息系统研究机构的一个研究小组开(kāi)发了一套人工智能(néng)系(xì)统,通过事先学(xué)习(xí)已由专家整理完成的44部文献,共计100万字(zì)的手写体(tǐ)写法,目前该(gāi)系统已基本实现了准确高(gāo)效地识读古代文献。
财经频道特约记(jì)者王翔:我们已经把日本古典文学名著《源氏物(wù)语》扫描进了电脑,只需(xū)要按一下按钮,马上就(jiù)会在屏幕上看到(dào)人工智能解读的结(jié)果。像这样一页(yè)手写体文献,如果由人来完成的话(huà),即便是最熟(shú)练的(de)专家也需要10分钟以上,不过人工智能只花了不到3秒钟时间。
该研究小(xiǎo)组(zǔ)共有3名成员,其中(zhōng)一名是来自泰国的塔(tǎ)琳 卡努瓦。11年(nián)前,塔琳来东京留学(xué)攻读日本古典文学,经常(cháng)需要阅读原始文献。连日本学生都难以辨识的古代手写(xiě)体(tǐ)文字(zì),对一(yī)名来自汉字文化圈以外的留学生来说,无异于天书。这样(yàng)的经历促使塔琳一同加入了这个研(yán)究小组,用半年(nián)时间(jiān)开(kāi)发(fā)了这套(tào)能够自动识别手写体文献的人工智能(néng)系统。
日本信息(xī)系统研究机(jī)构研究员塔琳 卡努瓦:这(zhè)套系统(tǒng)基本覆盖了常(cháng)用(yòng)汉(hàn)字,可以给日本文(wén)学研(yán)究者提(tí)供方便。
据研究小组负责人介绍,这套系(xì)统识别手写体文字(zì)的准确率(lǜ)已经达到90%以上,研(yán)究小组今后将(jiāng)继续扩(kuò)大供人工智能系统用于(yú)学习的数(shù)据库范围,并改进程(chéng)序(xù)算法(fǎ),来进一步(bù)提(tí)高系统识别文字的准确率(lǜ)。
日(rì)本信息系统研究机构项目(mù)负(fù)责人北(běi)本朝(cháo)展(zhǎn):这(zhè)套系统也(yě)适用于汉(hàn)语文献,部分文字的手写(xiě)体样本(běn)太少,增加样本数量(liàng)是今后改(gǎi)善的重点(diǎn)。