中文无字幕一本码专区_泷泽萝拉无码精品AV在线_国内午夜无码不卡在线观看_国产在线观看免费观看不卡_久久伊人五月天论坛_粗大征服岳女双飞_午夜精品久久久久久久99热_久久综合亚洲色一区二区三区精品丝袜_精品久久国产综合婷婷五月_日韩精品在线观看免费,黄网站欧美内射,久久夜色精品国产噜噜亚洲SV,老汉色av影院

手機蘭州新聞網(wǎng)

首頁| 蘭州| 新聞| 政務(wù)| 房產(chǎn)| 旅游| 汽車| 教育| 財經(jīng)| 健康| 公益| 女性| 商業(yè)| 企業(yè)| 蘭州日報| 蘭州晚報| 全媒體矩陣

您的位置:網(wǎng)站首頁 > 文化> 正文

我省研究團(tuán)隊填補空白 首個簡牘字符檢測與識別大規(guī)模數(shù)據(jù)集正式發(fā)布

2025-03-27 10:06:42 智能朗讀:

3月26日,,記者從西北師范大學(xué)獲悉,,由該校聯(lián)合甘肅簡牘博物館推出的簡牘字符檢測與識別數(shù)據(jù)集——DeepJiandu數(shù)據(jù)集正式對外發(fā)布,。該數(shù)據(jù)集的發(fā)布填補了歷史文獻(xiàn)數(shù)字化與人工智能結(jié)合的空白,,標(biāo)志著簡牘智能化研究的重要進(jìn)展,不僅為簡牘整理與自動識別提供了重要支持,,也將進(jìn)一步推動數(shù)字人文領(lǐng)域的持續(xù)創(chuàng)新與發(fā)展,。

據(jù)介紹,,該數(shù)據(jù)集共包含7416張圖像,標(biāo)注了99852個字符,,涵蓋2242個類別,,能夠提供極具挑戰(zhàn)性的簡牘字符識別任務(wù)場景。數(shù)據(jù)集基于紅外圖像資料構(gòu)建,,顯著增強了墨跡清晰度,,為簡牘的數(shù)字化保護(hù)與學(xué)術(shù)研究提供了堅實的數(shù)據(jù)基礎(chǔ)。

簡牘(Jiandu)是中國古代記錄歷史信息的重要媒介,,其歷史可追溯至戰(zhàn)國,、秦、漢,、魏晉等時期,。然而,由于簡牘材料的脆弱性,,長期埋藏環(huán)境導(dǎo)致字符模糊,、字跡缺損、布局復(fù)雜等問題,,使得人工識別與整理極為困難?,F(xiàn)有的文獻(xiàn)數(shù)字化技術(shù)雖在甲骨文、蒙文手寫體,、巴厘島棕櫚葉手稿等領(lǐng)域取得突破,但在簡牘字符識別方面仍缺乏高質(zhì)量的數(shù)據(jù)集,,制約了深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用,。DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問題。

該數(shù)據(jù)集由簡牘學(xué)專家與計算機團(tuán)隊聯(lián)合標(biāo)注,,涵蓋2242種常用字符類別,,確保專業(yè)性與準(zhǔn)確性。其設(shè)計充分考慮了字符殘損,、異形字,、多種排布等復(fù)雜場景,有效提升了模型對歷史文獻(xiàn)的適應(yīng)能力,。

據(jù)了解,,研究團(tuán)隊依托已有紅外圖像資料,從1萬余件簡牘文物中篩選出7416張高質(zhì)量圖像,,覆蓋不同材料,、書寫風(fēng)格與字體特征,確保數(shù)據(jù)的代表性與多樣性,。所有圖像使用目標(biāo)檢測標(biāo)注工具(LabelImg)對99852個字符進(jìn)行了精細(xì)標(biāo)注,,包括字符位置與類別信息。整個過程在專家釋讀指導(dǎo)下完成,兼顧學(xué)術(shù)價值與機器可讀性,。

為確??茖W(xué)性,研究團(tuán)隊將數(shù)據(jù)集按比例劃分為訓(xùn)練集,、驗證集和測試集,,提升模型的泛化能力。數(shù)據(jù)集的字符類別統(tǒng)計顯示,,盡管字符尺寸差異較大,,但該數(shù)據(jù)集仍可為多尺度目標(biāo)檢測任務(wù)提供良好的支持。此外,,結(jié)合計算機視覺與歷史語言學(xué),,該數(shù)據(jù)集還將推動文博機構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護(hù)提供新的技術(shù)路徑,。

據(jù)悉,,隨著該數(shù)據(jù)集的推廣,研究團(tuán)隊預(yù)計將有更多深度學(xué)習(xí),、計算機視覺領(lǐng)域的研究者加入簡牘OCR研究,,并推動人工智能在歷史文獻(xiàn)解析、文化遺產(chǎn)保護(hù)等多學(xué)科交叉領(lǐng)域的應(yīng)用,。未來,,團(tuán)隊將繼續(xù)優(yōu)化數(shù)據(jù)集,并探索圖像融合,、文獻(xiàn)綴合,、書寫風(fēng)格分析、端到端識別等前沿技術(shù),,為數(shù)字人文研究提供更加全面的技術(shù)支持,。

據(jù)了解,該工作由西北師范大學(xué)簡牘研究院,、甘肅省簡牘智能計算與數(shù)字人文工程研究中心張強教授團(tuán)隊具體開展,,上海中西書局、甘肅文化出版社提供相關(guān)數(shù)據(jù)資源,,西南大學(xué)參與數(shù)據(jù)驗證實驗工作,,相關(guān)研究論文發(fā)表于國際期刊《Scientific Data》。

蘭州日報社全媒體記者 馬文艷

責(zé)任編輯:王旭偉

來源: 蘭州晚報

關(guān)閉