簡介

「漢字古今字資料庫」的前身即為「漢字構形資料庫」。漢字構形資料庫的研發,最早可追溯到1972年交通大學所開發的字根系統;1996年,中央研究院資訊科學研究所謝清俊研究員擬採用漢字構形的原理來解決電子古籍的缺字問題,於是參考交大字根系統,建立漢字構形資料庫。

漢字構形資料庫除了做構字的表達與識別外,還做了兩件事:一是古今字形與古今構字的銜接和對應,二是異體字形的表達和處理。2002年起,在北京師範大學王寧教授、中央研究院歷史語言研究所陳昭容、袁國華、李宗焜等研究人員的協助下,漢字構形資料庫陸續增收小篆、金文、楚系簡帛文字及甲骨文;截至2012年底,漢字構形資料庫收錄的古今文字已超過十八萬個。

然而,漢字構形資料庫在應用方面,仍有兩件事亟待解決:一、漢字有形、音、義三要素,漢字構形資料庫只著重在字形知識的整理,尚未涉及字音與字義;建立一個形、音、義俱備的漢字知識庫,才是我們長遠的目標。二、漢字構形資料庫雖可透過網際網路免費下載,但也只能安裝到正體中文版的個人電腦;能讓正體、簡體中文、日文、韓文等不同語系的使用者也可透過網際網路直接查詢,才能造福更多的使用者。

2009年,上述兩件事出現了解決契機。當時,臺灣大學中國文學系楊秀芳教授研發的「漢字古今音資料庫」擬改版提供線上查詢,中央研究院資訊科學研究所莊德明研究助技師獲邀加入研發團隊,協助修改系統,重整資料庫架構,並參與資料維護等相關工作。2011年9月,漢字古今音資料庫正式開放供各界使用,這是漢字聲韻資料庫和構形資料庫的首度結合,不但為開發漢字構形資料庫的線上查詢有所依循,也為漢字知識庫的建立跨出了一大步。

漢字構形資料庫自2005年起獲得國科會「數位典藏與數位學習國家型科技計畫」的補助,2012年底,數典計畫總結歷年努力成果,已圓滿劃下句點。這八年來,漢字構形資料庫增收的古今文字約十一萬字,並將在數典計畫結束後,開始提供線上查詢;由於可用於查詢的文字知識已不僅限於構形,因此仿漢字古今音資料庫,將此線上查詢系統取名為漢字古今字資料庫。同時,我們也整合漢字古今音資料庫及漢字古今字資料庫,合稱「小學堂文字學資料庫」。

漢字古今字資料庫由甲骨文、金文、楚系簡帛文字、小篆及異體字表資料庫組成,這些資料庫可獨立進行字頭的簡易查詢,也可透過漢字古今字資料庫進行字頭的進階查詢。使用者可選取進階查詢所列的字頭,以連結至個別的資料庫。另外,小學堂文字學資料庫也是透過漢字古今字資料庫進行字頭的進階查詢。