一項由中國科研人員自主開發(fā)的編碼技術,將使包括許多生僻字在內(nèi)的所有漢字都能通過計算機處理。利用這項四字節(jié)編碼核心技術,不僅可以解決古籍出版中的問題,還可以解決戶籍、銀行、海關、民航等行業(yè)遇到的姓名、地名生僻字問題。
這項技術由北京時代瀚堂科技有限公司自主開發(fā),可錄入、顯示、編輯、檢索、查詢和管理71500多個漢字,而傳統(tǒng)的二字節(jié)編碼技術只能處理27500多個漢字。
過去,《說文解字》等傳統(tǒng)文化典籍,只能依靠影印出版,不僅費時費力,而且不符合現(xiàn)代人的閱讀習慣。古籍研究者在遇到生僻字與計算機有機結合時,叫苦連天,因為這不僅意味著工作量大大增加,還可能造成工作漏洞。如今,采用四字節(jié)編碼技術,用計算機錄入和處理方式出版的《說文解字》,極大地方便了出版者和讀者。
基于四字節(jié)編碼技術,北京時代瀚堂科技有限公司開發(fā)了“龍語瀚堂”典籍數(shù)據(jù)庫,包括字書類數(shù)據(jù)庫、殷周金文庫、音韻庫、中國簡帛庫、甲骨文庫等13類子庫的數(shù)百萬條數(shù)據(jù)記錄。應用這一數(shù)據(jù)庫,社會科學文獻出版社已出版了我國最早的字書《說文解字》,雙方還將繼續(xù)合作出版《康熙字典》。目前,“龍語瀚堂”典籍數(shù)據(jù)庫已在清華、北大等百余所大學的中文系、歷史系、考古系以及國內(nèi)外一些漢學研究機構廣泛試用。
(來源:人民日報;作者:武衛(wèi)政、譚 超)