http://user.chollian.net/~toaya/
 
高麗大藏經 電算化에 있어서의 異體字 處理 問題
연세대학교 중문학과 교수 李 圭甲

현재 기술상 문제로 대조할 이체자는 실을 수 없음을 양해드립니다.)

1. 異體字의 槪念

文字學的인 측면에서의 異體字란 本字와 字音과 字意는 같지만 字形이 다른 글자를 지 칭한다. 그런데 異體字는 字意와 字音이 本字와 같기 때문에 실제 글자를 쓸 때 어느 것을 사용해도 전혀 상관이 없다. 그런데 本字와 異體字 중에는 현재 本字보다 異體字가 사실상 더 많이 통용되는 경우도 상당수가 있어(棅과 柄) 우리가 통상적으로 말하는 正字 와 本字가 일치된다고 볼 수 없다. 이에 따라 異體字의 개념이 正字의 상대 개념으로 볼 수도 없다.

大藏經 電算化에 있어서 異體字의 의미는 위와는 약간 다르다. 大藏經 電算化에 있어서 正字의 기준은 康熙字典에 수록된 正字의 字形으로 하며, 康熙字典에 수록된 正字와 다 른 것은 모두 異體字로 본다. 또 康熙字典에서 略字, 簡字, 俗字, 奇字, 古字, 別字 등 異體 字로 간주되는 용어로서 그것이 異體字임을 설명한 글자도 異體字라 한다.

2. 異體字 處理의 意義

우리가 古籍을 접할 때 가장 어려운 문제 중의 하나가 異體字로 쓰여진 것의 本字가 무 엇인지를 쉽게 파악하지 못한다는 점이다. 물론 자주 사용되는 異體字의 경우는 그것이 異體字인지 本字인지 조차 파악할 수 없는 정도로 자연스럽게 사용되는 것도 있다예 線. 本字는 ). 그러나 자주 쓰이지 않는 글자는 그것의 本字가 무엇인지를 알기 위해서는 字典 을 이용해야 하는데 異體字의 사례가 너무 다양해 字典에 수록되지 않은 것도 많으며, 심지어는 異體字만을 모아 놓은 字典이 따로 만들어지기도 하였다. 그런데 대장경의 전산 화 과정에서 이렇게 복잡한 異體字를 지금 우리가 사용하는 正字로 바꾸지 않고 그대로 입 력한다면 글자 정보가 추가될 수 밖에 없어 데이터 베이스를 구축하는데 좀 더 많은 어 려움이 뒤따르게 될 것이다. 이를 해결하기 위한 수많은 노력이 다시 필요하게 될 것이다. 그럼에도 불구하고 만일 이러한 어려운 점을 극복할 수만 있다면 어떠한 異體字의 字形만 알아도 우리가 필요한 정보를 보다 쉽고도 다양하게 검색할 수가 있을 것이다. 예컨대 한 글자의 異體字로도 그것의 本字를 포함한 정보를 합쳐서 검색할 수 있고, 또 그 異體字만 의 정보도 따로 얻을 수가 있을 것이다. 현재 우리는 막연히 高麗大藏經이 완전하고 誤 字나 脫字가 전혀 없는 것으로만 인식하고 있는데 사실은 그렇지 못하다. 이제까지의 조 사만으로도 誤字나 脫字는 적지 않게 발견되었으며, 이러한 사실은 우리가 高麗大藏經에 대한 보다 정확하고 새로운 인식을 위해서는 반드시 짚고 넘어가야 할 문제이다. 이를 위해 서 실질적으로는 거의 불가능할 수도 있지만 만일 破字까지도 字形 그대로 입력한다면 그 것들에 대한 통계처리가 가능하여 高麗大藏經에 대한 실질적이고도 새로운 연구를 위해 상 당한 도움을 줄 수가 있을 것이다. 異體字를 그대로 입력할 경우 전산화 후의 사용에 큰 불편을 일으켜 전산화의 가치를 크게 절감시킬 것으로 염려될 수도 있지만 이는 데이터 베 이스가 완벽히 구축된다면 전혀 문제가 될 수 없으며, 오히려 다양한 정보와 통계의 획득 을 가능케 할 것이다. 이와 같은 점들을 고려하여 異體字나 破字 등을 가능한 한 그대로 입력했을 경우에 우리가 얻을 수 있는 잇점을 요약하면 다음과 같다. 다양한 통계가 가능 하다. 正字로만 통계를 낼 수도 있고, 異體字만의 통계도 가능하며, 正字와 異體字를 포 함한 통계도 가능하다. 통계가 가능하면 이것을 통해 얻을 수 있는 것이 매우 많아질 것은 자명한 사실이다. 더 나아가 破字도 그대로 입력할 수만 있다면 현재의 破字 수와 종류 도 식별이 가능해진다. 통계가 가능하면 현 단계에 있어서의 原本의 상태를 가장 쉽고도 종합적으로 분석할 수 있다. 당시의 서체를 연구하는데 도움을 줄 수 있다. 大藏經의 字形 은 지금의 楷書體와 완전 일치하는 것은 아니고 筆法이 약간 다른 것도 있는 등, 당시의 書體를 대표하는 것이기 때문에 다양한 통계를 통한 서체의 정확한 연구가 가능하다. 당시의 字形 구조를 연구하는데 도움을 줄 수 있다. 字形의 구조는 시대에 따라 장소에 따라 약간씩 변화의 과정을 거친다. 그런데 현재까지의 초보적인 조사에 의하면 大藏 經의 字形 구조는 현재 우리가 사용하는 구조와 완전 일치하지 않는 것이 적지 않다. 그러 므로 電算化를 통해 이를 연구하면 보다 편리하고 정확한 결론을 얻을 수 있다. 당시에 異 體字와 本字를 섞어 쓴 이유를 아직 확실히 알 수가 없지만 그것이 무엇인지를 후인들이 연구하는데 도움을 줄 수 있다.

3. 異體字의 範圍

異體字의 범위를 정하는 것은 그리 쉬운 일이 아니다. 왜냐면 字形이 正字와 다른 경우 가 실로 엄청나며, 또 드러나는 양상이 매우 다양하기 때문이다. 高麗大藏經에 쓰여진 異體 字도 마찬가지여서 몇가지의 규정만을 가지고 異體字를 적용시킨다는 것은 상당히 어렵 다. 왜냐면 異體字의 개념을 文字學的인 관점에서 본 것이 아니라 大藏經 原本의 재현을 위 한 관점에서 異體字의 개념을 설정했기 때문이다. 위와 같은 난점이 있기 때문에 범위의 설정을 위해서는 어느 한 사람이나 한 분야의 사람이 결론을 내린다는 매우 위험할 수 있 으며, 또한 보다 훌륭한 결과를 얻기도 힘들다. 그래서 高麗大藏經의 異體字를 처리하기 위한 위원회를 구성하고, 여기에서 많은 연구와 토론을 거쳐 그 범위를 결정하였다. 위원회 는 대학에서 문자학 전공하는 교수 2인, 중국성운학 전공교수 1인, 서예전문가 1인 등 총 4인으로 구성되었는데, 이들의 토론 과정과 그에 따른 결론을 얻는 과정에서 추구한 정신 은 高麗大藏經의 電算化에 있어서의 입력과 검색, 교정 등 모든 면에서 편리하게 하는 것은 물론, 완성된 후의 電子大藏經이 모든 면에서 최대한의 가치가 있도록 한다는 것이었 다. 異體字의 범위를 결정하는 과정을 다음에 약술하기로 한다. 전산화를 위한 異體字의 범위를 결정해가는 과정은, 처음에 단 한번으로 결정한 것이 아니라 교정요원들에 의해 지속적으로 검색되는 大藏經의 字形을 근거로, 일정 기간을 두고 그때까지 얻어진 데이터 를 연구하여 결정하였다. 아울러 후에 새로운 데이터가 수집되면 이를 다시 연구하여 수 정을 계속하는 과정을 되풀이 하였다. 현재까지 얻어진 데이터는 高麗大藏經 原文 약 100 만자를 대상으로 검색된 것이기 때문에 차후에 수정될 가능성은 이제까지의 수정 폭보다

그리 크다고 볼 수는 없다. 처음의 회의에서는 異體字의 개념 설정과 그에 따른 범위 문 제를 놓고 토론하였다. 이체자의 개념 설정은 위에서 이미 언급이 되었기 때문에 부연하지 않는다. 범위를 어떻게 한계지을 것인가에 대해서는 판본 글자의 다양한 필법과 破字들이 많아 모든 경우를 수용할 수 있는 적당한 규정을 만들기가 쉽지않았다. 상당한 진통을 거 친 끝에 내린 결론은 다음과 같다. 正字와 비교할 때 筆劃의 加減이 있는 字形. 예) 无

字形構造上 위치가 변동된 것. 예) 口字가 左에 있나 右에 있는 차이등. 劃形이 다른 것은 異體字로 보지 않는다.(예: 木, 和) 단 한 글자의 일부분이 단독으로도 쓰일 때, 단독으로 쓰일 수 있는 그 형태가 康熙字典의 字形과 다를 경우 이를 異體字로 보지 않는다. 예) 切, 參, 이와 같이 결정하였지만 이는 초보적인 단계의 결론이며 최종적인 결론은 좀더 많은 자료를 검토하고 새로 검색되는 데이터를 이용해 위의 규정을 계속 수정해 나가기로 했 다. 두번째 회의에서는 좀더 많은 자료를 가지고 검토한 결과 위의 내용은 상당히 부족 함을 느꼈고 이에 따라 그때까지의 데이터를 가지고 다시 연구하여 다음과 같이 대폭 수 정하였다. 필획의 가감이 있는 경우. 필획의 가감이 없는 경우. 글자 내부의 일부 字形 構造가 다른 경우. 예) 緣, 數. 字形 構造上 上下左右內外 등의 위치가 바뀐 경우. 예) 就.

劃形이 다른 경우는 異體字로 보지 않으나 다음의 경우는 異體字로 간주한다. 글자의 일 부분이 단독으로도 쓰이는 경우, 단독으로 쓰일 수 있는 그 형태가 康熙字典의 字形과 다 른 경우. 예) 切, 修, 本. 劃形의 차이로 인하여 단독으로 쓰일 수 있는 부분이 다른 글자 가 될 경우. 예) 歲. 두 획이 교차하는 경우, 교차획의 돌출 여부가 康熙字典과 다른 경우. 예) 降, 稱. 이와 같이 정한 후 이를 근거로 다시 새로운 데이터에 적용시켜가면서 위의 규정을 수정 보완할 것이 없는가를 살폈고, 일정량의 데이터에서는 커다란 문제점이 발견 되지 않았다. 그러나 기간이 얼마 지난 후에 추가로 검색된 새로운 데이터에 이를 대비한 결과 약간의 문제점이 발견되었다. 그 중 가장 커다란 문제점은 "글자의 일부분이 단독 으로도 쓰이는 경우, 단독으로 쓰일 수 있는 그 형태가 康熙字典의 字形과 다를 경우"와 "두획이 교차하는 경우, 교차획의 돌출여부가 康熙字典의 字形과 다른 경우"의 조항이었 다. 이들에 대해 일부 위원이 "두획이 교차하는 경우, 교차획의 돌출여부가 康熙字典의 字 形과 다른 경우"는 지난 번과는 달리 이체자로 보지않는 것이 좋다는 의견을 제시했다. 그 논거로서 字形의 필획이나 구조가 바뀐 것도 아니며, 아울러 字形이 극히 일부만이 변 한 것인데 이를 異體字로 본다면 異體字의 수량이 너무 많아진다는 것이었다. 이에 대한 토론 결과, 위 의견을 모두 따르기로 했으며, 이에 따라 第, 世, 淨, 讀, 事, 喜, 善, 地字 등의 字形 대부분이 正字로 간주되었다. 아울러 다른 조항들에 대한 것도 모두 文句를 수정하였다. 즉 "劃形이 다른 경우는 異體字로 보지 않으나"를 "劃形만 다르거나, 필획의 위치는 같으면서 曲直, 傾斜度, 傾斜 方向만 다른 것은 異體字로 보지 않는다."로 바꾸어 四, 修, 甚, 經, 化, 堂, 當, 尙字 등의 字形 대부분도 모두 正字로 간주되었다. 또 原版의 字 形이 마멸되어 字形의 변화가 생긴 경우에 대한 조항을 추가하여, 이 경우는 異體字로 보 지 않기로 결정하였다. 이를 정리하면 다음과 같다. 필획의 加減이 있는 경우. 예) 蜜, 收, 含, 微, 發字 등. 필획의 加減이 없는 경우. 字形의 內部構造가 다른 경우. 예) 壽, 數, 綠字 등.

字形構造上 上下左右內外 등의 위치가 바뀐 경우. 예) 就字. 劃形만 다르거나, 筆劃의 위치는 같으면서 曲直, 傾斜度, 傾斜 方向만 다른 것은 異體字로 보지 않는다. 단 다음의 경우는 異體字로 간주한다. 글자의 일부분이 단독으로도 한 글자를 이루는 경우, 단독으 로 이루는 그 글자의 형태가 康熙字典의 字形과 다르거나 上下左右가 연결되어야 할 글자가 분리된 글자. 예) 捨, 往, 臥, 間, 滿, 暮字 등. 한 劃形만 다르더라도 그 劃形의 차이로 인 하여 단독으로 쓰일 수 있는 부분이 다른 글자가 될 경우. 예) 歲字. 두 劃이 交叉 혹은 相接하는 경우, 交叉 혹은 相接하는 劃의 돌출 여부가 康熙字典의 字形과 다른 경우는 異 體字로 보지 않는다. 예) 忍, 稱, 角, 典, 降, 衆字 등. 原版의 字形이 마멸되어 字形의 변 화가 일어남으로 인해 正字와 다른 형태를 취하게 된 경우는 異體字로 보지 않는다. 예) 法. 그러나 이러한 결론을 내린 후에도 모두 이 규정이 高麗大藏經의 電算化를 위한 진정 한 異體字의 범위가 된다고 생각하지는 않았다. 그래서 각자 상당 기간을 두고 다시 연구 한 후에 이에 대한 토론을 다시 했다. 여기서 한 위원이 "原版의 字形이 마모되어 字形 에 변화가 생긴 경우는 異體字로 보지 않는다"라는 조항에 대해 異議를 제기하였다. 즉 字形上 筆劃數가 달라졌을 때 原版이 마모된 것인지의 여부를 일일이 확인할 방법이 없고, 또 異體字란 結果論을 중시하는 것이기 때문에 筆劃數가 다른 것은 그 動機야 어쨌든 모 두 異體字로 간주해야 한다는 것이었다. 이에 대해 토론한 결과 모두들 나름대로 一理가 있다고 여겨 그 조항을 삭제하기로 하였다. 아울러 異體字 범위에 대한 전체적인 條項의 구도를 바꾸어 첫째와 둘째 조항은 異體字를 필획의 가감이 있는 경우와 없는 경우로 나누 어 설명하고, 세번째 조항은 異體字로 보지 않는 경우를 설명하는 형식으로 바꾸었다. 또 交叉劃 등의 돌출 여부가 다르더라도 異體字로 보지 않기로 한 조항에 있어서, 한 글자 내 에 위와 같은 돌출 여부가 두군데나 다른 글자는 異體字로 보아야 한다는 의견이 있었 으며, 이도 역시 긍정적으로 검토되어 이들을 종합하여 다음과 같은 결론을 얻었다. 필획 의 가감이 있는 경우. 필획의 가감이 없는 경우. 문자 구성 성분이 다른 경우. 문자 구성 성분은 같으나 전후, 상하, 좌우, 내외등의 위치가 다른 경우. 다음과 같은 경우는 異體字 로 보지 않는다. 劃形(傾斜度, 傾斜方向, 曲直, 長短, 삐침)이 다른 글자는 異體字로 보지 않는다. 두 획이 交叉 혹은 相接하는 경우에 交叉劃 혹은 相接劃의 突出與否가 다르더라도 異體字로 보지 않는다. 단 (3)-1,(3)-2의 경우라도 한 글자내에 (3)항에 속한 조건이 두번 이상 동시에 출현할 때는 異體字로 본다.

4. 高麗大藏經 異體字의 類型

高麗大藏經에 출현되는 異體字를 유형별로 살펴 보면 다음과 같다.

(1). 필획의 가감이 있는 경우.

覺 = | 竭 = | 決= | 棄= | 擔= |

流 = | 離 = | 垂= | 說= | 熱= |

際 = | 足= | 最= | 辦=

(2). 필획의 가감이 없는 경우.

1) 문자 구성 성분이 다른 경우.

剛= | , 數= | ,器= | ,吳= | ,靜= |

2) 문자 구성 성분은 같으나 전후, 상하, 좌우, 내외등의 위치가 다른 경우.

節= | ,就= |, 胸= |, 懈= |

3) 단 (2)-1,(2)-2의 경우라도 한 글자내에 (3)항에 속한 조건이 두번 이상 동시에 출현할 때는 異體字로 본다.

藉= |, 養= |, 變= |

5. 結語

위에서 살펴 본 바와 같이 異體字의 처리 문제는 漢籍의 電算化에 있어서 가장 어려운 것 중의 하나이다.

이것을 중요시 하지 않고 단순히 모든 異體字를 正字로 처리한다면 사실상 電算化는 한결 쉬워질 것이다. 그러나 만일 모든 것을 원래의 모습에 최대한 가깝게 처리하여 그 결과가 가장 의의있는 성과물이 되려한다면 異體字의 매끄러운 처리는 필수적일 것이다. 이제까 지 이를 위한 작업 과정은 위에서 이미 언급이 되었다. 여기서 얻어진 성과물로는 100만자 를 대상으로 검색한 약 1300여 종의 異體字이다. 물론 여기에는 매우 많은 양의 破字도 포함되어 있다. 그러나 현재까지의 성과물은 단순히 기초 조사에 불과할 뿐이고, 電算化의 과정에서 중요한 것은 이를 어느 단계에서 적용시킬 것인가하는 문제이다. 즉 먼저 異體 字의 font를 만들어서 입력단계에서부터 직접 적용할 것이냐 아니면 먼저 正字로 입력하고 교정하는 과정에서 異體字가 발견되면 그때 異體字 font로 교정할 것을 지시하여 수정할 것이냐를 정해야 한다. 단순히 본다면 前者는 先難後易이고 後者는 先易後難이라 생각된 다. 한 글자의 異體字가 한 두 종류로 고정되었거나 혹은 異體字가 일정한 틀로 쓰여져 있다면 後者를 선택한 후 수정시에 컴퓨터상에서 일괄적으로 처리해도 될 것이다. 그러나 실질적인 문제에 있어서는 이와 매우 문제가 다르다. 즉 한 글자의 異體字가 여러 종류로 나타나는 것이 매우 많은 것은 물론, 破字로 인해 어떠한 異體字 출현상에 어떠한 규칙성 도 발견되지 않는다. 이러한 점을 염두에 둔다면 위의 방식 중 前者를 취해야만 할 것이다.