한국어처리

한국데이터베이스진흥센터 - 시소러스 개발 지침 참조

외래어 표기

시소러스의 종류를 대상이 되는 국어의 수에 따라 구분하면 단일어 시소러스와 다국어 시소러스로 나눌 수 있다. 현재 사용되고 있는 대부분의 시소러스는 단일어 시소러스이다. 그러나 단일어 시소러스일 경우에도 외래어는 시소러스 용어로 사용 되어야 한다.

특히 외래어 중에서 우리말 한 용어를 어떻게 사용할 것인지, 두 가지 이상의 철 자법이나 표기법을 가진 어휘를 어떻게 처리를 할 것인지에 대한 문제가 여전히 남 는다. 예를 들어 국내 특허정보에 수록된 제너럴일렉트릭 이라는 회사명의 경우 제 너럴일렉트릭 , 제너널일렉트릭 , 제네랄일렉트릭 , GE ' 등 무려 20여 개의 용어로 색인되어 있어서 정확한 정보검색을 위해서 OR 연산을 이용한다해도 모든 정보를 다 찾아보기란 거의 불가능에 가깝다.

외래어 용어일 경우 이들 용어를 동등관계로 취급하는 것이 바람직 할 것이며 개 별용어에 대한 언어구분을 해 줄 필요가 있을 것이다

약어사용

대부분의 시소러스에서는 일반적으로 약어는 가능한 한 사용하지 않고 있다. ISO 2788에서도 약어와 두(頭)문자어는 시소러스가 다루고 있는 주제 내에서 넓게 쓰이 거나 쉽게 이해되는 경우 외에는 우선어로 사용될 수 없다. 많은 약어와 두문자어가 하나 이상의 개념을 의미할 수 있으므로 그 완전한 형태의 단어가 용어 형태로부터 상호참조 되면서 우선어로 사용되며, 약어와 두문자어에서 완전한 형태의 용어가 자 주 사용되지 않거나 거의 무시되는 경우 우선어로 이용될 수 있다. 물론 완전한 형 태와 그의 약어 사이에는 상호참조가 필요하다고 규정하고 있지만, 이 둘의 관계를 명확히 하는 것은 쉽지 않다.

시소러스를 이용한 자동색인을 고려할 때 약어도 외래어와 마찬가지로 디 스크립터에 대한 도입어로 선정되어야 할 것이며, 이를 위해서는 별도의 용어관계 표시가 필요할 것이다.

속어와 방언의 처리

ISO 2788에서는 특정 소집단이나 사회집단에서 새로운 개념의 용어가 생성되어, 그 용어를 표현할 대체어가 널리 사용되지 않을 경우 속어와 특수 계층어가 색인어 로 받아들여져야 하며, 속어와 특수 계층어가 공존하면서 확립된 대체어로 나타난 경우 확립된 용어를 우선어로, 속어는 색인 이용자의 접근점으로 제공되어질 때만 비 우선어로 쓰여진다고 정의하고 있다. 그러나 속어도 문헌에 많이 등장하기 때문 에 시소러스를 이용한 자동색인과 용어통제를 이용한 검색에서 중요한 역할을 수행 할 수 있기 때문에 속어도 시소러스 용어에 포함되어야 한다.

시소러스 구축에서 디스크립터 용어로 사용되는 용어는 표준어이다. 그러나 우리 나라의 경우 표준말과 완전히 달리 표현되는 방언이 많이 존재하며, 특히 남북 분단 이후 북한어는 한글과 표기법에서 많은 차이가 나는 용어들이 존재하기 때문에 방언 과 북한어 등도 시소러스 용어로 등록되어야 하며. 이들을 구분해 줄 수 있는 용어 관계가 필요하다.

형용사 및 동사형 용어사용

일반적인 정보검색에서 형용사와 동사는 품사 불용어로 간주하여 색인어로 추출 하지 않는다. 그러나 디자인이라든지 미술과 관련 문헌정보 등 질의어로서 색상에 관한 문헌을 검색하는 것에 중요하게 작용하는 경우가 있다. 이미지나 영상정보의 색인에 있어서는 필요에 따라 감각정보가 중요한 핵심이 될 수 있다. 이들은 감성에 호소하는 정보라는 시각에서 감각정보라고 할 수 있으며, 이 를 용어로 표현한 것을 감각용어라 한다. 또한 영상에서 나타나는 동작에 관한 정보 를 동작정보라 할 수 있다. 이미지나 영상에서 느껴지는 감각과 감각용어, 동작과 동 작용어에서 받는 어감은 개인에 따라 차이가 있기 때문에 이들을 일관성 있는 개념 으로 색인하기 위해서는 감각어나 동작어를 가능한 한 단순화시켜야 한다. 이미지나 영상자료를 일관성 있게 색인하기 위해서는 감각용어를 포함하는 시소러스를 구축해 야 한다. 예를 들면, 동작정보에는 걷다 , 날다 , 놀다 , 먹다 , 악수하다 등과 같은 동작을 표현하는 동사와 강렬하다 , 고풍스럽다 , 시원하다 , 애잔하다 , 우울하다 등과 같은 감각정보가 필요하다.

고유명사 처리

일반적으로 시소러스가 하나하나 열거하지는 않으나 색인자가 임의로 부여할 수 있는 색인어를 식별어(identifier )라 한다. 식별어는 색인어로서의 가치가 있다고 판단 되지만 일일이 열거할 수 없는 색인어로 인명, 지명, 기관명, 제품명 등과 같은 고유 명사가 있다.

시소러스에 있어서 식별어는 일반적으로 고유명사를 말하는 데, ISO 2788에서도 기관, 개인, 처리과정, 장치의 종류 등의 명칭은 정보검색에서 중요한 접근점이지만, 시소러스에서는 대체로 제외되거나 수록 수가 제한되어 있다. 시소러스에 따라서는 이러한 고유명사를 식별어로 취급하여 별도의 파일에 유지하여, 표준적인 목록작업 과 같이 형태를 통제는 하나, 구조관계는 부여하지 않는 것도 있다. 때로는 지명을 식별어로 사용하는 경우도 있다고 설명하고 있다.

복합어 처리

복합어란 둘 이상의 형태소가 모여서 하나의 단어를 형성하는 용어로, 색인작성 에서의 복합어란 두 개념이 모여서 하나의 개념이 되면서 동시에 각각의 개념으로도 색인어가 성립되는 용어를 말한다.

ISO 2788에서는 복합어를 일관성 있게 다루기 위한 규칙의 제정은 주제색인 분 야에서 가장 어려운 영역중의 하나이다. 일반적 규칙에서 시소러스는 가능한 단순하 고 단일개념으로 표현되어야 하며, 복합어는 이용자의 오해가 발생하지 않는 한 단 순한 요소로 분해해야 한다. 그리고 시소러스의 복합 주제는 개개 용어의 조합으로 표현되어야 하며, 각각의 용어는 후조합시스템에서 독립된 키로 부여되거나 전조합 된 색인 표목의 일부로서 기능을 담당해야 한다. 그러나 이러한 일반적인 추천이 복 합어를 색인어로 사용할 때 분해해야 하는지, 혹은 복합어 형태로 남아있어야 하는 지에 대한 정확한 규정을 하지 않아 복합어 취급에 어려움을 주고 있다.