시소러스 (Thesaurus)

다양한 정의 및 소개

정보통신 용어사전

개념을 나타내는 단어나 어구 및 이들 간의 관계로 구성되는 일종의 사전이다. 시소러스는 색인어휘와 도입어휘로 구성되는 통제어휘로서, 색인어휘는 채택된 우선어(preferred term)로, 도입어휘는 색인어로 채택되지 않은 비우선어(non-preferred term)로 부른다. 도입어휘로부터는 같은 개념을 나타내는 디스크립터로의 참조가 주어진다. 시소러스는 색인 시 적절한 색인어의 선택을 위해서 사용될 뿐만 아니라 검색 시 효과적인 검색어의 선택을 위해서도 사용된다. 시소러스는 어휘통제여부에 따라 자연언어시소러스와 통제언어시소러스로 구분된다.

한국데이터산업진흥원 - 시소러스 개발 지침

시소러스는, 색인 시에는 색인어의 선정에, 검색 시에는 검색어와 색인어간의 관계를 연결해 주는 역할을 한다. 이 때 중요한 것은 용어의 적용의 일관성에 있으며, 일관성을 위해서는 일반적인 기준이 있어야 한다.

시소러스를 만드는 작업은 많은 노동집약적 업무이며, 계속적으로 갱신해야하는 반복적인 작업으로 시간과 노력, 그리고 비용이 소요되는 작업이다. 그러므로 시소러스를 구축하기 위해서는 표준화되고 잘 정의된 된 지침이 필요하다. 명확히 정의된 시소러스 구축 지침이 마련된다면 지금까지 국내에서 시소러스 개발을 위해 각 개별기관이 수행하던 개별규칙을 통합하는 결과를 가져오게 되므로 보다 쉽게 시소러스를 구축할 수 있게 되어 보다 많은 정보처리 기관에서 시소러스를 구축하게 될 것이다. 그러므로 시소러스 사용에 따른 검색 효율의 향상을 가져올 수 있게 될 것이다. 그러므로 유형, 무형의 막대한 경제적 이점을 가져올 수 있게될 것이다.

정보통신단체표준(TTAS)

시소러스는, 자연언어의 문제점을 보완하기 위한 후조합 통제어휘집으로 색인 시에는 색인어의 선정에, 검색 시에는 검색어와 색인어간의 관계를 연결해 주는 역할을 한다. 이 때 중요한 것은 용어 적용의 일관성에 있으며, 일관성을 위해서는 일반적인 기준이 있어야 한다.

시소러스는 수많은 인간 지식에 대한 저장소이며, 이것을 편찬하는 것은 논리적이며 잘 정의된 원칙을 기반으로 해야한다. 그러나 현재 국내에는 한글 시소러스를 구축하는데 참고로 사용할 시소러스 구축 지침이 마련되어 있지 않다. 따라서 국내에서는 많은 비용과 시간을 들여서 만든 시소러스가 개발방법이나 내용이 서로 상이하여 공유데이터로서의 역할을 못하고 있다.

국내의 정보처리 기관에서 효율적인 정보의 처리와 관리가 이루어질 수 있도록 한글 시소러스의 개발 기준이 필요하다. 관련되는 내용은 디스크립터의 선정, 동형이의어와 동음이의어, 복합어, 각종 관계, 용어검정, 배열, 편집, 시소러스구축시스템 등과 관련이 된다.