로그인 | 회원가입
   Home    |    신간도서    |    분야별베스트    |    국내도서


외국어 > 한자 >
연구용 말뭉치 구축의 기초 : 초보자를 위한 한국어 말뭉치 길잡이
저자 | 김한샘.최정도 지음
출판사 | 경진출판
출판일 | 2020. 02.20 판매가 | 27,000 원 | 할인가 24,300 원
ISBN | 9788959967254 페이지 | 492쪽
판형 | 187 * 257 * 31 mm 무게 | 1015g

   


이 책은 한국어 연구의 중요한 재료로 자리를 잡은 말뭉치를 활용해 한국어를 분석하려는 연구자들이 직접 연구용 말뭉치를 구축하고 기초적인 정보를 확인할 수 있도록 돕는 것을 목적으로 한다. 원시 말뭉치를 검색하고 주석 말뭉치를 구축하여 원하는 정보를 추출하는 방법론을 제시한다.
말뭉치를 기반으로 연구를 하려면 연구 목적에 맞는 말뭉치를 마련해야 하는데, 연구 목적이 무엇이냐에 따라 기존의 공개된 말뭉치를 그대로 활용하거나, 그중 일부를 추려 말뭉치를 재구성하거나, 새로 말뭉치를 구축해야 한다. 연구 목적에 맞추어 말뭉치를 구축하는 것은 내용과 형식의 관점에서 초심자들에게는 어렵게 느껴질 수 있다. 어떤 자료를 얼마나 모아야 연구자의 연구에 적합한지를 판단하기가 힘들고, 모은 자료의 메타 정보를 기술하고 파일의 형식을 관리하는 방식을 정하는 것도 쉽지 않기 때문이다.
이 책의 1장에서는 내용과 관련한 주석을 덧붙이지 않은 원시 말뭉치와 자동 분석 정확도가 높은 형태 분석 말뭉치를 중심으로 말뭉치 기반 연구의 출발점이 될 말뭉치를 만드는 방법에 대해 설명하고 있다. 우선 원시 말뭉치를 만들 때에는 말뭉치로 구축한 원문을 수집하고 기본적인 구조에 대한 마크업을 달고 원문의 특성을 기술하는 헤더를 입력하는 순으로 작업이 진행된다. 형태 주석 말뭉치를 구축할 수 있는 도구는 여러 가지가 있으나 온라인상에서 바로 내려 받아서 사용할 수 있고 여러 말뭉치 구축 과제에서 사용하고 있으며 사전을 기반으로 한 어휘 단위의 의미 주석 표지를 함께 부착할 수 있는 유태거(UTagger)를 활용하였다. 자동 형태 분석기의 분석 결과는 연구 목적에 따라 수정하여 사용할 필요가 있는데, 초심자를 위해 분석된 결과를 재가공하거나 수정하는 중요한 단계에 대해 자세하게 설명하였다. 메모장, 텍스트에디터 등에서 말뭉치의 자동 분석 결과를 수정하고 한걸음 더 나아가 용례 색인을 이용하여 효율적으로 일관성 있게 말뭉치를 수정할 수 있도록 하였다.
구축된 말뭉치에서 연구에 활용할 정보를 얻는 방법은 매우 다양하지만 가장 기본적인 것은 용례 검색을 통해 연구자의 직관에 따라 정성적으로 살펴보는 것과 빈도를 산출해 정량적인 분포를 확인하는 것이 기본이다. 21세기 세종계획에서 개발한 ‘한마루2.0’ 프로그램은 국립국어원의 누리집에서 쉽게 얻을 수 있으며 21세기 세종계획의 말뭉치를 바로 적용할 수 있으므로 말뭉치를 불러들여 자소, 음절, 형태소의 단위에 걸쳐 검색하고 통계를 내는 방법을 예를 들어 설명하였다. ‘한마루2.0’의 기능을 활용하여 다양한 언어 단위에 대한 기본적인 정보를 추출할 수 있지만 개발한 지 오래되고 버전이 고정된 프로그램이므로, 계속 갱신이 되고 있고 발전된 기능을 제공하는 텍스트에디터로 검색하고 빈도를 내는 방법도 책의 말미에 보였다.
언어 자원의 양이 기하급수적으로 늘고 컴퓨터로 처리하는 것이 쉬워지면서 말뭉치를 활용해 한국어를 분석하려는 연구자들의 수가 부쩍 늘어났지만 첫걸음을 뗄 때는 어떻게 접근해야 할지 막막하기 마련이다. 말뭉치를 활용해 연구하는 방법은 말뭉치의 기초 정보를 확인하는 것에서부터 인공지능을 활용해 분석하는 것까지 다양한데, 이 책은 말뭉치를 연구의 근거로 삼고자 하는 초심자들에 초점을 맞추어 책의 흐름을 그대로 따라가면 원하는 말뭉치를 구축하여 용례를 검색하고 빈도를 확인하는 기초적인 작업을 할 수 있도록 쉽게 설명하였다.


 

고객센터(도서발송처) : 02-835-6872
서울특별시 중구 퇴계로 10 메트로타워 16층 홈앤서비스 대표이사 최봉길
COPYRIGHT ⓒ HOME&SERVICE CO., LTD. ALL RIGHTS RESERVED