HOME>자료실>음성인식기술
 
   
 
   
  음성은 인간이 사용하고 있는 통신매체 중 가장 자연스러운 형태로 자신의 의사표명 혹은 정보의 생성에 있어서 음성을 이용하는 비중이 매우 높습니다. 따라서, 음성을 매체로 한 사람과 기계간의 의사소통(Man-Machine Interface)의 필요성이 크게 대두되었으며, 1970년대 중반 이후 음성인식에 대한 연구가 활발히 전개되어 오고 있습니다.

초기(1980년대 초반까지) 음성인식 시스템은 주로 인공지능 기법에 기반을 두고 개발되었는데, 이는 실제 사람이 음성을 인식하는데 적용하는 지식을 컴퓨터에 구현한 것이었습니다.
그 뒤, IBM에서는 Hidden Markov Model(HMM)이라는 통계적 기법을 이용하여 대규모의 음성인식 시스템을 개발하였는데, HMM은 1980년대 중반 이후 거의 모든 대형 음성인식 시스템에서 채택되어 음성인식 기법의 대표주자로 자리잡고 있습니다.
1990년대 이후의 음성인식은 단순히 인식의 차원을 뛰어넘어, 주어진 음성의 뜻을 파악하고 그에 맞는 대응을 수행하는 음성이해의 단계에 와있는데 이는 음성인식 기술과 자연어 처리 기술의 결합으로 이루어지고 있습니다.

음성인식 기술의 응용분야로는 전화번호 안내, 지역 정보 안내 등의 ARS 시스템, 교육 및 엔터테인먼트, 주식 및 금융거래 등 우리 주변의 모든 분야에서 음성인식 기술이 도입될 전망입니다. 미래에는 음성인식 기술의 응용부문이 더욱 확대되어 인간이 말로 손쉽게 기계를 제어할 수 있도록 해주는 도구가 될 것이며, 이는 사람들의 문화적 행태에까지도 커다란 변혁을 가져올 것입니다.

 
   
  음성인식 기술은 그 분류기준에 따라 여러가지로 분류할 수 있습니다.
우선 인식의 대상으로 삼는 화자에 따라 화자독립과 화자종속 인식기술로 분류됩니다.

먼저, 화자종속 시스템은 특정 화자의 음성을 인식하기 위한 시스템으로 현재 휴대폰에 탑재되어 사용되는 음성다이얼링(Voice Dialing) 시스템이 대표적인 예입니다.
화자독립 시스템은 불특정 다수 화자의 음성을 인식하기 위한 것으로, 다수화자의 음성을 수집하여 통계적인 모델을 학습시키고, 학습된 모델을 이용하여 인식을 수행하게 됩니다.
따라서, 각 화자의 개별적인 특성은 사라지고 각 화자간에 공통적으로 나타나는 특성이 부각됩니다. 같은 어휘를 대상으로 같은 양의 학습데이터를 사용한다면 대체적으로 화자종속 시스템의 성능이 화자독립 시스템보다 높게 나옵니다.
그러나, 화자종속 시스템의 경우 음성이 등록된 화자 이외의 사람이 시스템을 사용한다면, 인식률은 크게 저하된다. 따라서, 최근에는 화자독립 시스템을 구축하고 실제 사용할 때는 사용자의 음성에 적합하도록 인식 모델을 변형하는 기법들이 개발되고 있는데, 이를 화자적응 기술이라 하며,이러한 시스템을 화자적응 시스템이라 부릅니다.
다음으로는 발음의 형태에 따라 고립어인식 시스템과 연속어인식 시스템으로 나눌 수 있는데, 고립어인식 시스템에서는 각 단어가 또박또박 발음되고 각 단어 사이에는 충분한 길이의 묵음구간이 존재한다고 가정하는 것으로, 인식의 초점이 각 단어가 다른 단어와 얼마나 다른가에 있고 인접한 단어의 영향은 무시됩니다. 현재 휴대폰에서 널리 채용되는 음성다이얼링(Voice Dialing)이 고립단어 인식의 좋은 예라 할 수 있겠습니다.
이에 반해 연속어인식 시스템은 문장 단위로 인식을 수행하는 시스템을 의미하며, 각 문장은 평상시와 같이 발음되고 특별히 단어 사이의 묵음은 첨가되지 않습니다. 연속어의 경우, 한 단어의 특성이 인접한 단어의 발음에 의하여 영향을 받는데 이를 조음효과(Coarticulation Effect)라 부르며, 이러한 조음효과는 연속어인식을 어렵게 만드는 큰 요소로 자리잡고 있습니다.

위에서 언급한 바와 같이 음성인식 기술은 분류기준에 따라 여러 종류로 나뉩니다. 분류된 각 기술은 모두 고유의 장, 단점을 지니고 있기 때문에 어느 하나가 다른 것보다 우월하다고는 얘기할 수 없습니다. 따라서, 음성인식 시스템을 구현하려고 할 때는 적용분야의 특성과 구현될 시스템의 특성 및 경제성을 고려하여 적절한 방식을 선택하여야 하며, 같은 방식이라 하더라도 어플리케이션 구현 방법 및 하드웨어의 특성에 따라 많은 차이를 보일 수 있으므로, 많은 노하우와 고도의 시스템 구현능력이 요구됩니다.

 
   
  현재 음성인식 기술은 미국을 비롯한 선진국을 필두로 매우 활발하게 전개되고 있습니다. 미국의 경우, IBM, AT&T, Lucent Technologies, Microsoft 등의 컴퓨터 및 통신관련 기업체들은 독자적인 대용량 음성인식 시스템을 개발하고, 자사의 관련 제품에 응용하고 있고, 그 추세는 더욱 확장되고 있습니다.
현재 음성인식 기술의 연구에 있어서 관심의 초점이 되고 있는 분야로는 음성인식에 사용되는 통계적 모델의 기본단위를 정하고 이들을 학습시키는 "Acoustic modeling", 주어진 음성에서 핵심어가 되는 단어를 추출하는 "Key-Word Spotting", 사용자가 인식 시스템을 사용하는 동안 적응 과정을 수행시키는 "화자적응", 인식시에 주변의 잡음, 마이크의 변경, 전화선 및 무선 선로의 영향 등 환경의 영향을 배제시키는 "환경보상" 기법들이 연구되고 있습니다.

 
 
   
  음성인식 기술은 미래에 사람과 기계간의 매개역할(Man-Machine Interface)에 있어서 핵심을 이루고 있다고 해도 과언은 아닙니다.
음성인식 기술은 경제적인 측면에서뿐만 아니라 문화적인 측면에서도 매우 중요한데, 이는 음성인식 기술이 사용하고 있는 언어와 밀접하게 관련되어 있기 때문입니다. 따라서, 기술 자국주의가 반드시 이루어져야 할 곳이 바로 음성인식 분야입니다. 물론, 국내의 음성인식 관련 연구에 있어서도, 앞서 언급된 세부 기술 분야에서 주목할만한 성과를 이룬 예도 적지 않습니다.
따라서, 대규모의 연구 투자를 통하여 지금까지 개발된 세부 기술들을 통합하고 현재의 문제점을 해결해 나간다면 곧 도래할 음성인식 시스템의 전성기에 시장을 선점할 수 있는 기회를 잡을 수 있을 것입니다.
 
     
 



Untitled Document











 
 
경기도 성남시 중원구 상대원동 190-1 SK 테크노파크 메가동 401호 TEL. 031)776-3550(代), FAX. 031)776-3544