ETRI, 리눅스기반 데이터 검색 시스템 개발

2006-12-20     PC사랑

리눅스체제 에서도 유용한 데스크톱 검색도구가 나왔다.

지금까지는 리눅스 PC에서 특정 파일이나 특정 내용을 찾을 때 검색할 방법이 없어 어려웠는데 이를 근본적으로 해결할 수 있는 검색 시스템이 개발되어 리눅스 사용자들의 불편이 크게 줄어들 전망이다.

ETRI(한국전자통신연구원 원장 최문기)는 21일, 윈도즈에서와 같이 리눅스에서도 한글 파일에 대해, 보다 다양하고 정교한 검색으로 사용자가 원하는 파일을 쉽게 찾을 수 있는 길이 열렸다고 밝혔다.

따라서, 리눅스 사용자들은 파일명이나 파일에 포함된 문서 내용의 주요 키워드 검색만으로도 쉽게 문서를 찾아 볼수 있으며 날짜, 용량, 문서포맷 등의 메타데이터 만으로도 검색이 가능하게 되었다고 ETRI는 설명했다.

또한, 실시간으로 오는 이메일과 웹브라우저를 통해 본 웹기록도 색인 및 검색기능이 가능하며 이번에 개발된 시스템은 리눅스 환경에서 hwp(한글)나 avi(동영상) 등 윈도즈에서 널리 사용되는 포맷을 그동안 잘 인식하지 못하였으나 이번에 코덱 및 필터의 개발로 다양한 미디어 포맷 또한 색인, 검색이 가능하다고 덧붙였다.

리눅스 데스크톱 검색은 그동안 파일 검색 명령어를 수행하거나 영어로 공개된 소프트웨어인 비글을 한글화한 간단한 키워드 검색이 제공되는 수준이었으나, 이제는 윈도즈에서와 같이 리눅스 한글 파일에 대해 보다 다양하면서 더욱 정교한 검색으로 사용자가 원하는 파일을 쉽게 찾을 수 있게 되었다.

이번에 ETRI에서 개발한 리눅스 데스크톱 검색은 기존에 윈도즈 버전의 데스크톱 검색기나 비글이 제공하는 키워드 검색 뿐만 아니라 편리한 웹 인터페이스와 다양한 파일 포맷 필터를 적용한 메타데이터 추출을 통해 메타데이터 기반의 한글 검색 기능을 추가하여 보다 쉽고 정확한 검색이 가능하게 되었다.

ETRI 음성언어정보센터 지식마이닝연구팀 장명길 팀장은 “현재 데스크톱 검색의 세계적인 추세는 기본적으로 파일의 내용 분석을 바탕으로 한 시맨틱 데스크톱 검색인데, ETRI는 시맨틱 데스크톱 검색 시스템을 목표로 개발하고 있고, 향후 차세대 PC 환경의 진화의 중심에서 가장 중요한 기술로 대두될 것”이라고 밝혔다.

ETRI는 정보통신부 ‘유비쿼터스 지향 지능형 개인용 미디어 관리 기술 개발’ 사업의 일환으로 금년 5월에 리눅스 데스크톱 검색을 포함한 리눅스 개인용 미디어 관리 기술을 개발한 바 있으며, 부요 데스크톱 시스템에 탑재할 검색 시스템을 이번에 완성했다.

ETRI는 또한 메타데이터 기반 검색 기능이 포함된 리눅스 데스크톱 검색 시스템을 (주)솔트룩스, (주)미지리서치와 함께 부요 데스크톱 리눅스를 기반으로 개발을 완료했다.

ETRI는 본 기술을 지난 9월 코엑스에서 열린 ‘제2회 미래 성장동력 성과전시회’에 출품하여 주목을 끌었다고 말하면서 앞으로 본 기술을 부요 데스크톱 관련 업체에 기술이전하여 보급할 계획이라고 말했다.

현재 윈도즈에서 동작하는 구글, 네이버 등의 데스크톱 검색은 주로 파일 이름에 대한 키워드 검색이 주 이고, 리눅스의 경우 비글의 한글화 버전은 n-gram 방식의 단순한 검색 기능이 제공되고 있을 뿐이다.

즉, 오픈 오피스 및 MS 오피스 문서들과 hwp, pdf, elm 문서 포맷, jpg, bmp, gif, tif 등의 이미지 포맷, mp3, wma, ra, wav 등의 오디오 포맷, 그리고 avi, mpg, mpeg, wmv, asf 비디오 포맷 등 우리가 일반적으로 사용하는 대부분의 파일 포맷 필터를 이용하여 실시간으로 미디어 파일들의 수집하고, 이들 파일로부터 미디어 포맷, 파일 이름, 날짜 등의 공통 메타데이터와 개별 미디어 특성에 맞는 다양한 메타데이터를 자동으로 추출하여 색인하였다.

예를 들어, 사용자가 홍길동이 보낸 메일 중 회의와 관련하여 시간과 장소가 있는 메일을 찾고자 할 때, 검색 질의에 ‘보낸사람:홍길동 제목:회의 내용:시간 장소’라고 입력하면 원하는 메일 파일을 바로 찾아 준다. 기존 데스크톱 검색 엔진에서는 ‘회의 장소’와 같은 질의를 입력한 후 다수의 검색 결과를 일일이 확인하여 직접 찾아야 하지만, 이와 같이 메타데이터 기반 검색 기능을 이용하면 보다 나은 검색 결과를 쉽게 얻을 수 있다.

현재 본 사업에서는 윈도즈 버전의 개인용 미디어 관리 시스템 개발에 박차를 가하고 있는데, 이 시스템은 텍스트 외에 이미지, 오디오, 비디오의 내용을 자동 분석하여 음악 앨범 제목, 가수 이름, 가사, 영화 장르, 영화감독, 배우, 얼굴 인식 정보 등 다양한 고급 메타데이터 정보를 자동으로 추출하고, 이를 개인용 미디어 온톨로지와 시맨틱웹 추론 기술을 적용하여, 데스크톱 PC 뿐 아니라 유비쿼터스 환경에서의 모바일 단말과 디지털 TV상에서도 동작하는 시맨틱 데스크톱 관리를 위한 핵심 기술 확보에 주력하고 있다고 밝혔다.

또한 ETRI는 현재 데스크톱 검색의 세계적인 추세는 기본적으로 파일의 내용 분석을 바탕으로 한 시맨틱 데스크톱 검색인데, 최근 웹을 통해 개인정보 공유와 참여를 위해 웹 2.0 개념을 적용하는 연구도 시도되고 있으며, 현재 ETRI에서 개발하고 있는 시맨틱 데스톱 검색 시스템이 이러한 것을 목표로 하고 있고, 향후 시맨틱 데스크톱 검색이 차세대 PC 환경의 진화의 중심에서 가장 중요한 기술로 대두될 것이라고 밝혔다.