검색엔진

01.Digital Service 2023. 11. 25. 16:00
728x90
반응형
색인어
Crawler, 질의, 형태소 분석
키워드
수색검질필언외
색인:색D필작형N, 검색:검도순B마실
 
[개념] 인터넷상에서 필요한 정보를 빠르고 쉽게 찾아주기 위한 기술
[구성요소]수집, 색인, 검색, 질의관리, Filter모듈, 언어처리모듈, 외부솔루션 연동
[Index추출]
1)형태소분석 - 행태소분리->체언분석->용언분석->단일형태소분석
2) N-gram 방식 - 글자를 겹쳐서 색인어 추출하는 방법. 재현율 100%, 사전에 없는 신조어 색인가능. 색인어리스트 구성용이. 크기커지는 단점, 검색품질저하
ex) 정보검색시스템을 -> 정보,보검,검색,색시,시스,스템,템을
 
◆ 일반적인 검색의 발전 단계
검색의 발전에는 기본적인 단계가 있다. 큰 발전의 단계로 이미 오래 전부터 제시되어왔던 내용은 다음과 같다.

1단계: 패턴 매칭
데이터를 색인화(주로 Inverted File의 형태로) 한다. 색인화된 데이터는 사용자의 검색어에 대해 패턴 매칭을 수행하고 최종적으로 검색어에 대한 검색결과로 제공된다. 여기에는 패턴 매칭을 보다 잘 하기 위한 형태소분석 등의 기술이 사용된다. 사용자는 데이터에 있는 검색어 만을 이용하여 자료를 검색할 수 있는 단계이다.

2단계: 메타데이터 생성
데이터에 색인을 할 뿐만 아니라, 데이터 자체에 없는 메타데이터를 달거나 추출하여 데이터를 조직화한다. 사용자가 검색어를 입력하지 않아도 메타데이터에 의해 이미 조직화된 데이터를 분류나 군집 등의 형태로 보관하고 이를 시각화 함으로써 단순 검색 결과 리스트가 아닌 검색어와 조직화한 데이터를 결합한 다양한 사용자 인터페이스를 제공한다. 텍스트 마이닝과 같은 기술이 주로 사용된다.

3단계: 메타데이터 의미 연결
메타데이터의 추출 결과를 의미적으로 연결하여 A문서의 저자가 B문서의 저자 표기가 각각 국문과 영문으로 다를 지라도 같은 사람이라는 결과를 제공하거나, 그 저자의 주소, 전화번호 등과 같은 추가 정보를 의미적으로 제공한다. 여기에는 메타데이터를 표현하거나 저장하기 위해 분류체계나 시소러스, 온톨로지와 같은 지식 표현 체계가 사용된다.

4단계: 메타데이터의 관계 활용
메타데이터 간의 관계 정보를 별도의 지식체계로 활용하여 저자가 사람이고, 사람은 이름을 가지고 있으며, 나이가 있다는 지식(보통은 온톨로지라고 하는 메타데이터 모델링을 이용하여 컴퓨터에 이러한 지식을 저장함)을 이용하여 A문서의 저자에 대해 나이를 검색하거나 질의할 수 있는 수단을 제공한다. 이러한 메타데이터 관계를 이용하기 위해서는 추론엔진이 검색에 포함되거나 결합된다.
 
[프로세스] 색인 - DB->필터->색인작업(형태소/N-gram)
검색 - 검색->도치파일->순차파일->bridge파일->마스터파일->실제검색
 
[향후전망]
빅데이터 처리기술 필요(
1)SW : Mapreduce, Hadoop
2)HW: 클라우드 컴퓨팅),
프라이버시 침해 고려
자연어처리 및 시맨틱 검색 기능필요
 

 

 
스크래핑은 간단히 웹사이트에 보이는 정보를 추출해 제공하는 기술이다. 시중은행의 인터넷뱅킹, 홈택스나 민원24 같은 공공기관 웹사이트, 그 외 다수의 문서를 스크랩할 수 있다.
 
제한도 있다. 우선 기술적으로 정보제공 기관에서 해당 웹사이트를 접속을 차단한 경우(정기 점검, 오류 등의 서비스 불능)에는 일반 사용자는 해당 웹사이트를 이용할 수 없으며 스크래핑도 정상적으로 작동하지 않는다.
 
다음으로 아직 실제 사례가 나오지 않았지만 기존 사업자와 신규 사업자의 이해관계에 따른 갈등이다. 사실 이 점이 스크래핑을 이용한 핀테크 서비스를 제공하는 스타트업들의 고민이기도 하다.

[용어 아하!] `검색엔진 최적화(Search Engine Optimization, SEO)`란 - 2016-12-01

 

TTA 저널 209호  빅테크 개발자 회의, 생성 AI의 새로운 파장 강조

 

 

https://www.slideshare.net/kjmorc/ss-80803233

 

검색엔진이 데이터를 다루는 법 김종미

검색엔진이 데이터를 다루는 법 김종민 - Download as a PDF or view online for free

www.slideshare.net

 

아주 심플한 검색엔진의 원리.pdf
1.05MB
검색엔진 데이터를 다루는 법-171014095458.pdf
0.93MB
2018년 춘계 주제강연2 발표자료_김상범(NAVER).pdf
6.52MB

728x90
Posted by Mr. Slumber
,