반응형
TOKEN FILTER
-
08. 엘라스틱서치 분석기BackEnd/elasticsearch 2021. 9. 24. 18:00
엘라스틱서치는 루씬을 기반으로 구축된 텍스트 기반 검색엔진입니다. 루씬은 내부적으로 다양한 분석기를 제공하는데, 엘라스틱서치는 루씬이 제공하는 분석기를 그대로 활용합니다. 1. 분석기의 구조 1) CHARACTER FILTER (문장을 특정한 규칙에 의해 수정한다.) 문장을 분석하기 전에 입력 테스트에 대해 특정한 단어를 변경하거나 HTML과 같은 태그를 제거하는 역할을 하는 필터다. 해당 내용은 텍스트를 개별 토큰화하기 전의 전처리 과정이며, ReplaceAll() 함수처럼 패턴으로 텍스트를 변경하거나 사용자가 정의한 필터를 적용할 수 있다. 토크나이저 내부에서도 일종의 전처리가 가능하기에 상대적으로 활용도가 많이 떨어진다. 2) TOKENIZER FILTER (수정한 문장을 개별 토큰으로 분리한다.)..