2010-12-03 4 views
0

다국어 텍스트 (영어 및 기타)가 포함 된 동일한 문서 (D)의 두 가지 버전이 있습니다.다국어 텍스트에서 단어를 제거하려면 어떻게해야합니까?

I. 문자 엔티티 참조로 표현 된 유니 코드 코드가 ASCII로 인코딩됩니다 (예 : 유니 코드 문자는 & # N의 형식 (N은 유니 코드 16 진수 값의 10 진수 값)

II. 다른 하나는 UTF-8 인코딩입니다.

Q 1 :

나는 단어 (UTF-8로 인코딩, 하나 개 이상의 언어)의 별도의 목록을 가지고 내가 문서 D.에서 제거해야한다는 어떻게 진행해야합니까?

정규식을 사용하여 D를 지울 수 있습니까? 문서 유형 I의 경우 정규식을 구성 할 때 목록의 각 단어에 대해 전체 & # N 패턴을 지정해야한다고 생각합니다.

내가 이맥스가 영어 이외의 글꼴을 사용하도록 구성되어 있기 때문에 정규식에서 직접 영어 이외의 문자를 지정할 수 있으므로 이제는 문서 유형 II에서 작업이 쉬워야합니까?

질문 2 :

나는 그런 문서 D의 거대한 수집이있다. 각 문서에서 단어를 제거하는 가장 좋은 알고리즘은 무엇이되어야합니까? 테이블 조회는 간단하지만 아마 가장 느립니다. 각 정규식을 사용해야합니까?

+0

가능한 언어 목록을 제공하는 것이 도움이됩니다. 설명한 것처럼 모든 언어에 대해 귀하의 요구 사항을 이행하는 것은 불가능하지는 않더라도 어렵습니다. –

+0

텍스트는 영어와 벵골어로되어 있습니다. – rup

답변

1

두 종류의 파일이 동일하게 보이도록 엔티티를 먼저 처리하는 것이 좋습니다. 제거가 끝나면 첫 번째 세트를 인코딩 된 형식으로 되돌립니다.

관련 문제