사용자 생성 텍스트 콘텐츠에 대한 초기 맞춤법 검사/데이터 정규화를 수행 할 자바 라이브러리를 찾고 있는데, Facebook 프로필에 입력 한 관심사를 상상해보십시오.자바의 데이터 정규화를위한 맞춤법 교정
이 텍스트는 맞춤법 보정 전후에 어떤 점에서 토큰 화되며, 그 중 일부는 검색을위한 키로 사용됩니다 (정확한 일치). 맞춤법 오류 등을 줄이면 더 많은 성냥을 만들어 낼 수 있습니다. 정정이 단 한 단어보다 긴 토큰에 대해 잘 수행된다면 더 좋을 것입니다. "트링 킹 커피"는 "커피 마시는 것"이 아니라 "커피를 마시는"것이됩니다.
- 재즈이 활성화 개발 될 것 같지 않습니다 : 내가 맞춤법 교정을 수행하기위한 다음과 같은 자바 라이브러리를 발견했다. 또한 사전 거리 기반 접근법은 소셜 네트워크 프로필 및 다중 단어 토큰에서 비표준 언어를 사용하기 때문에 부적절한 것으로 보입니다.
- APACHE LUCENE은 statistical spell checker인데 훨씬 적합해야합니다. 여기서 좋은 사전을 만드는 방법에 관한 질문이 있습니까? (그렇지 않으면 Lucene을 사용하지 않으므로 기존 색인이 없습니다.)
모든 의견을 환영합니다!
통찰력있는 의견과 흥미로운 책 링크를 보내 주셔서 감사합니다. 네가 맞다. 내가 정말로 원하는 것은 퍼지 검색이다. 그러나 필자는 맞춤법 검사가 특정 응용 프로그램에 어떻게 작동 하는지를 볼 것이며 나중에 언급 한 아이디어를 다시 방문 할 것입니다. 고마워요! – dareios