0
전자 메일이 들어있는 텍스트 파일을 처리해야하는 응용 프로그램을 개발 중입니다. 나는 텍스트의 모든 토큰을 필요로하고 다음은 토큰의 정의입니다 : '!'Java 용 사용자 정의 토큰 화 도구
- 영숫자
- 대소 문자 구분 (경우에 보존하는)
- 및 '$'는 구성 문자로 간주됩니다. 예 :
FREE!!
,$50
은 토큰입니다. '.' (점)과 ','사이에 콤마가 있으면 구성 문자로 간주됩니다. 예를 들어 :
192.168.1.1, $ 24,500
토큰입니다.
등등 ..
나에게 나의 요구에 맞게 사용자 정의하기 쉬운 자바에 대한 몇 가지 오픈 소스 tokenizers을 제안하십시오. 단순히 StringTokenizer를 사용하고 정규 표현식으로 충분합니까? 나는 또한 멈춤을 수행해야만한다. 그래서 나는 멈추거나, 형태소 분석과 같은 몇 가지 여분의 일들을 수행 할 오픈 소스 토크 나이저를 찾고 있었다. 앞까지
도움과 조언을 보내 주셔서 감사합니다. – kunal18
@stalin 물론, 도와 줘서 기쁩니다! –