2015-01-08 2 views
-1

어디서부터 시작해야할까요? 예를 들어, "I have two apples"에서 "two"를 추출하십시오. NLP 또는 QDA의 방향을보고 있습니다. 그것에 대해 갈 방법에 대한 모든 리드는 감사하겠습니다. 이문자열에서 '숫자로 된 숫자'를 추출하는 방법

(((?:sixty|seventy|eighty|ninety|fourteen|sixteen|seventeen|eighteen|nineteen|one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|fourteen|fifteen|twenty|thirty|forty|fifty|hundred|thousand|million|billion|trillion|and)[, -]*)+) 

단어에 대한

+0

어떻게 룩업 테이블을 가진 약 [ '하나'1 '이'2 '세': 3, ...] –

답변

1

Stanford NER 시스템에 관심이있을 수 있습니다. 숫자 엔티티를 식별합니다.

당신은 여기를 시도 할 수 있습니다 : http://nlp.stanford.edu:8080/corenlp/

+0

거의 정확하게 나는 찾고 있었다. 이것은 진짜 치료 :) 감사합니다 백만. – yathish

+0

스탠포드 RegexNER 도구 (http://nlp.stanford.edu/software/regexner/)를 사용하는 것이 좋습니다. 표준 스탠포드 NER 모델에는 CoreNLP 웹 데모 내 NER 출력에 표시된 내용에도 불구하고 NUM 클래스가 포함되어 있지 않습니다. –

0

어떻게 정규식 발견 된 첫 번째 교대를 일치하기 때문에 순서가 있어야합니다. 육십 필요가 사 전에 열네, 여섯 앞에 와야하는 등

데모 :Regexr

이 정규식은 잘 작동 할 수있다, IT 관리자가

또한 후행 공백을 무시하면 ' 이 정규 표현식의 시작 부분에서 40을 알 수 있습니다. 그것은 40 가지의 철자가 틀린 것이기 때문에 그것이 유용 할 거라고 생각했습니다. 원하는 경우 제거 할 수 있습니다.

관련 문제