PHP에서 일반 텍스트 문서를 구문 분석하려고하지만 올바르게 수행하는 방법을 모릅니다. 각 단어를 구분하고 ID를 할당하고 JSON 형식으로 결과를 저장하려고합니다.텍스트 문서를 분석하는 가장 좋은 방법
샘플 텍스트 :
"Hello, how are you (today)"
이 메신저 순간에 무엇을 :
$document_array = explode(' ', $document_text);
json_encode($document_array);
결과 JSON 나는 공간이 유지되도록하려면 어떻게
[["Hello,"],["how"],["are"],["you"],["(today)"]]
입니다 - 그 기호는 단어와 함께 포함되지 않습니다 ...
[["Hello"],[", "],["how"],[" "],["are"],[" "],["you"],[" ("],["today"],[")"]]
확실한 정규식이 필요합니다 ...하지만 모든 경우를 다루기 위해 어떤 패턴의 패턴을 적용해야할지 모르겠군요 ... 어떤 제안입니까?
그렇습니다. 제 3 자 솔루션이 아마도 최선의 선택 일 것입니다 ... 나는이 문제를 다루기 위해 수년에 걸쳐 상당히 복잡한 규칙을 세웠을 것으로 확신합니다. 어떤 제안? –
php no. Java에는 숫자가 있습니다 : Open NLP, Stanford NLP, Lucene 's tokeniser 및 NLTK in python. –
파이썬은 또 다른 웹 기반 언어입니다 ... 전에 사용하지 않았지만 파이썬에서 파서를 구현 한 다음 JSON을 다시 PHP로 보낼 수 있다고 생각합니다 ... 어떻게 든 –