2016-06-02 6 views
0

내가 직면 한 문제는 다음과 같습니다. 문서를 읽고이 문서의 원시 문자열을 얻고 정보를 분류하고 싶습니다. 예를 들어, 문자열이 "이름"인지 또는 다른 유용한 정보의 "날짜"인지 식별하려고합니다.문서 내의 단어 분류

기계 학습을 사용하여이를 수행 할 수 있습니까? 어떻게 문제에 접근 할 수 있습니까?

여기에서 가장 어려운 문제는 문서 자체를 분류하려고하는 것이 아니라 문서 내부의 문자열 정보를 분류하는 것입니다.

+0

왜 안 되니? String을 짧은 텍스트 자체로 생각하면됩니다. 다음 게시물을 확인하십시오. http://stats.stackexchange.com/questions/118513/algorithm-recommendation-for-string-classification, http://stats.stackexchange.com/questions/79765/improve-precision-in-text- 분류. –

+0

Vadim에게 의견을 보내 주셔서 감사합니다. 내가 보자. – edubriguenti

답변

2

그래서 문제에 대해 어떻게 생각 하느냐가 중요합니다. 귀하의 문제는 엔티티 추출/인식 문제로 공식화 될 수 있다고 생각합니다. 문서를 가지고 특정 엔티티를 확인하려는 경우 내에 엔티티가 사람, 날짜 등이 될 수 있습니다. 일부 라이브러리 & 도구가 이미 구현되어 있으므로 명명 된 엔티티 인식 (약식 NER)에 대한 조건부 임의 필드 및 해당 응용 프로그램을 살펴보십시오.

예를 들어, StanfordNER을 확인하십시오.

+0

이 팁을 가져 주셔서 감사합니다. 나는 이것이 내가 찾고있는 것이라고 생각한다. 내 문제가 반복되는 것처럼 보였지만이 약어 NER을 알지 못했습니다. 감사. – edubriguenti