나는 NLP 도메인에서 새롭지 만, 현재의 연구는 URL 주소에서 텍스트 파싱 (또는 키워드 추출)을 필요로합니다. 가짜 URL,NLP의 영어 단어 세분화?
http://ads.goole.com/appid/heads
제약 내 분석에 넣어
두,
첫 번째 "광고"마지막 "머리"는 "머리"에서 "광고"더 의미하기 때문에 구별되어야한다 광고보다는 접미사.
"appid"는 두 부분으로 파싱 될 수 있습니다. 즉 'app'과 'id'는 인터넷에서 의미 론적 의미를 갖는다.
나는 Stanford NLP 툴킷과 Google 검색 엔진을 사용해 보았습니다. 전자는 각 단어를 내 기대에 맞는 문법적 의미로 분류하려고합니다. Google 엔진은 "appid"에 대해 더 많은 현명함을 보여 주며 "app id"에 대한 제안을 제공합니다.
많은 사람들이이 단어를 검색했기 때문에 Google 검색의 검색 기록 참조를 살펴볼 수 없으므로 "app id"를 제공합니다. 비슷한 구문 분석을 수행하기 위해 오프라인 메서드를 일부 사용할 수 있습니까 ??
업데이트 : 단순한 URL이라도 "appid"와 같은 단어의 합성 수를 알 수 없으므로 정규 표현식 제안을 건너 뛰십시오. 당신이 정말로 원하는 것처럼 들리는
감사합니다,
야민 오히려 토큰에 비해
자습서를 끝내고 책 텍스트의 특정 자료가 인터넷 URL (예 : appid)과 잘 작동하지 않는다는 것을 알았습니다. 그러나 좋은 출발점입니다. 그래서 언급 된 non-free google-2006 데이터 외에 다른 무료 자료를 검색 할 것입니다. 감사. – caesar0301