2010-05-20 7 views
1

문서의 용어 빈도 수를 계산해야합니다 ... 내가 한 것은 단순히 "해당 용어가 해당 문서에 나타나는 시간을 계산하지 않았습니다"... 해당 용어가 138 회 나는 Tf 값을 138 ... mi로 바꿨지 .. ?? 내가 어딘가에서 읽었을 때 termfrequency (tf) = 단어 수/문서의 단어 없음 ... 참인 경우 어떻게해야합니까? 문서의 단어 수를 계산하는 방법은 무엇입니까? ?용어 빈도 계산

PLS는 단어 경계, \b의 개념이 대부분의 정규식 구현에서

+0

동일한 포스터로이 주제에 대한 이전 게시물을 기반으로 숙제로 태그를 지정하십시오. –

답변

0

U에게 reply..thank 않습니다. 따라서 한 단어와 일치하는 정규식은 \b(\w+)\b처럼 보일 수 있습니다.

기본적으로 정규 표현식의 의미는 다음과 같습니다. 단어 경계를 일치시킨 다음 적어도 1 단어 문자 (\w+)와 단어 경계를 다시 일치시킵니다. 둘러싸는 괄호는 일치하는 단어를 그룹에 추가하기 만하면 나중에 추출 할 수 있습니다. 이것은 아마도 귀하의 경우에는 필요하지 않으므로 원하는 경우 제거 할 수 있습니다.

조금만 도와 주시면 좋겠습니다.

+0

고마워요 .... 정말 고마워요 .. 내가 C# – jaskirat

0

당신이 사용하는 언어/프로그램을 언급하지 않았습니다. 대부분의 텍스트 편집기는 문서에 몇 개의 단어가 있는지 알려줍니다. Unix에서는 'wc -w filename'명령을 사용할 수 있습니다.