논문을 보면 응용 프로그램과 관련된 하나 또는 하나의 코퍼스를 사용하여 계산해야합니다.
행렬을 복제 할 때 두 개의 서로 다른 행렬, 즉 벡터와 nx 씩의 행렬을 내재적으로 정의한다는 점에 유의하십시오. 각 문자 x
에 대해 벡터 chars
에는 문자 x
이 코퍼스에서 발생한 횟수가 포함됩니다. 문자 시퀀스 xy
각각에 대해 chars
행렬에는 해당 시퀀스가 코퍼스에서 발생한 횟수가 포함됩니다.
chars[x]
은 벡터에서 룩업 (look-up)을 나타내는 x
을 나타내며; chars[x,y]
은 매트릭스에서 시퀀스 xy
의 룩업을 나타냅니다. chars[x]
= y
의 각 값에 대해 chars[x,y]
의 합계입니다.
해당 카운트는 모두 1988 AP Newswire 코퍼스 (available from the LDC)를 기반으로합니다. 정확한 코퍼스를 사용할 수 없다면 동일한 장르의 다른 텍스트 (즉, 다른 뉴스 와이어 코퍼스)를 사용하고 원본 데이터에 맞도록 개수를 조정하는 것이 부당하다고 생각하지 않습니다. 즉, 주어진 문자의 빈도가 텍스트와 너무 많이 다를 경우 텍스트가 너무 유사해서는 안됩니다. 따라서 2200 만 단어의 뉴스 와이어가있는 경우 텍스트의 문자 수를 원래 카운트에 근접하도록 두 배로 늘리십시오.
출처
2012-05-29 14:01:45
dmh
동일한 코퍼스가 아닌 경우 어떻게 확률을 계산할 수 있습니까? 분자와 분모는 "호환"되어야합니다 - 아니요? 그렇지 않으면 분모는 분자에 대한 코퍼스와 분모에 대한 코퍼스에 따라 매우 다른 확률을 산출 할 수 있습니다. – necromancer
비슷한 크기의 유사한 코퍼스 (예 : newswire 텍스트 중 하나)를 사용하는 경우 문자 및 문자 시퀀스가 원본 본문과 거의 동일한 빈도로 발생한다고 가정 할 수 있습니다. (1988 Newswire 코퍼스가 어디서나 다운로드 할 수 있는지 살펴보고 싶지만 다른 매트릭스도 다시 계산해야 할 수도 있습니다.) – dmh
1988 년 데이터가 LDC에서 제공되는 TIPSTER 자료의 일부인 것처럼 보입니다. http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A – dmh