4

This paper에는 시끄러운 채널의 철자 오류에 대한 혼동 행렬이 포함되어 있습니다. 조건부 속성을 기반으로 오류를 수정하는 방법을 설명합니다.혼란 행렬로부터 확률을 계산하는 방법은 무엇입니까? 필요 분모, 문자 행렬

조건부 확률 계산은 2 페이지, 왼쪽 열에 있습니다. 저자는 "각주 행렬은 쉽게 복제 될 수 있으므로 부록에서 생략됩니다."라고 저자는 말하고 있습니다. 나는 그들이 어떻게 복제 될 수 있는지 알 수 없다!

어떻게 복제하나요? 원래 코퍼스가 필요합니까? 또는 저자가 종이 자체의 자료에서 다시 계산할 수 있다는 의미입니까?

답변

2

논문을 보면 응용 프로그램과 관련된 하나 또는 하나의 코퍼스를 사용하여 계산해야합니다.

행렬을 복제 할 때 두 개의 서로 다른 행렬, 즉 벡터와 nx 씩의 행렬을 내재적으로 정의한다는 점에 유의하십시오. 각 문자 x에 대해 벡터 chars에는 문자 x이 코퍼스에서 발생한 횟수가 포함됩니다. 문자 시퀀스 xy 각각에 대해 chars 행렬에는 해당 시퀀스가 ​​코퍼스에서 발생한 횟수가 포함됩니다.

chars[x]은 벡터에서 룩업 (look-up)을 나타내는 x을 나타내며; chars[x,y]은 매트릭스에서 시퀀스 xy의 룩업을 나타냅니다. chars[x] = y의 각 값에 대해 chars[x,y]의 합계입니다.

해당 카운트는 모두 1988 AP Newswire 코퍼스 (available from the LDC)를 기반으로합니다. 정확한 코퍼스를 사용할 수 없다면 동일한 장르의 다른 텍스트 (즉, 다른 뉴스 와이어 코퍼스)를 사용하고 원본 데이터에 맞도록 개수를 조정하는 것이 부당하다고 생각하지 않습니다. 즉, 주어진 문자의 빈도가 텍스트와 너무 많이 다를 경우 텍스트가 너무 유사해서는 안됩니다. 따라서 2200 만 단어의 뉴스 와이어가있는 경우 텍스트의 문자 수를 원래 카운트에 근접하도록 두 배로 늘리십시오.

+0

동일한 코퍼스가 아닌 경우 어떻게 확률을 계산할 수 있습니까? 분자와 분모는 "호환"되어야합니다 - 아니요? 그렇지 않으면 분모는 분자에 대한 코퍼스와 분모에 대한 코퍼스에 따라 매우 다른 확률을 산출 할 수 있습니다. – necromancer

+0

비슷한 크기의 유사한 코퍼스 (예 : newswire 텍스트 중 하나)를 사용하는 경우 문자 및 문자 시퀀스가 ​​원본 본문과 거의 동일한 빈도로 발생한다고 가정 할 수 있습니다. (1988 Newswire 코퍼스가 어디서나 다운로드 할 수 있는지 살펴보고 싶지만 다른 매트릭스도 다시 계산해야 할 수도 있습니다.) – dmh

+0

1988 년 데이터가 LDC에서 제공되는 TIPSTER 자료의 일부인 것처럼 보입니다. http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A – dmh

관련 문제