2013-06-15 4 views
0

저는 며칠 이상이 논문 (http://www.siefkes.net/papers/mrf-spamfiltering.pdf)을 보았지만 3 단원 이후의 수식을 이해하지 못했습니다. 문서가 주어진 단어의 조건 스팸가에 있음을 은/* 을 확률 | (C (w) = s의 w)Markov 차별 알고리즘을 설명하는 문제를 이해하는 데 문제가 있습니다.

P를 : 특히

, 나는이 부분이 무슨 뜻인지 이해가 안 돼요 스팸이 되는가? */

P | /* 인가 (W) C (= w 스팸)이 이전의 표현과 동일 확률? 왜 "스팸"대신에 "스팸"또는 그 반대입니까? 논문에서

/* (() 스팸 w {첨자 C와 제품 연산자}) */

{첨자 "클리크의 C"와 상품 연산자}, 최 식은 의미라고 지역 확률, 그러나 나는 표기법을 이해하지 않는다. 제품 운영자 다음의 (w, 스팸)이 주문 집합이나 기능입니까? 그것은 무엇의 기능입니까? */

나는 2 진수 계수가있는 수식을 이해하지 못한다.하지만 최소한 나는 읽어야하는 것을 알고 있다고 생각한다.

+0

나는이 상황이 어떤 맥락에서 궁금한가요? 구현에 사용하려고하거나이 연구와 관련이 있습니까? –

+0

종류 모두. 스팸 필터링 기능이 내장 된 유즈넷 리더를 만들고 있습니다. 나는 꽤 잘 작동하는듯한 꽤 표준적인 Graham Baynesian 필터를 가지고 있지만, 나는이 Markovian 접근법에 그 우월성 때문에 흥미가있다. – kittykitty

답변

1

첫 번째 2 개에 대해서는 처음에는 S에서 S에 대한 변수로 s이 될 것입니다. 두 번째는 C (w) = 스팸에 대해서만 이야기합니다.이 경우는 s = spam 인 경우입니다. 예제에서는 Z_ {s}와 V^{s}를 정의로 사용하고 Z_ {spam}과 C (w) = spam을 사용하므로 C (w) = spam , 그러나 그 정의는 일반적인 의미로, 즉 C (w) = 스팸과 C (w) = 스패머 모두를 포함합니다. 이에 대해

:

(스팸 w)의 정의 (() 스팸 w {첨자 C와 제품 연산자}) {첨자 "클리크의 C"와 상품 연산자} 세트 표기법으로 제공되지 그 기간 직전의 단락에서는 비공식적으로 만 local probability for (w_{i}, w_{j}), given C(w) = s으로 사용됩니다. 나는 지역 확률이 어떤 의미인지 모르겠다. 나는 그것이 마르코프 이론과 관련이 있다고 가정한다.

가중치 체계 정의에 관해서는, 나는 정말로 모른다.

관련 문제