2010-07-06 3 views
0

OpenAmplifyAPI을 사용하여 URI의 내용을 평가하려고합니다. 핵심은 기사와 진정으로 관련이있는 주제를 끌어내는 것입니다. 불행하게도, 내가 다시 받고 있어요 국소 분석은 다음과 같습니다 거대한"값"특성 평가

  1. 다양

어느 품질 내가 할 노력하고있어 몹시 유용하기 때문에 신호 대 노이즈 비율 소음에 심하게 비뚤어지고있다. 웹 콘텐츠를 분석 중이므로 관련성이없는 콘텐츠 (광고 등)가 일정량 (아마도 많은 양) 포함되어 있습니다. 알 겠어.

그럼에도 불구하고 많은 주제가 쓸모없고 (전혀 감각적이지 않고 단어가 아님) 관련성이 없으며 (어디에서 유래 했습니까?) 또는 너무 세분화되어 의미 나 통찰력을 제공하지 못합니다. 아마도이 노이즈의 대부분을 , 음, 각 도메인, 하위 도메인, 주제 등에 대해 반환되는 값을 사용하여 필터링 할 수 있지만 그게 무슨 뜻인지 정말로 모르겠습니다.

값이 인 것은 분명합니다.이 단어는 "텍스트의 단어의 눈에 띄는 정도"를 나타냅니다. 그러나 그 숫자 자체는 "임의로 단어를 무시할 수있는 방식으로 완전히 임의적으로 나타납니다. 가치가 50 미만 "이며 어떠한 실질적인 의미도 지니고 있습니다.

주제의 가치 점수를 필터링 임계 값으로 사용하는 방법을 이해하는 데 도움이되는 범위 기준이 있습니까? 양자 택일로, 여과의이 종류를 위해 사용해야하는 또 다른 분야가 있는가?

도움 주셔서 감사합니다.

답변

0

다른 채널에서 나는 value 속성을 내가 원하는 방식으로 평가할 수 없다는 것을 알게되었습니다. 이것은 서로 다른 신호에 대해 다른 것을 의미하며 이러한 종류의 요구 사항에 대해 의미있는 방식으로 정의 된 신호는 없습니다.