2017-09-07 2 views
1

검색 결과에서 passage_score 및 result []. 점수의 의미 (백분위 수 용어)를 해독하려고합니다. 이것은 최소 신뢰 임계 값을 충족시키지 못하는 구절과 결과를 걸러 내기 위해서입니다.Watson Discovery 통로 점수 및 결과 점수

이 결과 집합의 예를 들면 :

{ 
... 
"passages": [ 
    { 
     "document_id": "AA", 
     "passage_score": 14.303232050575723, 
     ... 
    }, 
    { 
     "document_id": "BB", 
     "passage_score": 14.089714658115533, 
     ... 
    } 
], 
"results": [ 
    { 
     "id": "AA", 
     "score": 1.5188946, 
     ... 
    }, 
    { 
     "id": "BB", 
     "score": 1.5188946, 
     ... 
    } 
] 

}

는 어떻게 비교 백분위에 해당로 점수를 변환 할 것인가? RnR에서는 ranker.confidence 필드를 사용하여이 작업을 수행했습니다.

답변

0

는 왓슨 발견에 대한 공식 문서에 따르면, 구절은 query에 의해 반환 된 모든 문서에서 텍스트가장 좋은 구절을 결정하기 위해 정교한 왓슨 알고리즘에 의해 생성됩니다. 반환 된 출력은 키가 필드 이름이있는 하이라이트 객체를 포함하고 값이 질의 -의 세그먼트를 포함하는 배열 여부를 지정하는 부울 :

나는 당신이 highlight 매개 변수 highlight을 사용할 수 있습니다 어쩌면 생각 HTML * 태그로 강조 표시된 텍스트와 일치합니다.

또는 top_hits 매개 변수 : 쿼리 또는 심화 점수로 순위가 매겨진 문서를 반환합니다. 모든 쿼리 매개 변수 또는 집계와 함께 사용할 수 있습니다. 이 예에서는 용어 집계에 대해 10 개의 인기 조회수를 반환합니다.

  • 검색을 통한 쿼리에 대한 쿼리 빌드 reference의 목록을 확인하십시오.
  • 다음을 확인하십시오 : article 1, article 2 더 많은 예제가있는 Watson Discovery를 사용하십시오.
  • Playlist IBM이 Watson Discovery를 사용합니다.
+0

감사합니다. sayuri-mizuguchi. 그러나'score'와'passage_score' 필드가 사용하는 스케일을 아십니까? –

+0

'passages_score'는'passage_text'에있는 텍스트 부분에 대한 구두점입니다. 구절 점수는 쿼리에 고유하고 다른 사람들과 비교할 때 사용해야하는 정규화 된 점수가 아니기 때문입니다. 그리고 'score'는 쿼리의 문서 ID에 대한 구두점입니다. 더 많은 지식에 대한 링크가있는 내 편집을보십시오. –

1

구절 점수와 문서 점수는 신뢰도 점수가 아니며 정규화 점수도 아닙니다. 이 쿼리는 쿼리를 기반으로 계산되며 사용자가 제출 한 쿼리와 관련하여 문서를 "훌륭하게"처리합니다.

여러 개의 서로 다른 쿼리 사이의 점수를 비교하는 것은 정확하지 않을 수 있으며 정규화는 수행 할 수 있지만 생성하는 점수로는 적합하지 않습니다. 점수를 정규화하려고 시도 할 수도 있지만 색인에서 문서를 추가하거나 삭제하면 정상화 요인이 없어집니다.

점수 계산은 문서와 특정 쿼리와의 관련성에 따라 달라집니다. 즉, 문서의 용어 빈도 (단어가 나타나는 빈도) 및 점수에 적용되는 정교한 알고리즘 조정에 따라 계산됩니다. 이는 쿼리에 특정한 점수이며 문서가 쿼리와 가장 관련이 있다는 "가능성"을 예측하려고하는 알고리즘을 사용하여 계산됩니다. 정상화 된 점수가 아닙니다.

대신에 상위 n 개의 문서를보다 합리적인 임계 값으로 사용하는 것이 좋습니다 (여기서 n은 사용자에게 반환하는 문서의 최대 수임). 통로는 해당 특정 쿼리에 대한 최상의 통행을 생성하는 데 중점을 둔 추가 알고리즘을 사용합니다. 점수는 다시 쿼리에 따라 계산됩니다.

향후 순위가 매겨진 문서의 점수를 향상시킬 계획이 있습니다.