2017-03-12 4 views
0

LabeledPoint를 사용하여 2 진 분류를 수행하고 있습니다. 그런 다음 분류 점수를 확인하기 위해 1.0의 레이블이있는 점의 수를 sum()하려고 시도합니다. Pyspark 레이블 점 집계

lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1])) 

나는 내가 사용 (1)으로 표시되어 얼마나 많은 수를 얻을 수 아마도 생각 다음과 같이

가 나는 RDD를 표시 한 :

cnt = lp_RDD.map(lambda x: x[0]).sum() 

그러나 나는 다음과 같은 오류가 발생합니다 :

'LabeledPoint' object does not support indexing 

전체 RDD를 인쇄하여 표시된 RDD가 올바른지 확인한 후 문자열 "LabeledPoint (1.0")을 검색합니다. 내가 합계를하려고하여 바로 가기가 있는지 궁금한가요?

답변

1

LabeledPoint 카운트 또는 sum.Please 시도 찾을 수 있습니다 레이블 값 회원을 가지고

cnt = lp_RDD.map(lambda x: x.label).sum()