2017-09-23 5 views
-3

저는 Spark와 Hadoop의 세계에 새로운 있습니다. 나는 인터넷에서이 주제들을 스스로 배우기 시작했다. Spark의 DataFrame이 불변이라면 Spark DataFrame에서 특이점 탐지를 수행하는 방법을 알고 싶습니다. 이것을 수행 할 수있는 스파크 패키지 또는 모듈이 있습니까? 저는 Spark 용 PySpark API를 사용하고 있습니다. 누군가가 PySpark에서이 작업을 어떻게 수행 할 수 있는지에 대해 매우 고맙게 생각합니다. PySPark (Pyhton)의 Spark DataFrame에서 특이 치 검색을 수행하기위한 작은 코드를 얻는다면 매우 감사 할 것입니다. 많은 감사드립니다!pyspark 데이터 프레임의 이상 값 감지

답변

0

내 지식에 따르면 데이터 자체가 응용 프로그램에 따라 다르기 때문에 특이점을 탐지하는 데 사용되는 패키지도 API도 없습니다. 그러나 이상 치를 확인하는 데 도움이되는 몇 가지 알려진 방법이 있습니다. 우선 이상 치를 의미하는 용어를 살펴 보겠습니다. 단순히 관측 범위/범위 밖에있는 극단 값을 나타냅니다. 이러한 이상 치가 어떻게 보일 수 있는지에 대한 좋은 예는 히스토그램 또는 산점도로 데이터를 시각화 할 때 통계학에 큰 영향을 줄 수 있고 의미있는 데이터를 많이 압축 할 수 있다는 것입니다. 또는 데이터 통계 요약에 큰 영향을 줄 수 있습니다. 평균 또는 표준 편차를 사용한 후 등). 분명히 오해의 소지가 있습니다. 이상치가 포함 된 교육 자료를 사용할 때의 위험이 있습니다. 모델이 범위를 벗어나는 값으로 인해 어려움을 겪을수록 교육 시간이 더 오래 걸릴 것이므로 덜 정확한 모델과 빈약 한 모델에 착수합니다 결과 또는 '결코 객관적 측정치를 수렴하지 않음'즉, 교육 시간 또는 일부 정확도 값 범위와 관련하여 테스트 및 학습의 출력/점수를 비교하는 것.

데이터에서 바람직하지 않은 개체로 이상 치를 가지는 것은 일반적이지만, 여전히 예외를 표시 할 수 있으며 탐지 자체가 사기를 발견하거나 보안을 향상시키는 방법이 될 수 있습니다. 여기

(자세한 사항은이 좋은 article에서 찾을 수 있습니다) 이상치 탐지를위한 일부 K 자신의 방법이 있습니다 :

  • 익스트림 가치 분석,
  • 확률 및 통계 모델,
  • 선형 모델 : 감소
  • 근접 기반 모델 : 주로 클러스터링을 사용합니다.

코드의 경우이 좋은 tutorial을 mapr에서 제안합니다. 이 대답이 도움이되기를 바랍니다. 행운을 빕니다.

관련 문제