저는 Spark와 Hadoop의 세계에 새로운 있습니다. 나는 인터넷에서이 주제들을 스스로 배우기 시작했다. Spark의 DataFrame이 불변이라면 Spark DataFrame에서 특이점 탐지를 수행하는 방법을 알고 싶습니다. 이것을 수행 할 수있는 스파크 패키지 또는 모듈이 있습니까? 저는 Spark 용 PySpark API를 사용하고 있습니다. 누군가가 PySpark에서이 작업을 어떻게 수행 할 수 있는지에 대해 매우 고맙게 생각합니다. PySPark (Pyhton)의 Spark DataFrame에서 특이 치 검색을 수행하기위한 작은 코드를 얻는다면 매우 감사 할 것입니다. 많은 감사드립니다!pyspark 데이터 프레임의 이상 값 감지
-3
A
답변
0
내 지식에 따르면 데이터 자체가 응용 프로그램에 따라 다르기 때문에 특이점을 탐지하는 데 사용되는 패키지도 API도 없습니다. 그러나 이상 치를 확인하는 데 도움이되는 몇 가지 알려진 방법이 있습니다. 우선 이상 치를 의미하는 용어를 살펴 보겠습니다. 단순히 관측 범위/범위 밖에있는 극단 값을 나타냅니다. 이러한 이상 치가 어떻게 보일 수 있는지에 대한 좋은 예는 히스토그램 또는 산점도로 데이터를 시각화 할 때 통계학에 큰 영향을 줄 수 있고 의미있는 데이터를 많이 압축 할 수 있다는 것입니다. 또는 데이터 통계 요약에 큰 영향을 줄 수 있습니다. 평균 또는 표준 편차를 사용한 후 등). 분명히 오해의 소지가 있습니다. 이상치가 포함 된 교육 자료를 사용할 때의 위험이 있습니다. 모델이 범위를 벗어나는 값으로 인해 어려움을 겪을수록 교육 시간이 더 오래 걸릴 것이므로 덜 정확한 모델과 빈약 한 모델에 착수합니다 결과 또는 '결코 객관적 측정치를 수렴하지 않음'즉, 교육 시간 또는 일부 정확도 값 범위와 관련하여 테스트 및 학습의 출력/점수를 비교하는 것.
데이터에서 바람직하지 않은 개체로 이상 치를 가지는 것은 일반적이지만, 여전히 예외를 표시 할 수 있으며 탐지 자체가 사기를 발견하거나 보안을 향상시키는 방법이 될 수 있습니다. 여기
(자세한 사항은이 좋은 article에서 찾을 수 있습니다) 이상치 탐지를위한 일부 K 자신의 방법이 있습니다 :- 익스트림 가치 분석,
- 확률 및 통계 모델,
- 선형 모델 : 감소
- 근접 기반 모델 : 주로 클러스터링을 사용합니다.
코드의 경우이 좋은 tutorial을 mapr에서 제안합니다. 이 대답이 도움이되기를 바랍니다. 행운을 빕니다.
관련 문제
- 1. pyspark 데이터 프레임의 값 바꾸기
- 2. pyspark 데이터 프레임의 열 데이터 유형 확인
- 3. 두 데이터 프레임의 열 이름 비교 pyspark
- 4. pyspark 데이터 프레임의 사용자 정의 집합
- 5. PySpark 데이터 프레임의 문자열 열 분할 내용
- 6. 데이터 프레임의 pyspark-drop 중복 행
- 7. pyspark 데이터 프레임의 열 수를 계산 하시겠습니까?
- 8. 팬더 데이터 프레임의 이벤트 감지
- 9. 데이터 프레임의 조회 값
- 10. pySpark : 값 % % pyspark
- 11. pyspark 데이터 프레임의 열 순서를 변경하는 방법은 무엇입니까?
- 12. Pyspark : 다른 데이터 프레임의 UDF에서 데이터 프레임을 참조하는 방법은 무엇입니까?
- 13. 조건부로 데이터 프레임의 값 변경
- 14. R 데이터 프레임의 벡터 값
- 15. R - 데이터 프레임의 값 대체
- 16. 데이터 프레임의 값 비교를 벡터화합니다.
- 17. 파이썬 데이터 프레임의 값 바꾸기
- 18. 데이터 프레임의 평균값을 얻으십시오.
- 19. 컬럼 당 pyspark 데이터 프레임의 합계를 효과적으로 취하십시오
- 20. pyspark : 나는 다음과 같은 요소가 데이터 프레임의 행 요소
- 21. Pyspark 데이터 프레임의 가장 큰 값을 얻는보다 효율적인 방법
- 22. PySpark - 데이터 프레임의 열을 합친 다음 결과를 int로 반환합니다.
- 23. pyspark 데이터 프레임의 regex_replace를 사용하여 열의 특수 문자를 바꾸는 방법
- 24. PySpark - 데이터 프레임의 각 행을 순환하여 하이브 쿼리를 실행합니다.
- 25. python/pyspark 데이터 프레임의 모든 열에 접미사와 접두어를 추가하는 방법
- 26. R 데이터 프레임의 모든 열에서 값 검색
- 27. 맵에 기반한 스파크 데이터 프레임의 값 바꾸기
- 28. R : 데이터 프레임의 벡터와 열의 값 비교
- 29. 데이터 프레임의 각 행에 두 번째 데이터 프레임의 범주를 첨부하십시오.
- 30. 가우스 혼합 모델을 기반으로 한 이상 값 감지