pca

0열

1답변

나는 커다란 성격 특성에 대해 회귀를하고 있으며, 출생 순서가 그러한 특성에 어떻게 영향을 미치는지 알아 보려고합니다. 먼저 이러한 특성을 포착하는 설문 조사를 기반으로 5 가지 변수를 작성하려고합니다. 카테고리 (특성)에서 각 질문에 대한 인형을 만든 다음 평균을 취하는 방법에 대해 생각해 보았지만 질문 중 일부는 상관 관계가 높기 때문에 무게가 잘못되었

0열

1답변

어 게닛에서 PCA 분석을위한 모집단 레벨을 정의하십시오.

정의 된 모집단이없는 genepop 파일에서 시작하여 adegenet에서 PCA 분석을 수행하고 싶습니다. 는이 같은 데이터 가져 오기 : datapop <- read.genepop('tous.gen', ncode=3, quiet = FALSE) 작동을, 나는 데이터를 확장 한 후 PCA를 수행 할 수 있습니다. 그러나 s.class를 사용하여 원산지

0열

1답변

PCA의 산출물과 그 유용성은 무엇입니까?

PCA는 데이터 크기를 줄이는 데 도움이되는 차원 감소 알고리즘입니다. PCA는 PC1, PC2, PC3 등과 같은 고유 벡터의 출력을 내림차순으로 제공한다는 것을 이해하지 못했습니다. 따라서 이것이 우리의 데이터를위한 새로운 축이 될 것입니다. 여기서 테스트 세트 데이터를 예측하기 위해이 새 축을 적용 할 수 있습니까? 우리는 n에서 일부 n-k까지 차원

1열

1답변

바이너리 데이터의 크기를 줄이는 방법은 무엇입니까?

이진 데이터가있는 데이터 프레임이 있고 열 사이의 종속성이 있음을 알고 있습니다. 종속 열을 제거하고 독립 열만 유지하려고합니다. 다음의 예는 입력 : Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P test1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1 test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1

3열

1답변

텍스트 분류를 위해 PCA를 사용한 치수 감소

문서의 텍스트 분류를하고 있는데, 약 4,000 개의 카테고리와 110 만 개의 데이터 샘플이 있습니다. 나는 각 문서에서 단어의 주파수를 포함하는 행렬을 구성하고있다. 들은 모든 행에서 동일한 값을 가지고 있기 때문에 시료의 매트릭스는 상기 매트릭스에서 X1 X2 X3 X4 D1 1 1 0 1 D2 1 1 1 0 D3

0열

1답변

보조 축을 ggbiplot에 추가했습니다. R

보조 축을 ggbiplot에 추가하고 싶습니다. 포인트와 화살표는 제 경우에 (그리고 아마도 다른 많은 것들에서) 거대한 규모의 차이를 가지고 있습니다. PC1과 PC2의 값을 나타내는 하나의 x와 y 레이블 (아래쪽 (x)과 왼쪽 (y))을 지정하고 화살표는 다른 x와 Y (예 : x) 측면과 오른쪽 (y)), biplot과 유사합니다. 어떤 제안. 고마

-1열

1답변

R - DBSCAN fviz_cluster - dim1과 dim2를 사용하여 elmeents의 좌표를 얻습니다.

저는 R과 멍청한 사람입니다. 일부 데이터 샘플에서 클러스터링을 시도하고 있습니다. 내가 res.pca <- PCA(df, ncp = 5, # nb composantes principales. graph = TRUE, ) 하는 PCA을 시도하고 나는이 대단한 res.pca$ind 사용하여 새 좌표 전체 요소

4열

1답변

메모리 효율이 좋은 스파 스 SVD/PCA (줄리아에서)?

수십억 개의 0이 아닌 항목이 포함 된 3 백만 x 900만의 희소 행렬이 있습니다. R과 Python은 MAXINT가 아닌 항목이 0 인 희소 행렬을 허용하지 않기 때문에 Julia를 사용하는 이유를 발견하게되었습니다. 이 데이터를 표준 편차로 스케일링하는 것은 쉬운 일이 아니지만, 비열한 것은 물론 200+ 테라 바이트 밀도의 고밀도 매트릭스를 생성 할

0열

1답변

PCA 모델에 포인트 추가

PCA를 사용하여 문서를 2 포인트로 축소하여 시각화 할 수 있습니다. 내 방식은 다음과 같습니다. 그런 다음 pipeline = Pipeline([('tfidf', TfidfVectorizer())]) X = pipeline.fit_transform(sent_list).todense() pca = PCA(n_components =

1열

1답변

python PCA 방법

2 개의 주요 구성 요소와 최대 상관 관계가있는 기능을 찾아야합니다. 이 훈련 작업을하고 결과가 잘못 당신은 당신이 당신의 변환 된 데이터의 절대 값을하는 이유에 대한 정당성을 제공 없음 음주 from sklearn import datasets iris = datasets.load_iris() data = iris.data target = iris.