R, KNN 또는 데이터 과학 전반에 대한 경험이 없다고 말하는 것으로 시작하겠습니다. 나는 최근에 Kaggle을 찾았으며 Digit Recognition 경쟁/튜토리얼을 가지고 놀았습니다. R에서 가장 가까운 이웃을 보는 방법?
# makes the KNN submission
library(FNN)
train <- read.csv("c:/Development/data/digits/train.csv", header=TRUE)
test <- read.csv("c:/Development/data/digits/test.csv", header=TRUE)
labels <- train[,1]
train <- train[,-1]
results <- (0:9)[knn(train, test, labels, k = 10, algorithm="cover_tree")]
write(results, file="knn_benchmark.csv", ncolumns=1)
내 질문
은 다음과 같습니다 :- 은 어떻게 선택되었습니다 가장 가까운 이웃을 볼 수 있습니다 그들은 당신이 기본적인 제출로 시작하는 일부 샘플 코드를 제공이 튜토리얼에서는
a 특정 테스트 행?
- 선택한 10 개 중 어떤 것을 수정할 수 있습니까
results
?
이러한 질문은 너무 광범위 할 수 있습니다. 그렇다면 올바른 길로 나를 안내 할 수있는 링크를 환영 할 것입니다.
내가 여기에 이해가되지 않는 뭔가를 말했을 가능성이 있습니다. 매우입니다. 이 경우, 저를 시정하십시오.
멋진 응답 : 당신이 당신의 투표 방식에 더 많이 더 가까운 요소를 가중치에 관심이 있다면, 당신은 또한이 같은 K 이웃의 각 거리를 얻을 수 있습니다 당신! 나는 몇 가지 질문을했다. 'indices'를 출력하려고 할 때마다 null을 돌려줍니다. 여러분의 예제와 다른 것을해야합니까? 사용자 지정 가중치 체계를 만드는 데 대해 더 많은 연구를 할 수있는 자원을 추천 할 수 있습니까? 또는 내가 볼 수있는 것을 만드는 누군가의 예입니까? –
그건 아주 이상합니다.'print (k)'를하면 어떻게됩니까? 다른 가중치 적용 방식에 관해서는 Google에서 "KNN 가중치"구문을 검색 할 때 행운이 많을 것입니다. 그러나 나는 나의 대답에 무게를다는 것에 대해 조금 더 쓰고있다. –
자, 이제 실제로는'k' 대신'results'를 사용하고 있습니다. 나는 이것이 차이를 만들지는 않겠지 만, 나는 그걸 밖으로 던져야한다고 생각했습니다. 내가'print (results)'할 때 결국 csv 파일에 쓰여지는 1000 개의 요소를 출력합니다. –