CSV 파일을 읽으려고하고 있는데 다음 오류가 발생합니다. 내가 라인 1097 주위에이 행에서 휴식이고 연간 데이터 (I 지금은 매달에 관심)로 새로운 헤더를 시작하는 것을 알게 CSV 파일의 추가 검사 후지정된 값 범위에서 CSV에서 가져 오기
Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
line 1097 did not have 5 elements
.
temp <- tempfile()
download.file("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/F-F_Research_Data_Factors_CSV.zip",temp, mode="wb")
unzip(temp, "F-F_Research_Data_Factors.CSV")
French <- read.table("F-F_Research_Data_Factors.CSV", sep=",", skip = 3, header=T, nrows = 100)
위의 코드는 zip 파일을 다운로드하고 CSV가 완벽하게 작동 처음 100 개 행을 R로 파일을 가져옵니다. 그러나 첫 번째 100 행 (설명을 위해)은 1920 년대와 1930 년대의 데이터 포인트입니다. 특히 관심이있는 것은 아닙니다.
제 질문은 어떻게해야합니까? 첫 번째 쉼표로 구분 된 CSV 파일, 즉 192607 (1926-07)은 195007 (1950-07)까지입니다. - nrow = 1095를 변경하여 가장 최근 값을 가져올 수는 있지만 정확히 달성하려는 것은 아닙니다.
데이터의 스냅 샷;
,Mkt-RF,SMB,HML,RF
192607, 2.96, -2.30, -2.87, 0.22
192608, 2.64, -1.40, 4.19, 0.25
192609, 0.36, -1.32, 0.01, 0.23
... 라인 1100
Annual Factors: January-December
,Mkt-RF,SMB,HML,RF
1927, 29.47, -2.46, -3.75, 3.12
1928, 35.39, 4.20, -6.15, 3.56
데이터를 검사하고 읽을 행을 찾을 수 있습니다. 즉, 1926-1950입니다. – CCurtis