질문 : R의 svm에 피드하는 기능으로 bag-of-words 모델을 어떻게 적용 할 수 있습니까?R에서 bag-of-words 모델을 SVM에 맞게 시뮬레이트하는 방법
나는 일부 데이터가 낮은 발생했습니다
Title Salary
"Software Engineer" 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
read.table 사용하여, 나는이 (숫자 문자)의 2 * n의 행렬을 얻을 수 있습니다. 제목 열에 "bag of words"를 적용하고 싶습니다. 그러나 항목을 수동으로 분할 한 경우 (예 :
jobs['Title'][1,] <- strsplit(jobs['Title'][1,], ' ')
이 제공 :
Title Salary
"Software" 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
을 오히려 내가 기대했던 것보다 :
Title Salary
["Software", "Engineer"] 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
SVM을 호출하는 내 코드는 다음과 같습니다
:
jobs <- read.table("jobs.data", header = TRUE, as.is = TRUE)
index <- 1:nrow(jobs)
testindex <- sample(index, trunc(length(index)/3))
testset <- jobs[testindex,]
trainset <- jobs[-testindex,]
svm.model <- svm(Salary ~ ., data = trainset, cost = 10, gamma = 1)
svm.pred <- predict(svm.model, testset)
나는 것 같아 잘못 알고 있지만 길을 찾지 못했습니다. 그것을하기 위해, 누군가 내가 그것을 어떻게해야하는지 공유 할 수 있었느냐?
감사합니다.
나는 당신이하려는 것을 이해하지 못합니다. 이 데이터가 실제로 작업하고있는 데이터입니까? 모든 제목이 "소프트웨어 엔지니어"로 끝나면 그 단어는 어쨌든 예측에 쓸모가 없습니다. 당신이 신경 쓰는 것은 접두사 - "Junior", "Senior"또는 아무것도 아닙니다. 달성하고자하는 과제에 대해 구체적으로 설명 할 수 있습니까? – rmalouf
감사합니다 rmalouf. 이 특별한 경우에는 예, 단지 "중학교", "교장"만이 중요하지만, "하드웨어 엔지니어", "아이폰 마술사"등과 같은 직책을 더 가질 것입니다 ... 요점은 데이터가 아니라 모델이되고 싶습니다 단어의 가방처럼 제목,하지만 난 꽤 R에서 작동하는 방법을 이해하지 못했습니다. – log0