-1
yelp 데이터 세트의 데이터를 사전 처리하고 각 레스토랑에 카테고리, 하위 카테고리를 추가했습니다. 우리의 데이터는 현재 행 Business_id
, name
, review_count
, stars received
, nearby_school
, category
, subcategory
, is_vegetarian
, latitude
, longitude
이 포함되어 있습니다. https://www.yelp.com/academic_datasetyelp 데이터 세트와 관련된 조언이 필요합니다.
예 행 :
열 설명은이 링크에 있습니다
우리는 요리의 종류가 근처에 더 인기 인 이해하려는__EmsZiRXiUmljbfpOqZig,Awful Arthur's Seafood Co,11,2.5,Virginia Tech,Restaurant,Seafood,no,37.2283389,-80.4142281
(예를 들어, 해산물, 중국어, 미국, 인도가.) 학교. 우리는 데이터 분석을 처음 사용합니다. 누군가이 문제를 해결하는 방법을 제안 할 수 있습니까?
데이터에는 여러 카테고리가 있으므로 위의 예와 같이 카테고리와 하위 카테고리로 나누었습니다. 학교 주변의 데이터를 클러스터링하여 이상 치를 제거 할 계획입니다. 그런 다음 검토 수와 평가를 곱하여 모든 행의 값을 계산하십시오. 그런 다음 각 학교 근처의 하위 집합을 분리하십시오. 그런 다음 각 카테고리에 대한 평균을 계산하고 각 하위 세트에 대한 하위 카테고리 쌍을 계산하십시오. 가장 큰 평균값이 가장 인기있는 식당이 될 것입니다. 이것이 올바른 진행 방법일까요? – PSH