2013-11-25 3 views
-1

yelp 데이터 세트의 데이터를 사전 처리하고 각 레스토랑에 카테고리, 하위 카테고리를 추가했습니다. 우리의 데이터는 현재 행 Business_id, name, review_count, stars received, nearby_school, category, subcategory, is_vegetarian, latitude, longitude이 포함되어 있습니다. https://www.yelp.com/academic_datasetyelp 데이터 세트와 관련된 조언이 필요합니다.

예 행 :

열 설명은이 링크에 있습니다

우리는 요리의 종류가 근처에 더 인기 인 이해하려는
__EmsZiRXiUmljbfpOqZig,Awful Arthur's Seafood Co,11,2.5,Virginia Tech,Restaurant,Seafood,no,37.2283389,-80.4142281 

(예를 들어, 해산물, 중국어, 미국, 인도가.) 학교. 우리는 데이터 분석을 처음 사용합니다. 누군가이 문제를 해결하는 방법을 제안 할 수 있습니까?

+0

데이터에는 여러 카테고리가 있으므로 위의 예와 같이 카테고리와 하위 카테고리로 나누었습니다. 학교 주변의 데이터를 클러스터링하여 이상 치를 제거 할 계획입니다. 그런 다음 검토 수와 평가를 곱하여 모든 행의 값을 계산하십시오. 그런 다음 각 학교 근처의 하위 집합을 분리하십시오. 그런 다음 각 카테고리에 대한 평균을 계산하고 각 하위 세트에 대한 하위 카테고리 쌍을 계산하십시오. 가장 큰 평균값이 가장 인기있는 식당이 될 것입니다. 이것이 올바른 진행 방법일까요? – PSH

답변

1

매우 간단한 분석으로 인근 학교의 모든 비즈니스에 대한 색인을 만들 수 있습니다. 그리고 각 학교 순위 요리 및 별에 의해 사업을 받았습니다.

대학마다 공통적으로 많이 나타나는 패턴이 많이 있습니다.

관련 문제