2010-07-27 4 views
1

다른 프로젝트 관리 사이트로 가져올 수 있도록 Google Code site에서 데이터를 추출하려고하는 프로그램을 작성하려고합니다. 특히 사이트에서 전체 설명 세부 정보 (설명, 주석 등)를 추출해야합니다.Google 코드에서 데이터를 추출하는 프로그램을 어떻게 작성합니까?

불행히도 Google은 API를 제공하지 않으며 내보내기 기능도 제공하지 않으므로 유일한 옵션은 실제 HTML (yuck)에서 데이터를 추출하는 것입니다. HTML에서 데이터를 구문 분석하려고 시도하는 데있어 "모범 사례"에 대한 제안이 있습니까? 나는 이것이 이상적이라고 생각하지 않지만, 나는 선택의 여지가 많지 않다고 생각한다. 다른 사람이 더 나은 방법을 생각할 수 있습니까, 아니면 다른 사람이 이미이 작업을 수행 했습니까?

또한 문제 페이지에 대한 CSV 내보내기 기능을 알고 있지만 문제에 대한 완전한 데이터는 제공하지 않지만 유용한 시작점이 될 수 있습니다.

+1

질문을 편집하고 Google 코드에서 추출하려는 데이터를 정확히 지정해야합니다. 문제? 위키? 대답은 달라질 것입니다 ... – James

+0

아, 네 말이 맞아. 문제는 특히 손으로 쉽게 추출 할 수없는 유일한 데이터이기 때문에 문제입니다. –

+0

'알려진 제한 사항 : http://code.google.com/p/support/wiki/FAQ#How_do_I_get_a_copy_of_my_data%3f Google의 서비스에 대한 관심이 높아지면서 서비스가 더 빠르면 놀라지 않을 것입니다. 나중에보다는 오히려. – msw

답변

0

방금 ​​google-code-export (Github에서 호스팅)이라는 프로그램을 완료했습니다. 이것은 예를 들어, XML 파일로 구글 코드 프로젝트를 내보낼 수 있습니다 :

>main.py -p synergy-plus -s 1 -c 1 
parse: http://code.google.com/p/synergy-plus/issues/detail?id=1 
wrote: synergy-plus_google-code-export.xml 

... synergy-plus_google-code-export.xml라는 이름의 파일을 생성합니다.

관련 문제