2012-06-20 2 views
2

나는 수행중인 체계적인 문헌 검토를 위해 다음 프로세스를 자동화하는 데 관심이 있습니다.웹 사이트에서 검색을 실행하고 결과를 반환하는 스크립트

나는 질병을 일으키는 대리인 목록을 가지고 있으며, 의학 문헌에 대한 배치 검색을 실행하고 각 버그 유형별로 얼마나 많은 결과를 얻었습니까? 그런 다음이를 좋은 CSV 파일에 넣어서 읽을 수 있습니다. R로 변환하고 통계/빈도 분포 등을 계산합니다.

Excel 스프레드 시트와 CTRL C + CTRL V로이 작업을 수행 할 수 있지만 다소 시간이 걸릴 수 있습니다.

기본적으로 검색하고자하는 데이터베이스를 호스팅하는 OvidSP과 이야기하고 싶다면 정확한 검색을 위해 올바른 형식의 문자열을 입력해야합니다. 그런 다음 OvidSP에서 검색을 실행하고 얼마나 많은 조회가 발생 하는지를 반환하십시오. 나는 그들이 API를 사용할 수 있다면 이것이 쉽다는 것을 짐작한다 - 나는 이것에 관하여 그들에게 직접 이메일을 보냈다.

누구나 이것이 가능한지 또는이 작업을위한 스크립트를 프로그래밍하는 가장 좋은 방법이 될지 생각했는지 궁금했습니다. Java, C++에 대한 경험이 있고 R을 배우기 시작했습니다. Python을 사용할 수 있는지 궁금합니다.

이 내가 검색 할

버그를 달성하기 위해 무슨 희망의 빠른 그림입니다
* 살모넬라
* 대장균 (CSV 파일을 통해 프로그램에 공급이 말할 수)
* 인플루엔자

내 자격 증명을 오비디우스에 연결하고 다음 검색

1 실행 여기에 화려한 프로그램에 삽입 - 살모넬라 및 발열 및 병원 - 반환 9342 개 결과
2 - 대장균 및 발열 및 병원 - 리턴 93,821 결과
3 - 인플루엔자 및 발열 및 병원 - 리턴 323 개 결과

프로그램은 내가 어떤 통계에 사용할 수있는 잘 포맷 된 CSV 파일에서이 데이터를 기록

나는 그것이 의미가 있기를 바랍니다! 미리 감사드립니다.

답변

0

그것은 원칙적으로 해 드리겠습니다, 큰 문제가 (잠재적 하드, 잠재적으로 쉬운) 반환 데이터를 분석 할 것, 및 인증 (아마 하드,하지만 자신의 사이트의 구조에 따라 다름)된다.

찾고 싶은 파이썬 모듈은 urllib2 (요청의 경우), csv (CSV의 경우) 및 beautifulSoup입니다.

Python에서이 글을 쓰면 좋은 점은 반환 된 html을 대화식으로 (파이썬 셸에서) 탐색 할 수 있기 때문에 html에서 흥미로운 데이터를 추출하는 방법을 쉽게 이해할 수 있다는 것입니다. 돌아올거야.

관련 문제