2009-10-28 4 views
1

프로젝트의 경우 양식 10-K 보고서 (미국 기업의 연례 보고서)를 SEC website에서 긁어 내야합니다.다른 형식/레이아웃의 웹 페이지를 긁는 방법은 무엇입니까?

문제는 회사가이 데이터를 제출할 때 정확히 동일한 형식을 사용하지 않는다는 것입니다. 그래서 전을 위해., 2 개 개의 다른 기업 부동산 데이터가 마찬가지로

1st company 

Property name State City  Ownership Year Occupancy Total Area 
------------- ----- ------ --------- ---- --------- ---------- 
ABC Mall   TX Dallas Fee   2007 97%  1,347,377 
XYZ Plaza  CA Ontario Fee   2008 85%  2,252,117 



2nd company 

Property   % Ownership %Occupany Rent Square Feet 
--------------- ----------- --------- ----- ----------- 
New York City 
    ABC Plaza  100.0%  89.0%  38.07 2,249,000 
    123 Stores  100.0%  50.0%  18.00 1,547,000 
Washington DC Office 
    12th street  ....... 
    2001, J Drive ....... 

etc. 

다음과 같이 표시 될 수있는 데이터 레이아웃은 다른 회사에 대한 완전히 다른 수 있습니다.

복잡한 정규식 검색을 작성하는 것 외에이 유형의 이종 데이터를 긁을 수있는 더 좋은 방법이 있는지 알고 싶습니다.

저는이 작업을 위해 Java, Perl, Python 또는 Groovy를 사용할 자유가 있습니다.

답변

3

데이터를 가져올 때 각 페이지의 레이아웃을 설명하는 메타 파일 라이브러리를 유지하고 데이터를 가져올 때 사용할 수 있습니다.

이렇게하면 복잡한 reg-ex 명령이 필요하지 않으며 사이트의 디자인이 변경되면 파일 하나만 변경하면됩니다.

메타 파일을 만드는 방법은 당신에게 달려 있지만, 관련 클래스 이름이나 태그 같은 것이 좋은 시작일 수 있습니다.

그런 다음 해당 태그에서 데이터를 추출하는 방법을 설명하십시오.

거기에 도구가있는 경우 확실하지 않습니다.

다른 사이트의 소유자에게 연락하여 웹 서비스 또는 데이터를 가져올 수있는 형식의 피드를 제공하는지 확인하는 것이 좋습니다. 생각해야 할 많은 상심을 저장합니다.

+1

"멋진 2007 빈티지"방식은 RSS 피드를 요청하는 것입니다. "웹 서비스"또는 "RSS 피드"를 이해하는 사람을 SEC에서 찾는 것이 행운입니다. –

+1

Hehe, 예, 동의했습니다. 어쩌면 그들은 한 달에 한 번 운반 대 비둘기를 통해 양피지를 보낼 수 있습니다. – griegs

관련 문제