프로젝트의 경우 양식 10-K 보고서 (미국 기업의 연례 보고서)를 SEC website에서 긁어 내야합니다.다른 형식/레이아웃의 웹 페이지를 긁는 방법은 무엇입니까?
문제는 회사가이 데이터를 제출할 때 정확히 동일한 형식을 사용하지 않는다는 것입니다. 그래서 전을 위해., 2 개 개의 다른 기업 부동산 데이터가 마찬가지로
1st company
Property name State City Ownership Year Occupancy Total Area
------------- ----- ------ --------- ---- --------- ----------
ABC Mall TX Dallas Fee 2007 97% 1,347,377
XYZ Plaza CA Ontario Fee 2008 85% 2,252,117
2nd company
Property % Ownership %Occupany Rent Square Feet
--------------- ----------- --------- ----- -----------
New York City
ABC Plaza 100.0% 89.0% 38.07 2,249,000
123 Stores 100.0% 50.0% 18.00 1,547,000
Washington DC Office
12th street .......
2001, J Drive .......
etc.
다음과 같이 표시 될 수있는 데이터 레이아웃은 다른 회사에 대한 완전히 다른 수 있습니다.
복잡한 정규식 검색을 작성하는 것 외에이 유형의 이종 데이터를 긁을 수있는 더 좋은 방법이 있는지 알고 싶습니다.
저는이 작업을 위해 Java, Perl, Python 또는 Groovy를 사용할 자유가 있습니다.
"멋진 2007 빈티지"방식은 RSS 피드를 요청하는 것입니다. "웹 서비스"또는 "RSS 피드"를 이해하는 사람을 SEC에서 찾는 것이 행운입니다. –
Hehe, 예, 동의했습니다. 어쩌면 그들은 한 달에 한 번 운반 대 비둘기를 통해 양피지를 보낼 수 있습니다. – griegs