pdf-scraping

    -1

    1답변

    사이트에서 수백 개의 pdf 문서를 다운로드하고 싶습니다. 나는 SiteSucker와 같은 도구를 사용해 보았지만 작동하지 않습니다. 파일과 페이지 사이에 "분리"가 있기 때문에 작동하지 않습니다. 웹 사이트 프로그래밍이나 스크래핑에 대해 많이 알지 못하기 때문에이 방법을 더 잘 설명하는 방법을 모르겠습니다. 이것이 무엇이고 어떻게 우회 할 수 있는지에 대

    0

    1답변

    여기에 내 pdf 찾았습니다. THIS을 발견했으며 내 PDF를 스크랩하는 데 사용했습니다. 6 BEDROOMS NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant Prop # Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -

    1

    1답변

    PDF에서 데이터를 추출하고 특정 카테고리로 분할하려고합니다. PDF에서 데이터를 추출하고 범주에 따라 글꼴을 기준으로 분할 할 수 있습니다. 크기. 예를 들면 : 3 개의 카테고리, 국가 카테고리, 자본 카테고리 및 도시 카테고리가 있다고합시다. 모든 국가, 수도 및 도시를 각각의 범주에 넣을 수 있습니다. 그러나 어떤 자본이 어떤 도시에 속하고 어떤 국

    1

    1답변

    을 사용하여 텍스트를 강조 표시 (강조 표시) pdf 내용을 텍스트로 변환하는 C# winform 응용 프로그램을 개발 중입니다. pdf의 강조된 텍스트에서 발견 된 내용을 제외하고 필요한 모든 내용이 추출됩니다. pdf에있는 강조 표시된 텍스트의 샘플을 추출하는 데 도움을주십시오. 프로젝트에서 iTextSharp.dll을 사용하고 있습니다.

    -1

    1답변

    pdf에는 줄 바꿈 된 데이터가 포함되어 있으며 표제와 그에 해당하는 값이 들어있는 줄 다음에 표가 있으며 규칙적으로 가져올 수는 없지만 오히려 내가 완전한 열 머리글을 하나의 text.I 다른 하나의 데이터를 얻으려면, 줄 다음에 현재의 행과 그 해당 값을 연결할 수 있습니다, 나는 테이블에 대해 동일한 작업을 수행 할 수 없습니다. fp = open(m

    0

    1답변

    5 개의 열로 정렬 된이 PDF 파일이 있습니다. 나는 Stack Overflow (와 Googled crazily)를보고 보았고 (Adobe Acrobat 자체를 사용하는 최후의 수단을 포함하여) 모든 솔루션을 시도했습니다. 그러나 어떤 이유로 나는 5 개의 열을 csv/xls 형식으로 가져올 수 없습니다. 일반적으로 데이터를 내보낼 때 형식이 끔찍하며

    4

    1답변

    바꾸어야 할 텍스트가있는 PDF 파일이 있습니다. 보다 구체적으로, 텍스트는 번역되어 번역 된 버전으로 대체되어야합니다. 나머지 PDF 구조는 그대로 유지하는 것이 중요합니다. 이 텍스트는 PDF에서 사용할 수 있으며 OCr과 같은 기술은 필요하지 않습니다. 또한 글꼴 및 기타 텍스트 특성을 유지하면 좋을 것입니다. 텍스트를 쉽게 편집 할 수있는 형식 (예

    0

    1답변

    나는 스크래핑 프로그램을 작성 중입니다. 맨 처음 앵커 태그를 클릭 할 수 있지만 다시 한 번 같은 루프가 반복되지 않습니다. IE의 Watin 인스턴스에서이 작업을 수행했습니다. 나는 이것이 한 IE 인스턴스의 뒷면 때문이라고 생각하지 않습니다. 두 가지 코드를 찾아보십시오. PDF 파일의 방법 다운로드 private void DownloadFiles(I

    4

    3답변

    큰 PDF 문서를 파일의 내용에 따라 작은 파일로 분할해야한다는 요구 사항이 있습니다. 우리는 BCL easyPDF를 사용하여 pdf 파일을 조작합니다. easyPDF는 페이지 번호를 기반으로 PDF 문서를 분할 할 수 있지만 파일 내용을 기준으로 문서를 분할 할 수는 없습니다. 또한 검색 기능이 없습니다 (내가 잘못하면 누군가에게 알려주십시오.) 콘텐츠의

    -2

    3답변

    기본적으로 가지고 싶은 것은 행 헤더 아래에있는 PDF 데이터 또는 PDF 파일에서 데이터베이스를 만들고 싶습니다. 각 PDF는 25 개로 구성됩니다. 유권자 수에 따라 40 페이지. A page of pdf file I am talking about 나는 상자에서 데이터를 추출 할 (또는 당신이 그들을 무엇을 말) 각 상자에서 이름 이름 열 관계 아래에