2012-06-20 4 views
0
나는이에 도움이 필요

... 나는 어디서부터 시작 내가 IT 학부입니다 .. 을 모르고, 내 파티원과 함께, 지금 진행하고 특히 때문에 회사에서의 현장 실습.데이터 추출, 자바

시나리오 : 회사에서 보고서를 생성하고 데이터베이스에 저장하는 프로그램을 만들 것을 요청했습니다. 사용할 데이터베이스는 MySQL입니다. 사용할 언어는 VB.Net, Java, PHP입니다.

  • 생성하는 보고서를 대조,

    1. 모든 보고서를 수집하여 데이터베이스에 사무실에 이메일을 통해
    2. 저장소를 전송됩니다 보고서를 생성 :

      이 프로그램은 할 수 있어야합니다 새로운 보고서를 본사로 보냅니다.

    지금은 입니다. 우리는 프로그램 실행 방법과 텍스트 파일에서 데이터를 읽고 추출 할 수있는 언어 (워드 문서 또는 PDF 파일 일 수 있음)를 결정하는 데 여전히 노력하고 있습니다.

    이 회사는 프로그램을 향후 확장을 위해 온라인 상태로 유지하기를 원합니다.

    지금, 우리의 문제는

    1. 중 하나를 자바, PHP는, VB는 다음의 MySQL DB에 저장 사용하여 PDF 또는 Word 파일에서 데이터를 추출 할 수있는 방법이 무엇입니까?
      • 제 3 자 소프트웨어를 사용하지 않고 구현할 수 있습니까?
      • 우리가 PDF 또는 Word 파일 형식을 사용하는 이유는 파일을 보관 목적으로 인쇄 할 수 있어야하기 때문입니다.
    2. 위의 문제를 해결하기 위해 어떤 프로그래밍 언어를 쉽게 사용할 수 있습니까?

      내가 제공하는 정보가 조금 엉망인 경우 사과하고 싶습니다. 이번 주에 회사와 이야기 할 수있게되면 추가 정보를 제공 할 것입니다.

      내가 게시 한 방식에 문제가 있다면, 용서해주십시오. 최선을 다해 정보를 제공하기 위해 최선을 다하고 있습니다.

  • 답변

    1

    나는 직장에서 사용하는 그대로 Java에 대해 대답 할 것입니다.

    쉽게 Word 파일에서 텍스트를 추출하거나 Apache POI

    PDF에 관해서는

    , iText 또는 PDFBox 모두 꽤 좋은 일을 함께 새 Word 파일을 구축 할 수 있습니다.

    +0

    감사 @olivier .. 나는 그 링크를 확인합니다 .. ^ _^ – user1468480

    +0

    어떻게 CSV 파일 형식에 대한? MySQL 데이터를 내보내고 CSV 형식으로 저장하는 것에 대해 읽은 적이 있지만이 형식이 무엇이며 어떻게 작동하는지 실마리가 없습니다. 파일 크기가 전자 메일인지 충분히 알 수 없습니다. 또 다른 점은 DB의 일부 데이터 만 내보내고 싶다는 것입니다. 유용한 링크가 도움이 될 것입니다. 많은 감사합니다. – user1468480

    0

    타사 소프트웨어를 사용할 수없는 이유는 무엇입니까? 가능하다면 How to read PDF files using Java?과 같은 것을 권할 것입니다.

    또는 .doc 파일 읽기 : 당신이 제 3 자 도구를 사용할 수없는 경우, 어쨌든 http://www.roseindia.net/tutorial/java/poi/readDocFile.html


    를 왜 사양을 읽고 PDF에서 텍스트를 추출하는 방법을 알아낼 수 없습니다, DOC , DOCX 파일? 여기

    당신은 DOC 사양을 찾을 수 있습니다 http://www.adobe.com/devnet/pdf/pdf_reference.html

    행운을 빕니다 : http://msdn.microsoft.com/en-us/library/cc313118.aspx 여기

    당신은 PDF 형식 사양을 찾을 수 있습니다!

    +0

    타사 소프트웨어를 사용할 수없는 이유는 시스템을 자동화 할 수 있어야하기 때문입니다. 비록 이지만 DB에 저장된 월별 데이터를 내보내고 다른 위치의 다른 DB로 가져 오는 다른 방법을 찾고 있습니다. – user1468480