2011-02-23 5 views
5

이 문제에 접근하는 방법을 알려주십시오.MS Word 문서에서 데이터베이스를 만드는 가장 좋은 방법은 무엇입니까?

MS Word의 문서에 메타 데이터 순차 목록이 있습니다. 기본 아이디어는 정보를 반복하는 Python 알고리즘을 작성하여 데이터베이스에서 큐가 작성되면 PROCESS의 이름 만 검색하는 것입니다.

예 메타 데이터 :

프로세스 : 프로세스 워커 (1965)
정확한 참조 :. 워커 공정 장비, 주식 회사 V 식품 기계 (주)

링크 :.http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

절차 유형 : 미국 법원에 일곱 번째 회로에 대한 항소. 당사자 : 워커 공정 장비, 주식

업종 시스템은 ...

시작 날짜 : 10월 12일에서 13일까지 Arguedas, 1965
이 요약 : 식품 기계 회사 개시 한 사기로 얻은 특허를 사용하여 경쟁 업체의 진입을 막거나 늦추는 프로세스. 이 사건은 하수 처리 시스템의 폭기 장치에 사용 된 "무릎 동작 스윙 디퓨저"에 관한 특허이며, 특허 사무소 이전에 사기로 얻은 특허의 유지 및 집행이 독점 금지 처벌의 근거가 될 수 있는지에 대한 질문이있었습니다. 진화 과정의
보고서 : 청원, 대응 대답 ...

중요도 : 분쟁의 진단을위한 분석을 설립 A) 첫 번째 경우 ...

는 약 200 페이지가 있습니다 위의 정보가 포함되어 있습니다.

나는이 정보 시퀀스를 깨뜨릴 수 있고이를 (내가 찾고있는 오픈 소스 응용 프로그램) 웹 데이터베이스에 저장할 수 있도록 알고리즘을 파이썬으로 구현한다는 생각을 가지고있다. 무료 상담.

+0

항상 동일한 섹션을 동일한 순서로 사용합니까? "프로세스 : ..."항상 첫 번째 줄입니까? – Orbling

+0

@ S.Lott : 나는 그것이 매우 합리적인 질문이라고 생각했다. 다음은 데이터 형식입니다. 어떻게 데이터를 데이터베이스로 리핑 할 수 있습니까? – Orbling

+0

어떤 버전의 Word입니까? 2007 (.docx)라면 [Office Open XML] (http://en.wikipedia.org/wiki/Office_Open_XML) – Jetti

답변

3

문서를 일반 텍스트로 변환하려면 AntiWord을 확인한 다음 스크립트에 파이프 할 수있는 형식으로 변환하려면 grep 및 sed를 확인하십시오.

2

최근 버전의 Word에서는 문서를 XML 형식으로 저장할 수 있습니다. 이는 명시 적으로 "다른 이름으로 저장"을 선택하고 XML을 선택하거나 .docx 파일의 압축을 풀고 XML을 구문 분석하여 수행 할 수 있습니다. XML 형식은 Word 버전 (2003 Office XML 또는 2007/2010 Office Open XML)에 따라 온라인으로 문서화됩니다.

더 강력한 기능 (예 : 문서 조작이 필요한 기능)을 사용하려면 .NET (MS Open XML SDK 또는 Aspose .Words)과의 인터페이스가 필요합니다.

관련 문제