2016-10-20 2 views
0

Microsoft Word 문서의 모든 동사를 검색 할 수 있는지 알고 싶습니다.Microsoft Word 문서의 모든 동사 찾기

특정 동사의 모든 "형식"을 찾을 수 있습니다 (예 : "be"검색, "be", "am", "are", "was"등을 찾을 수 있음). .)하지만 좀 더 일반적인 것이 필요합니다. 모든 동사 (어쩌면 그들의 형식)를 찾으십시오.

나는 또한 Checking whether a particular word is a noun or verb을보고 "Using VBA"를 보았습니다. 모든 동사를 찾거나 단어에 관한 메타 데이터/레지스트리에 액세스하기 위해 ms-Word에서 사용할 수있는 API가 있습니까? 아니면 거기에 사용할 수있는 특별한 정규식 일종인가요?

가끔은 단어가 명사인지 동사인지를 판단 할 수 없지만 100 % 정확하지 않으면 문제가되지 않는다고 생각합니다.

일부 컨텍스트의 경우 : 저는 프랑스어로 글을 쓰고 있습니다. ms-Word가 많은 실수를 발견하더라도 모두 찾지는 못합니다. ms-Word에는 표시되지 않는 반복적 인 실수가 있지만 모든 동사를 검색하면 쉽고 빠르게 확인할 수 있습니다 (전체 문서를 다시 읽는 것보다 빠름).

Microsoft Office 2007 SP3을 사용하고 있습니다.

편집 : 물론 가능한지 확실하지 않지만 ms-Word는이 사실을 알고있는 것 같습니다. 나는 ms-Word가 문법적 실수를 교정 할 수있는 방법에 근거하여 단어가 동사인지, 명사인지, 복수인지 등을 찾는 몇 가지 방법이 있다고 생각합니다. 어쩌면 ms-Word의 작동 방식이 틀렸을 수도 있습니다. 아마도 맞을지 모르지만 이러한 종류의 데이터에 액세스 할 수있는 방법은 없습니다. 그리고 내가 옳다면 접근 할 수 있습니다. 어떻게?

+0

어떤 프로그래밍 언어? – Fredrik

+0

당신이 연결하는 지점은 이것이 거의 불가능하다는 것을 정확하게 지적합니다. 이것은 동사가 무엇인지를 결정하기 위해 상당히 복잡한 AI를 필요로합니다. 컴퓨터가 동사가 무엇인지 결정하도록하면 더 많은 오류가 발생할 수 있습니다. – Carcigenicate

+0

@FredrikRedin 정규 표현식이나 VBA (ms-Word가 어떤 종류의 API를 보여 주었다면)로 기대하고있었습니다. – Asoub

답변

1

정규식은 검색 패턴을 정의하는 일련의 문자를 만드는 표준이지만 결과를 해석하는 데는 여전히 프로그래밍 언어가 필요합니다. 프로그래밍에 익숙하지 않은 분이라면 VBA와 다른 많은 것보다 현대적이고 IMO가 쉬우 며 Microsoft의 'OpenXML SDK'와 함께 Word 문서를 프로그래밍 방식으로 쉽게 읽고 해석 할 수 있습니다. 단어가 동사인지 아닌지를 결정하기 위해, 좋은 사전 REST API를 사용하여 나를 도울 것입니다 (많은 사전 API가 있습니다).

편집 : Java에 익숙하면 Java를 사용하십시오. .docx 파일은 실제로 XML이므로 Java를 사용하여 XML로 드릴 다운하고 모든 텍스트 요소를 찾을 수 있습니다 (선택한 사전 REST API를 호출 할 수 있음). .DOCX 문서의

XML 구조 :

<w:document xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main"> 
    <w:body> 
    <w:p> 
     <w:r> 
     <w:t>Example text.</w:t> 
     </w:r> 
    </w:p> 
    </w:body> 
</w:document> 

행운

의 OpenXML SDK : msdn.microsoft.com/en-us/library/office/bb448854.aspx https://msdn.microsoft.com/en-us/library/office/ff478541.aspx

사전 API : http://www.programmableweb.com/category/dictionary

독서 방법 o r에 Docx 파일 java : https://stackoverflow.com/a/7102794/1380061

관련 문제