R을 사용하여 텍스트 분석을하고 있으며 다른 대문자로 표시된 단어를 그대로 유지하면서 문장의 첫 번째 글자를 소문자로 변환해야했습니다. 그래서 나는 명령을 사용했습니다.은 R을 사용하여 txt 파일의 빈 줄을 제거 할 수 없습니다.
x <- gsub("(\\..*?[A-Z])", '\\L\\1', x, perl=TRUE)
부분적으로 작동했지만 부분적으로는 사용했습니다. 문제는 텍스트 분석에서 pdf 파일을 txt 형식으로 변환해야하고 이제는 txt 파일에 빈 줄 (페이지 나누기, 반환 가능성이 있음)이 많이 포함되어 있으므로 사용 된 명령은 대문자를 변환하지 않습니다. 새 줄에 나타납니다. gsub에 \ r, \ n을 여러 개 사용하여 빈 줄을 제거하려고했지만 아무 것도 작동하지 않습니다. 나는 검사 할 때 (x)는 TM-패키지의 출력은 다음과 같은 방법으로 보인다 :
[346]
[347] Thank you.
[348]
[349] Vice President of Investor Relations
[350]
누군가가 나를 도울 수 있다면 나는 감사 드리겠습니다!
'문장의 첫 글자'란 무엇을 의미합니까? 글자는 몇 개입니까? 모두들? 그들 중 일부는? –
그냥 첫 번째 주요 하나, 그래서 그것은 모양 : '[341] 효율성과 생산성. 우리가 생각하는 ' –