'text'열이있는 Excel 파일에서 지정된 단어를 포함하는 문장을 나에게 돌려주는 함수를 정의했습니다. 내가word 토크 나이저의 부분 문자열 일치
words = ['word1','word2','word3'.......]
df['text'].apply(lambda text: [sent for sent in sent_tokenize(text)
if any(True for w in word_tokenize(sent)
if w.lower() in searched_words)])
다음과 같이 인수로 여러 단어를 통과 할 수 있도록 는 그리고 @Julien Marrec의 도움으로 나는 기능을 재정의 그러나 문제는 비 구조화 (GB의에서 일반적으로) 데이터 세트는 꽤 거대한입니다. 누군가가 나에게 제안 할 수있는 방법은 문장이 'xxxxxword1yyyyy'이면이 함수도이 문장을 반환 할 수 있어야합니다.
하위 단어 일치 (제목에도 해당)에 대한 질문을 이해하지만 데이터 크기와 관련하여 어떤 문제인지 잘 모르겠습니다. 처리 시간이 오래 걸리거나 메모리가 부족합니까? – lenz
@lenz 나는 데이터 크기에 대해서 언급했다. 왜냐하면 많은 시간이 걸리기 때문에 누군가가 형태소 분석을 제안 할 수도 있기 때문이다! 형태소 분석은 일부 전형적인 경우에만 원하는 출력을 줄 것입니다. – user7140275