토큰 화 된 텍스트에서 특정 표현식을 계산하려고합니다. 내 코드는 다음과 같습니다.목록의 count() 내의 정규 표현식이 작동하지 않습니다.
tokens = nltk.word_tokenize(raw)
print(tokens.count(r"<cash><flow>"))
'토큰'은 토큰 화 된 텍스트 목록입니다 (일부는 아래에 표시). 하지만 여기 정규식이 작동하지 않고 결과가 'cash flow'가 0 번 발생하는 것을 보여줍니다. 이는 올바르지 않습니다. 그리고 오류 메시지가 나타납니다. 내가 '현금'만 계산하면 잘 작동합니다.
'that', 'produces', 'cash', 'flow', 'from', 'operations', ',', 'none', 'of', 'which', 'are', 'currently', 'planned', ',', 'the', 'cash', 'flows', 'that', 'could', 'result', 'from'
누구나 문제를 알고 있습니까?
그런 다음 개별적으로 계산하십시오. –
@LukStorms pls는 – dwill
@ WiktorStribiżew 위에 추가 된 토큰의 입력을 볼 수 있습니다. 내 경우에는 실제로 함께 계산해야합니다. '현금'과 '흐름'은 분명히 다른 곳에 나타날 것입니다. – dwill