2013-03-11 2 views
0

텍스트 내에서 단어와 구문을 추출해야합니다. ([а-яА-Яё-]파이썬을 사용하여 텍스트에서 단어를 추출하는 방법은 무엇입니까?

입니다
Привет 
как 
дела 
еще 
одно 
русское 
слово 
слово-1224 

, 내가 러시아 글자로 시작하는 모든 단어의 텍스트 걸릴해야합니다

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456 

그리고 스크립트는 다음 반환해야합니다 : 예를 들어, 텍스트는)이며 러시아 알파벳의 숫자와 문자를 포함 할 수 있습니다. 어떻게 구현됩니까?

+0

당신이 이것에 대해 이야기하고 생각 http://stackoverflow.com/questions/5717886/python-regex-extracting-whole-words 감사합니다. –

+1

정규식을 사용한 간단한 작업입니다. 그냥 그들이 일하는 방법을 읽어보십시오 :) –

+1

단어 중 일부는 중간에 "-"가 있지만 질문에는 언급하지 않았습니다. – LtWorf

답변

1

내가 생각했던 것보다 조금 더 까다 롭습니다. 시끄러운 문자는 사용하지 않았습니다. 나는 이것이 무엇을해야 믿는다 :

text = # Set you're input unicode string here. 
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text) 

for word in words: 
    print word 
관련 문제