2016-11-05 4 views
-1

단어 구름을위한 텍스트를 준비 중이지만 멈 춥니 다.문자열에서 문자/부호 제거 중

모든 숫자를 제거해야합니다. 모든 기호는 마찬가지입니다. , -? = /! @ 등.하지만 어떻게해야할지 모르겠다. 나는 몇 번이고 반복하고 싶지 않다. 거기에 대한 방법이 있습니까? --- 나는 특정 삭제할 지금 여기

  • 이야

    • 연결하여 텍스트를 하나 개의 문자열에
    • 설정 문자를 <를 소문자로 : 여기

      내 개념 내가 무엇을해야 할 것입니다 징후와 단어에 텍스트를 분할 (목록) 단어의
    • 계산 주파수
    • 다음을 수행 불용어 스크립트 ...
    ,
    abstracts_list = open('new','r') 
    abstracts = [] 
    allab = '' 
    for ab in abstracts_list: 
        abstracts.append(ab) 
    for ab in abstracts: 
        allab += ab 
    Lower = allab.lower() 
    

    텍스트 예 :

    마이크로 RNA (miRNA가)는 비 암호화 RNA 분자 클래스 인 전사 후 수준에서 표적 유전자의 발현을 하향 조절 길이 약 19 내지 25 개 뉴클레오티드 3'- 비 번역 영역 (3'-UTR)에 결합하는 것으로 확인되었다. Epstein-Barr 바이러스 (EBV)은 적어도 44 개의 miRNA를 생성하지만, 이들 대부분의 기능은 아직 밝혀지지 않았습니다. 이전에 BRUCE는 으로 EBV에 의해 생성 된 miRNA 인 miR-BART15-3p의 표적으로보고되었지만 데이터 은 miR-BART15-3p의 다른 세포 자살 관련 표적 유전자 이있을 수 있다고 제안했습니다. 따라서 본 연구에서는 in silico 분석을 이용하여 miR-BART15-3p의 새로운 표적 인 유전자를 탐색 하였다. 우리는 Tax1- 결합 단백질 1 (TAX1BP1)의 3'-UTR에서 가능한 시드 매치 사이트를 발견했다. TAX1BP1의 3'-UTR을 포함하는 리포터 벡터의 루시퍼 라제 활성은 miR-BART15-3p에 의해 감소되었다. MiR-BART15-3p는 AGS 세포에서 TAX1BP1 mRNA 및 단백질의 발현을 이 발현을 저해하는 반면, miR-BART15-3p에 대한 억제제는 AGS-EBV 세포에서 TAX1BP1 mRNA 및 단백질의 발현을 상향 조절 하였다. 위 - 암 세포주에서 Mir-BART15-3p 조절 된 NF-κB 활성. 더욱이, miR-BART15-3p 은 5- 플루오로 우라실 (5-FU)에 대한 화학 감수성을 강력하게 촉진시켰다. 우리의 결과는 miR-BART15-3p가 항암제 TAX1BP1 유전자를 암세포에 표적으로하여 증가 된 세포 사멸과 화학 감수성을 일으킨다는 것을 암시한다. 5-FU.

  • +3

    을 어디의 당신의 코드, 정확히 무엇이 문제입니까? 이것은 코드 작성이나 튜토리얼 서비스가 아닙니다. – jonrsharpe

    +0

    [문자열에서 숫자가 아닌 문자를 모두 파이썬에서 제거] (http://stackoverflow.com/questions/1249388/removing-all-non-numeric-characters-from-string-in-python) – tanaydin

    +0

    표시하십시오. 지금까지 해봤 던 것. – Soviut

    답변

    2

    그래서 당신이 할 수있는 경우 문자를 낮추기 위해 대문자를 설정하려면 다음 그래서 그냥

    STRING=re.sub('([A-Z]{1})', r'\1',STRING).lower() 
    

    이제 예를 들어 STRING와 다음을 사용하여 명령, 문자열 변수에 텍스트를 저장하여 문자열에는 대문자가 없습니다.이들과

    STRING = re.sub('[^a-zA-Z0-9-_*.]', ' ', STRING) 
    

    당신의 문자열에 특수 문자가

    그리고 당신은 할 수 단어 주파수를 결정하기 위해 무료로 될 것입니다 명령 :

    다시 모듈 다시는 하위 명령으로 당신을 도울 수있는 특수 문자를 제거하려면 카운터를 가져와야하는 모듈 콜렉션을 사용하십시오.

    Counter(STRING.split()).most_common()

    0

    내가 아마 string.isalpha()를 사용하려고 할 것 :

    는 그런 단어가 발생하는 빈도 확인하려면 다음 명령을 사용

    abstracts = [] 
    with open('new','r') as abstracts_list: 
        for ab in abstracts_list: # this gives one line of text. 
         if not ab.isalpha(): 
          ab = ''.join(c for c in ab if c.isalpha() 
         abstracts.append(ab.lower()) 
    # now assuming you want the text in one big string like allab was 
    long_string = ''.join(abstracts)