2014-09-09 3 views
0

저는 screen-scraper를 사용하여 uspto.gov와 같은 웹 사이트의 데이터를 스크랩하는 프로젝트를 진행 중입니다. 지금 나는 웹 사이트를 긁어 내려고 노력했고 어느 정도는 성공했다.html 태그를 제외한 데이터 스크랩

담당자 : Lextine 소프트웨어, LLC (로스 알토 스, CA)

내가 원하는 "Lextine 소프트웨어, LLC (로스 알토 스, CA)"에

나는 다음 줄을 긁어 할 "Lexine Software, LLC"와 "(Los Altos, CA)"사이에있는 것을 없애기 위해 "양수인"밑에 긁어 모으십시오.

그래서 정규 표현식이 필요합니다.

도움이 될 것입니다.

미리 감사드립니다.

+0

Python BeautifulSoup 또는 Java Jsoup..etc와 같은 html 파서를 살펴보십시오. 당신은 10 분 동안 그 도구를 배우는 데 보낸 후 정규식에 대해서 생각조차하지 않을 것입니다. –

답변

1

기본 정규식은 이후 수있는 문자열 긁어 :

/Assignee:(.*)/ 
=> "Lextine Software, LLC (Los Altos, CA)" 

/Assignee:(.*)\(/ 
=> "Lextine Software, LLC" 

가 첫 경기를 사용할 수 있는지 확인을!