0
저는 screen-scraper를 사용하여 uspto.gov와 같은 웹 사이트의 데이터를 스크랩하는 프로젝트를 진행 중입니다. 지금 나는 웹 사이트를 긁어 내려고 노력했고 어느 정도는 성공했다.html 태그를 제외한 데이터 스크랩
담당자 : Lextine 소프트웨어, LLC (로스 알토 스, CA)
내가 원하는 "Lextine 소프트웨어, LLC (로스 알토 스, CA)"에
나는 다음 줄을 긁어 할 "Lexine Software, LLC"와 "(Los Altos, CA)"사이에있는 것을 없애기 위해 "양수인"밑에 긁어 모으십시오.
그래서 정규 표현식이 필요합니다.
도움이 될 것입니다.
미리 감사드립니다.
Python BeautifulSoup 또는 Java Jsoup..etc와 같은 html 파서를 살펴보십시오. 당신은 10 분 동안 그 도구를 배우는 데 보낸 후 정규식에 대해서 생각조차하지 않을 것입니다. –