2014-02-19 1 views
0

저는 Java에서 초보자이며 웹 사이트의 소스 코드를 스캔하고 그 안에 포함 된 모든 하이퍼 링크를 추출하는 프로젝트를 진행하고 있습니다. 지금까지는 내 프로젝트가 스캐너 (in.next())를 사용하여 소스 코드의 모든 단어를 스캔하도록했습니다. 그러나 하이퍼 링크를 추출하는 데 구분 기호를 사용해야한다고 들었지만 간신히 찾을 수는 있습니다 내가 그들을 사용하는 데 도움이되는 모든 정보! 누군가 나에게 구분 기호를 설명하는 데 도움을 줄 수 없었으며이 프로젝트에서 어떻게 사용할 수 있습니까? 정말로 감사 할 것입니다.구분 기호를 사용하여 하이퍼 링크 추출 - Java

import java.io.BufferedReader; 
import java.io.IOException; 
import java.io.InputStreamReader; 
import java.net.MalformedURLException; 
import java.net.URL; 
import java.util.Scanner; 
import java.util.ArrayList; 


public class HyperlinkMain { 
public static void main(String[] args) { 
    try { 
     Scanner in = new Scanner (System.in); 
     String URL = in.next(); 

     URL website = new URL(URL); 
     Scanner inWebsite = new Scanner (website.openStream()); 

     String inputLine; 

     while ((inWebsite.hasNext())) { 
      // Process each 'word'. 
      System.out.println(inWebsite.next()); 

     } 
     in.close(); 

    } catch (MalformedURLException me) { 
     System.out.println(me); 

    } catch (IOException ioe) { 
     System.out.println(ioe); 
    } 
} 
} 
+1

HTML 구문 분석기와 XPath를 사용하십시오. – qqilihq

+0

[이는 질문에 대답합니까 ... 당신과 매우 유사한 문제처럼 보인다?] [1] [1] : https://stackoverflow.com/questions/17356213/delimiter-with- java-line-of-input – Blankfish01

+0

어떤 구분자를 찾으십니까? "href ="를 검색하면됩니다. –

답변

관련 문제