2017-04-25 2 views
0

나는 다음과 같은 데이터의 열을 포함하는 스크랩 한 데이터 세트가 있습니다Alteryx에서 html 태그의 번호를 추출하는 방법은 무엇입니까?

<td>1,968</td> 
<td>185</td> 
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td> 

내가 데이터를 처리 할 수 ​​Alteryx을 사용하고 있습니다 및 나는 html 태그 <td></td> 사이의 번호를 추출하는 정규식을 사용하고 싶습니다. 그래서 위의 경우 1968, 185, 1285로 돌아 가야합니다. 다음 정규식을 시도했지만 어느 것도 작동하지 않았습니다. using this tester. 정규식의 버전은 Alteryx의 R이어야하지만 확실하지는 않습니다.

>([0-9]+)< 

>[0-9]+< 

누군가가이를 밝힐 수 있습니까? 감사!

+0

'라이브러리 (rvest); ' 1,968 185 1,285 [4]'%> % read_html() %> % html_nodes ('TD') %> % HTML_TEXT () %> % readr :: parse_number()' – alistaire

+1

왜냐하면 http://stackoverflow.com/a/1732454/4497050 – alistaire

+0

R에는 패키지와 추가 인수에 따라 다른 정규 표현식이 있습니다. "정규식의 버전은 R이어야합니다"라고 말하면 여기에는 아무 것도 명확하게 표시되지 않습니다. [Docs say] (https://help.alteryx.com/9.5/RegEx.htm) 부스트입니다. R은 부스트를 지원하지 않습니다. R 태그를 제거했습니다. –

답변

1

다른 Alteryx 접근법 : 수식 도구를 사용하여 <td>과 쉼표 및 공백을 제거한 다음 선택 도구를 사용하여 원하는 숫자 유형의 문자를 전송하면 ... 모든 항목이 자동으로 첫 번째 숫자가 아닌 문자.

+0

이것은 흥미 롭습니다. 수식을 공유 할 수 있습니까? 감사! –

+0

'[f1]'필드를 가정 할 때, 다음은 'Replace'를 세 번 사용하여 앞에서 언급 한 세 항목을 제거합니다. 'Replace (Replace (Replace ([f1]', "", " ")," "," ") – johnjps111

+0

이것은 훌륭합니다, 고마워요! –

관련 문제