2017-09-20 5 views
-1

20 분 전에 openrefine을 배우기 시작했습니다. 데이터의 각 청크 시작 부분에 일관된 헤더 ("JP")로 구분 된 데이터가있는 텍스트 파일이 있습니다. 데이터 덩어리가 모두 동일한 수의 줄이 아닙니다. 원본 데이터의 각 덩어리를 오픈 라인에 1 행 씩 넣기를 원합니다. 어떻게해야합니까?행의 열을 파일로 구분

편집 : 여기 샘플이 있습니다. 그것은 꽤 지저분한 파일이지만 각 개별 항목의 시작 부분에 JP를 의지 할 수 있습니다.

JP 
0034 
1-25-60 
01 
checked 1/92 

I am so happy to have taken these. The brown envelopes, blah blah. roll 1: Is a retirement event [EW] 
JP 
0035 
2-1-60 
01 
checked 1/92 

Bill therapy 

JP 
0036 
2-11-60 
01 
Checked 1/92 

Bill: there are many 

EW: The bills look good. 

I remember Babies used to look like this everyday, with the staff coming and going, all nice and professional. 
JP 
0037 
2-11-60 
01 

checked 1/92 
BLAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH. blah blah blah blah bal… 
oops>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 

again 

JP 
0039 
2-11-60 
01 
checked 1/92 

JP 
0041 
3-14-60 
+0

질문은 – pintoch

+0

일이 pintoch하는 예를 훨씬 명확 것입니까? 'JP'가 줄 사이의 구분자인지 필드 사이의 구분자인지, 그리고 이것이 어떻게 '줄 구분 파일'이라는 생각과 관련이 있는지 명확하지 않습니다. –

+0

원래 질문에서 샘플을 추가했습니다. 그것은 내가 처리해야하는 지저분한 파일입니다. "JP"사이의 모든 행에 대해 행을 원합니다. 나는 각 줄마다 한 칸을 원한다. 일부 행에는 다른 행보다 많은 열이 있습니다. 이 맥락에서는 괜찮습니다. –

답변

0

다음은 솔루션의 예입니다.

1 "라인 기반 텍스트"옵션을 선택하고 "빈 행 저장"확인란의 선택을 취소하여 텍스트를 엽니 다.

2 프로젝트의 단일 열에 "JP"라는 단어가 포함 된 행을 분리하려면 텍스트 필터를 사용하십시오.

3이 필터링 된 열을 기반으로 새 열을 만들고 처음으로 옮깁니다.

4 첫 번째 단어에서 JP 단어를 삭제합니다 (Transform -> null).

5 공간을 구분 기호로 지정하여 원래 열에서 "다중 값 셀 결합"을 사용하십시오.

이 모든 것들이 스크린 캐스트를 통해 훨씬 더 명확 해집니다. 당신은 몇 가지 예를 들어 데이터를 게시 할 수 -

enter image description here

+0

와우, 고마워! 질문 : 4 단계에서 여러 값을 갖는 셀 잼을 하나의 셀에 결합하십시오. 어떻게 세포를 유지할 수 있습니까? 그렇지만 세포가 가지고있는 줄에 세포를 가지고 있습니까? –

+0

두 번째 열의 각 셀에 "END"를 추가하여 만들었습니다. 그런 다음 셀을 결합한 후 분할 자로 "END"를 사용하여 열로 분할했습니다. 감사! –

+0

당신을 진심으로 환영합니다. 답이 맞다면 대답을 수락하는 것을 잊지 마십시오. 주제를 닫을 수 있습니다. –

관련 문제