2014-11-28 3 views
0

저는 R을 사용하여 새로운 기능을하고 있으며 Scopus에서 데이터베이스를 정리하려고합니다. 많은 정보가 공백, 쉼표, 세미콜론 등으로 구분 된 셀이 들어있는 Excel 시트입니다. ... 내가 가진 아이디어는 MS Excel 명령의 "셀에 텍스트"를 사용하여 데이터를 분리 한 다음 나중에 MS Access와 바꾸기 버튼을 사용하여 데이터를 정리하는 것입니다.데이터 정리, 협업 네트워크

: 그러나, 나는 R 데이터 마이닝 기능을 많이 가지고 있다는 것을 알고 그래서

내가 532 행의 열이 ... 당신의 조언을 부탁드립니다, 각 셀은 다음과 같이 유사한 구조를 가지고 Bitzer, V., 케이프 타운 대학, 포트 우드로드, 그린 포인트 케이프 타운, 남아프리카 공화국 대학원; Glasbergen, P., 지속 가능한 발전을위한 거버넌스 ICIS, Maastricht University, P.O. Box 616Maastricht, MD, Netherlands

문자열은 "Bitzer, V."라는 이름으로 시작됩니다. 소속 학교와 세미콜론으로 각 저자를 구분합니다.

특정 대학에 소속 된 저자를 추출한 다음 종이 공동 작업을 기반으로 한 다이어드를 만들어야합니다.

어떤 제안이 너무 많이 주시면 감사 드리겠습니다

...

마리오

답변

0

나는 R에 익숙하지 오전하지만이 OpenRefine의 작업처럼 보인다. Regex를 사용하여 문자열을 검색하고 사용자 정의 필터/패싯을 만들어 데이터 집합의 범위를 좁힐 수 있습니다.

데이터를 정리 한 후에는 CSV 또는 Excel 형식으로 내보내고 Access에서 가져올 수 있습니다.

+0

답장을 보내 주셔서 감사합니다. OpenRefine을 사용해 보겠습니다. –