TSV 형식의 파일 (탭으로 구분 된 값)을 구문 분석해야합니다. 정규식을 사용하여 파일을 각 줄로 나누지 만 각 줄을 구문 분석 할 때 만족스러운 파일을 찾을 수는 없습니다.TSV 파일을 구문 분석하십시오.
(?<g>("[^"]+")+|[^\t]+)
하지만 줄에 항목이 2 개 이상 연속 따옴표가있는 경우 작동하지 않습니다 : 은 지금 나는이 왔어요.
파일 형식은 다음과 같습니다. 각 요소는 표로 구분됩니다. 항목에 탭이 있으면 큰 따옴표로 묶습니다. 항목에 큰 따옴표가 포함되어 있으면 두 배가됩니다. 그러나 때로는 요소가 4 개의 이중 인용 부호를 포함하고, 위의 정규 표현식은 요소를 두 개의 다른 것으로 분리합니다.
예 :
"항목", "2", "OK"
올바르게 2 개 요소로 파싱 item1ok : item1ok 및 항목 "2"OK (불필요한 따옴표를 다듬은 후에) :
,515,item1oK "항목" "" "2oK"
3 개 요소로 해석된다 는, 항목 item1ok 및 "2ok (다시 트리밍 후).
누구나 정규식을이 케이스에 맞게 만드는 방법에 대한 아이디어가 있습니까? 아니면 단순히 TSV를 파싱 할 다른 솔루션이 있습니까? (나는 C#에서 이것을하고있다).
+1 .Net 프레임 워크의 일부입니다. Microsoft에서 지원하며 별도의 배치가 필요하지 않습니다. – MarkJ
Dotnet Core와 Dotnet Standard에서는 VisualBasic 코드가 오픈 소스가 아니며 포팅되지 않기 때문에 사용할 수 없습니다. – ppumkin