2012-01-12 3 views
3

나는 자동으로 영어 텍스트를 식별 할 수없는 자연어 도구를 찾고 있습니다. 예를 들어 모든 이메일 주소의 이름을 변경하거나 모호하게해야합니다. 그러나 적절한 이름은 주소를 지정해야하며 그렇지 않은 경우에는 식별이 취소되어야합니다.자연 언어 ID 확인

MITRE Identification Scrubber Toolkit이 있습니다. 나는 그것이 얼마나 잘 작동하는지 모른다.

내 질문 :

  • 는 다른 도구가 거기 있습니까?
  • 누구든지 MITRE 도구를 사용해 본 경험이 있습니까? 얼마나 잘 작동합니까?

감사합니다. (아마도 더 자주 로 익명화 함)

+0

@ 동의어 동의 한 엔티티 인식 + 토큰 대체는 주로 명명 된 엔티티 인식에 관한 것입니다. 그러나 양자리 분해능을 추가 할 수도 있습니다. 텍스트 (예 : "그", "공무원", "대변인"등)를 식별 할 수 있다는 것은 텍스트를 익명화 할 수 있다는 점에서 중요합니다. 이러한 도구는 확실히 NLP 도메인에 속하며 코딩에 대해서는 적습니다 (즉, 위의 SE 사이트와 너무 관련이 없습니다). – Iterator

+0

(계속) 법적 또는 윤리적 요구 사항과 관련된 경우 NLP 커뮤니티가 제공 할 수있는 것을 살펴 보는 것이 좋습니다. 단순히 새로운 것을 코딩하는 것보다 더 실용적입니다. 최첨단 리소스 사용). 어쨌든 이것은 코딩보다 도구 관련성이 높기 때문에 마이그레이션해야 할 필요가 있습니다. 행운을 빌어, 재미있는 질문이다. – Iterator

+0

@Iterator NLP는 여전히 유일한 제안이므로 실제로 사이트가 될 때까지는 아무 것도 마이그레이션 할 수 없습니다. –

답변

2

드 식별이 성공으로 매우 활동적인 연구 분야는 분명히 의료, 의학 등을위한 NLP 등의 분야에서 본격적인 텍스트 말뭉치의 사용에 대한 요구 사항입니다 . CrossValidated에서 this question에 대한 답변에 나열된 도구를 살펴 보는 것이 좋습니다. 링크를 계속 따라 가면 이러한 도구가 추가 참조 및 결과 평가와 함께 작동하는 방법을 설명하는 연구 논문을 찾을 수 있습니다.

관련 문제