2012-02-17 2 views
1

패턴이 문자 스트링 인 클러스터링 소프트웨어가 있습니다. 문자열은 가장 긴 공통 부분 시퀀스를 사용하여 유사성별로 그룹화됩니다. 이 클러스터의 2 차원 플롯을 만들 수 있습니까 ?? xy 축에서 문자열을 어떻게 표현할 수 있습니까 ?? 내가 가진는 2D 플롯의 문자열을 나타냅니다.

유일한 아이디어는 예를 들어, 문자열에서 정수를하기 위해 ASCII 코드를 사용하는 것입니다 : 빨간색 = R = 114 전자 = 101 D = 100

하지만 그것의 1D 렸기 때문에 315 대표!

p.s. 소프트웨어는 Java이지만, 플롯 데이터의 경우 대개 Matlab을 사용합니다.

답변

2

문자열을 숫자로 변환하는 방법은 무한히 다양합니다. 본질적으로 이것은 단지 바이트 시퀀스이므로, 이미 숫자입니다.

질문은 무엇입니까? 을 참조 하시겠습니까? 이러한 '전환 수'의 대부분은 모든 곳에서 발생하며 실제로 많은 의미를 전달하지는 않습니다.

내 마음에 떠오르는 두 가지 기술은 자체 구성지도와 다차원 스케일링입니다. 유사성 데이터를 메서드에 제공하고 객체를 2D 맵으로 배열 할 수 있습니다.

아마도 작동 할 것입니다. 예쁘게 보이지만 실제로 달성하고자하는 질문에 대해서는 대답하지 않습니다.

+0

예를 들어 2 차원 도표에서 점을보고 싶다면 "유도"라는 단어를 나타내는 점이 "침입"이라는 단어 근처에있을 수 있습니다. 문제는 어떻게 2 차원 공간에서 "유도"를 나타내는가? – tulkas85

+0

위와 같이 MDS와 같은 포인터를 살펴보십시오. 그것은 거리를 보존하기위한 것이고 Levenshtein distance로 초기화 할 수 있습니다. –

관련 문제