1

커다란 유니 코드 문자열 데이터베이스를 쿼리하기 위해 BLAST 알고리즘을 실행하고 싶습니다. BLAST와 같은 대부분의 정렬 소프트웨어는 뉴클레오티드 또는 단백질 스트링을 입력으로 기대합니다. 하지만 내 입력에는 유니 코드 문자가 포함될 수 있습니다. 누구든지이 작업을 수행 할 수있는 소프트웨어를 알고 있습니까? 득점 행렬은 단위 행렬 일 수 있습니다. 부분 일치는 없습니다.유니 코드 문자열에 대한 빠른 시퀀스 정렬

Needleman-Wunsch 및 Smith Waterman을 사용해 보았지만 너무 느립니다. 블래스트 (BLAST)처럼 대형 데이터베이스를 쿼리해야한다.

감사합니다.

+0

나는 목적을 잘 모르겠다. 생물 정보학 질문에 대해서는 http://biostar.stackexchange.com/을 시도해 볼 수도 있습니다. – PhiS

답변

0

BLAST는 알파벳의 문자 시퀀스를 정렬하는 데 사용할 수 있습니다. 공개적으로 사용 가능한 대부분의 구현물은 단백질에 맞게 조정 되었기 때문에 아마 직접 구현해야하지만, 알고리즘은 단백질이나 뉴클레오타이드 순서에 특유하지 않습니다.

0

vmatch 당신은뿐만 아니라 STELLAR에게 시험을 줄 수있는 일반적인 접미사 트리를 기반으로 정렬 프로그램

0

이다 : 그것은 검증 단계와 퀘이사와 같은 필터 알고리즘이다. (this paper 참조)

낮은 편집 거리의 경우 매우 빠릅니다. < 5 %.

관련 문제