2016-06-18 5 views
1

나는 특히 길쌈 학습을 배우고, 특히 길쌈 신경 네트워크를 사용하려고 노력 중이다. 일부 오디오 데이터에 간단한 네트워크를 적용하고 싶습니다. 지금까지 CNN이 이미지와 물체 인식에 자주 사용된다는 것을 이해하는 한, 오디오를 사용하는 사람들은 종종 시간 영역의 신호 대신 스펙트로 그램 (특히 멜 스펙트로 그램)을 사용합니다. 제 질문은 네트워크로의 입력으로 스펙트로 그램의 이미지 (즉, RGB 또는 그레이 스케일 값)를 사용하는 것이 더 좋습니까? 아니면 스펙트로 그램의 2 차원 값을 직접 사용해야합니까? 그것은 심지어 차이를 만드나요?길쌈 신경 네트워크에 대한 입력 데이터

감사합니다.

+0

이 정보는 도움이 될 것입니다. [오디오 용 CNN (Convolutional Neural Network)] (http://stackoverflow.com/a/23840568/1883727). – rrao

+0

감사합니다. @rrao, 나는 이것을 이미 보았습니다. 그리고 그것은 제 질문에 정말로 답하지 않습니다. 나는 또한 당신이 참조한 대답에 동의하지 않습니다. 스펙트로 그램이 "버려지는"것은 위상 정보뿐입니다. – nevos

답변

1

스펙트로 그램은 특히 프로세스를 설명 할 때 멋진 표현입니다. 기능적으로는 정보를 추가하지 않고 입력 데이터의 단순화 일 뿐이지 만 정확하지는 않습니다. 아마도 중요하지 않습니다. 전처리는 아무 것도 사지 않으므로 2 차원 데이터를 사용하고 CNN이 거기에서 물건을 가져 가게합니다.

+0

감사합니다 @Prune! 그래서 입력 데이터에 의해 2D STFT 행렬을 의미합니까? 원래의 시간 영역 데이터가 아닙니다. – nevos

+0

오른쪽. 원래 데이터로 처리 할 수는 있지만 NN 복잡성과 교육 시간을 생각하기가 싫습니다. 확실히 Q- 학습 문제입니다! – Prune

+0

위대한, 고마워요! – nevos

0

일반적으로 이미지에는 로컬 패턴이 있습니다. 너무 자연 스럽기 때문에 컨볼 루션 창을 적용하여 몇 가지 로컬 연결 기능을 추출 할 수 있습니다. 따라서 시간 또는 주파수 도메인에서 일부 이미지를 사용하면 문제가 발생하지 않습니다. 그러나 놀라운 질문은 스펙트럼 데이터를 직접 사용한다면 어떨까요? 컨텍스트를 제공하는 다음 단어 예측시 CNN을 적용한 프레젠테이션을 보았습니다. 그 점에서 입력은 단어 벡터입니다. 더 중요한 것은 숫자. 그래서 그들은 특성을 추출하기 위해 CNN 레이어 (직사각형 필터)를 사용했습니다. 이 경우 데이터에 일종의 자연 패턴이 있으면 완벽하게 생성됩니다.

관련 문제