sklearn bag-of-words 벡터 라이저의 희소 행렬이 있습니다. 그것은 csr_matrix이고 그 요소는 문서의 단어 빈도를 나타냅니다. 하지만 지금 내가 필요로하는 것은 0/1 행렬입니다. 여기서 1은 문서에있는 단어를 나타내므로 실제 주파수는 신경 쓰지 않습니다. 배경 문제를 무시 , 이렇게하는 거예요 내가 스파 스 매트릭스가, 정수 값 희소 행렬을 0/1 값 희소 행렬로 변환하는 방법, Python
2 3 4 0 0 0
0 0 0 0 0 8
0 0 0 2 0 0
0 0 0 0 0 0
내가 모든 제로가 아닌 요소가 하나가되고 싶어요,
1 1 1 0 0 0
0 0 0 0 0 1
0 0 0 1 0 0
0 0 0 0 0 0
내가 어떻게 이것을 달성 할 수 있습니까? 나는 todense()를 사용한다고 가정하고 스파 스 매트릭스가 크기 때문에 루프가 좋은 선택이 아닙니다. 더 좋은 방법이 있습니까?
고마워요! 작동했습니다. –