Postgres에서 텍스트 문자열이 들어있는 입력란에서 별개의 단어와 개수를 식별 할 수 있습니까?포스트그레스 (Postgres)의 문자열에서 나오는 단어 빈도?
답변
이와 비슷한?
SELECT DISTINCT word FROM ( SELECT regexp_split_to_table(some_column, '\s') as word FROM some_table ) t
또는 각 단어의 수를 점점 :
SELECT some_pk, regexp_split_to_table(some_column, '\s') as word FROM some_table
쉽게 다음 별개의 단어입니다 얻기
SELECT word, count(*) FROM ( SELECT regexp_split_to_table(some_column, '\s') as word FROM some_table ) t GROUP BY word
데이터에 따라'lower()'에 열을 감쌀 수도 있습니다. – Brandon
하는 공간 ''또는 사이에 다른를 단락 기호로 분할해야 말; 'mywordhere'를 'myWord'및 '여기'로 취급하는 등 's'가 아니라 's'가 아니라
SELECT word, count(*)
FROM (
SELECT regexp_split_to_table(some_column, ' ') as word
FROM some_table
) t
GROUP BY word
\ s는 공백 문자 –
에 대한 유효한 정규식 문자 세트입니다. 답변이 명확하게 정규 표현식을 오해하기 때문에 downvoted입니다. – Private
또한 예를 들어,이를 위해 PostgreSQL의 텍스트 검색 기능을 사용할 수 있습니다
SELECT * FROM ts_stat('SELECT to_tsvector(''hello dere hello hello ridiculous'')');
을 얻을 것입니다 :
이word | ndoc | nentry
---------+------+--------
ridicul | 1 | 1
hello | 1 | 3
dere | 1 | 1
(3 rows)
(PostgreSQL의 언어에 의존 형태소 분석 및 스톱 - 적용 단어 제거는 원하는 단어 일 수도 있고 아닐 수도 있습니다. 사전 대신 simple
을 사용하여 중지 단어 제거 및 형태소 분석을 사용 중지 할 수 있습니다. 이상하는 tsvector 열을 얻을 수있는 select 문이 될 수 있습니다.) 아래
중첩 SELECT
문 EE, 그래서 당신은 텍스트 필드의 수에 to_tsvector
함수를 적용하는 기능을 대체 할 수 있으며, 하나의 tsvector
으로 그것들을 연결해, 예를 들어 문서의 어떤 부분 집합 :
SELECT * FROM ts_stat('SELECT to_tsvector(''english'',title) || to_tsvector(''english'',body) from my_documents id < 500') ORDER BY nentry DESC;
는 처음 500 개 문서의 title
및 body
필드에서 가져온 총 워드 카운트의 행렬을 얻을 것인가가 발생 수를 내림차순으로 정렬. 각 단어에 대해 발생하는 문서 수 (ndoc
열)도 표시됩니다. http://www.postgresql.org/docs/current/static/textsearch.html
- 1. 단어 빈도 추적/계산
- 2. 프로그래밍 진주의 단어 빈도
- 3. 병합 배열과 단어 빈도
- 4. select 문에서 postgres의 문자열에서 zwnj 문자를 제거합니다.
- 5. 문자열에서 첫 단어 빼기
- 6. oracle 문자열에서 단어 검색
- 7. LINQ가있는 문자열에서 단어 찾기
- 8. Postgres의 동적 계산 공식
- 9. 문자열에서 PHP 및 단어 계산
- 10. 용어 빈도 계산
- 11. Postgres의 OPENXML
- 12. Postgres의 INDEX?
- 13. 프로그램을 테스트하기 위해 .txt 단어 빈도 목록을 찾으십시오.
- 14. 는 문자열에서 첫 번째 단어 추출 - 정규식
- 15. 주어진 문자열에서 첫 단어 만 제거
- 16. 행간 차이점 선택 (포스트그레스)
- 17. 레일스 포스트그레스 기능 인덱스
- 18. ASP MVC 및 포스트그레스
- 19. 문자열 포스트그레스 번역
- 20. 삽입 빈도
- 21. Postgres의 스키마를 통한 쿼리
- 22. Postgres의 내용을 이해하려면
- 23. 설치시 postgres의 기본 사용자
- 24. 동일한 쿼리를 반복적으로 처리 한 후 장고/포스트그레스 성능이 악화됩니다.
- 25. 빈도 순위를 수행하는 mysql 쿼리는 무엇입니까
- 26. 이름으로 포스트그레스 테이블에 액세스하려면 어떻게해야합니까?
- 27. 제한 시간이있는 JDBC 포스트그레스 쿼리
- 28. string.match 메서드를 사용하여 문자열에서 같은 단어가 여러 번 나오는 것을 찾는 방법?
- 29. 사전 다운로드 단어
- 30. Postgres의 최적 트랜잭션 크기는 무엇입니까?
어떻게 "단어를"정의합니까 :
자세한 사항은 관련 문서를 참조하십시오? –