word-count

0열

1답변

내 하둡 버전은 다음과 같습니다 2.8.1 나는 단어 수의 소스 코드가 같다 Apache Hadoop 2.8.0에있는 맵리 듀스 예제를 실행하려고 이하. import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; impo

0열

1답변

영어 사전 텍스트 파일에서 가장 긴 정의 항목을 찾는 방법은 무엇입니까?

나는 영어 스택 거래소에 질문했다. "What is the English word with the longest single definition?" 그들이 줄 수있는 가장 좋은 대답은 문자 또는 단어의 양을 세어 사전 정의를 나열한 (텍스트) 파일에서 가장 긴 항목을 알아낼 수있는 프로그램이 필요하다는 것이다. 주어진 항목에 입력 한 다음 가장 긴 항목의

-1열

1답변

Word 매크로 따옴표 안에 단어를 집계하십시오

나는 대학을 위해 나의 수필을 쓰고 있습니다. 나는 총 단어 수에 따옴표 안에 사용 된 단어를 포함 할 수 없습니다. Word는 이것을 수행하는 기능이 없기 때문에 누군가가 매크로를 작성하여 나를 도울 수 있기를 바랬습니다. 이전에 매크로를 사용했지만 매크로가 복잡 할 경우 매우 복잡합니다. 나는 이미 문서 전체에서 인용문을 사용하는 것과 유사한 것을 가지

1열

2답변

텍스트 파일에서 자바 8 스타일의 단어 수를 계산하는 방법

디렉토리의 파일 수를 먼저 계산 한 다음 각 파일에 단어 수를 할당하는 작업을 수행하려고합니다. 파일 수는 괜찮지 만 강사가 간단한 단어 수를 계산하는 클래스에서 준 코드를 변환하는 데 어려움을 겪고 있습니다. 또한, 나는 단어를 계산하기 위해 각 파일을 볼 적절한 코드를 찾지 못하는 것 같습니다 (특정 텍스트가 아닌 "일반"을 찾으려고 노력하지만 특정 텍

0열

1답변

R 워드 클라우드 - 영어 스톱 워드를 제거 할 수 없습니다.

워드 클라우드를 만들기 전에 텍스트에서 영어 불용어를 제거하려고했지만 작동하지 않았습니다. 나는 여러 게시물을 읽고 행운이없이 제안 된 것을 시도했다. 어떤 도움을 주시면 감사하겠습니다. library(tm) library(wordcloud) library(RColorBrewer) library(SnowballC) textdata <- c(A se

0열

1답변

출력 텍스트 파일을 hadoop로 정렬하면 출력을 정렬하지 않고 볼 수있는 방법이 있습니까? 또는 다른 정렬 방법을 사용하고 있습니까?

그래서 기본적으로 hadoop에 저장 한 텍스트 파일에 대해 wordcount에 mapreduce를 사용했습니다. 이제 출력 결과를보고 싶습니다. 현재이 나는 온라인으로 만 명령을 본 적이있다 : 지금까지 난 그냥이 명령으로 혼동하고있어 bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less 을

1열

1답변

Redis를 사용하여 거대한 파일의 단어 수에 대한 최적의 솔루션

Java를 사용하여 거대한 파일의 단어 수를 계산하고 싶습니다. 단일 기계로 인해 맵 축소를 사용할 수 없습니다. 해시 맵을 사용하는 대신 Redis를 사용하여 단어 빈도를 저장하고 싶습니다. 실용적인 데이터가 흐르고 있습니다. 내가 redis 정렬 된 각 집합에 대해 단어 개수를 밀어 넣을 것이라고 생각한 내용. 그러나 나는 이것이 최적의 해결책이 아니라

-1열

1답변

지도 단어가

어떻게 사용하여 특정 단어를 검색하는 횟수 감소 하나 1)지도 WC 프로그램 절감 - 자바 코드 또는 2) 말씀 하이브로 계산을 예 : 아래 내 파일 입니다 Hello my name is Jammy Jammy is the best Jammy likes football 나는 단어 "Jammy가가"등장 횟수를 검색 할 ..

2열

1답변

는 NLTK

에 freqDist에서 튜플의 목록을 얻으려면 어떻게 두 개의 열 id 및 text 나는 단어가 행마다 텍스트에 대한 계산이 포함 된 새 열을 추가 할 와 dataframe 있습니다. 나는 내가 word_count를 호출 단어와 그 주파수와 튜플의 목록을 얻을 수 있도록 노력하겠습니다 토크 나이 후 내가 nltk word = f.udf(lambda toke

0열

1답변

스파 스 대칭 행렬에서 SVD를 수행 할 때 파이썬 커널이 죽었습니다.

내 자체 데이터 세트에서 스탠포드 강의에서 언급 한 SVD 방법을 재현하고 싶습니다. 강의 슬라이드는 다음과 같다 내 데이터 세트가 생성 CountVectorizer로부터 처리 <13840x13840 sparse matrix of type '<type 'numpy.int64'>' with 597828 stored elements in Compressed