데이터를 거쳐 정규식을 사용하여 이모티콘을 검사하고 이모티콘이 발견되면 카운터가 업데이트되는 스크립트를 작성했습니다. 그런 다음 범주 당 카운트 수를 목록에 작성해야합니다 (예 : cat ne에는 25 개의 이모티콘, 범주 fr에는 45 ...). 여기에는 잘못 된 부분이 있습니다. 내가 얻은 결과는 다음과 같습니다.그룹 별 그룹 수
[1, 'dg', 4, 'fr' , 'fr', 8, 'hp', 9 'hp', 10 'hp', 11 'hp', 12 'hp', 13 'hp', 14 'hp', 15 ' 19, 'hp', 20, 'hp', 21, 'hp', 22, 'hp', 23, 'hp', 16, 'hp', 17, 'hp' , 24, 'hp', 25 'ne', 26 'ne', 27 'ne', 28 'ne', 29 'ne', 30 'ne', 31 'ne', 32 012, 37, 'ne', 38]
fileid의 형식은 다음과 같습니다. 하나의 큰 파일에는 7 개의 작은 파일이 들어 있습니다 (각 파일은 카테고리입니다). 카테고리 파일 내에서 카테고리 당 약 100 파일은 다음과 같습니다
데이터/NE/
.txt 인 각 파일의 데이터는 하나 개의 문장이며,이
과 같은 567.txt :오늘 : 그래서 행복은
이 내 스크립트입니다
counter = 0
lijst = []
for fileid in corpus.fileids():
for sentence in corpus.sents(fileid):
cat = str(fileid.split('/')[0])
s = " ".join(sentence)
m = re.search('(:\)|:\(|:\s|:\D|:\o|:\@)+', s)
if m is not None:
counter +=1
lijst += [counter] + [cat]
당신이 입력 데이터의 예를해야합니까? –
@SaulloCastro 입력 데이터에 대한 정보를 포함하도록 제 질문을 편집했습니다. 감사! – JohnDoe