큰 판다 데이터 프레임에서 많은 수의 단어를 찾고 있는데 성능에 문제가 있습니다. 팬더 데이터 프레임의 열 문자열에서 이진 검색 방법이 있습니까?팬더 데이터 프레임의 바이너리 검색?
는 지금 내 코드는 다음과 같다 :
names = pd.DataFrame(data=['one', 'two', 'three', 'four'], index=range(0, 4), columns=['Name'])
sentence = 'There are two trees in the street.'
for word in word_tokenize(sentence):
# Search for each word in all the names
new_names = names[names['Name'].str.startswith(word)]
# then do some operations on the names
그러나 내가 names[names['Name'].str.startswith(word)]
에 대한 더 나은 성능을 필요로하고 내가 '이름'열이 이진 검색 방법을 찾아야한다고 생각.
? 더 구체적인 방법을 제시해야합니다. 시도한 일부 코드로 샘플 DataFrame을 제공하는 것은 먼 길을 갈 것입니다. –
@TedPetrou 감사합니다! 나는 조금 질문을 바꾸었다. – AmirAhmad
답변을 제공하기에 충분한 세부 정보가 아직 없습니다. 'iterrows' 밑에서 무슨 일이 일어나고 있는지. 일반적으로 'iterrows'는 사용하지 않는 것이 좋습니다. 더 많은 정보가 담긴 샘플 데이터 프레임은 먼 길을 갈 것입니다. –