2014-11-19 1 views
0

사용자가 문자열 (예 : B000GKXY4S) 인 데이터 세트로 작업하고 있습니다. 나는 이들 각각을 int로 변환하고 싶다. 그래서 Apache Spark ALS에서 Rating (user : int, product : Int, rating : Double) 클래스를 사용할 수있다. 가장 효율적인 방법은 무엇입니까? Spark Scala 함수 또는 Python 기본 함수를 사용하는 것이 바람직합니다.효율적으로 문자를 포함하는 문자열을 Int로 변환 - Apache Spark

+0

문자열이 8 비트 문자로 구성되어 있으면 문자열을 기본 256 문자로 간주 할 수 있습니다. 이는 거대한 숫자 일지 모르지만 (파이썬이 쉽게 처리 할 수있는) 각각의 고유 한 정수 값을 제공합니다. – martineau

답변

1

일치하는 문자열을 int로 지정하려는 경우 - String.hashCode(). 그러나 가능한 해시 충돌을 처리해야합니다. 또는 각 문자를 int 값으로 변환하고 이들 모두를 함께 추가 (추가하지 않음)해야합니다.

관련 문제