0
스파크 (PySpark) ALS
모델의 하이퍼 파라미터를 TrainValidationSplit
으로 조정하려고합니다.pyspark.ml.tuning.TrainValidationSplit로 튜닝 한 후 가장 좋은 매개 변수를 얻는 방법?
잘 작동하지만 하이퍼 매개 변수 조합이 최상인지 알고 싶습니다. 평가 후 최상의 매개 변수를 얻는 방법?
from pyspark.ml.recommendation import ALS
from pyspark.ml.tuning import TrainValidationSplit, ParamGridBuilder
from pyspark.ml.evaluation import RegressionEvaluator
df = sqlCtx.createDataFrame(
[(0, 0, 4.0), (0, 1, 2.0), (1, 1, 3.0), (1, 2, 4.0), (2, 1, 1.0), (2, 2, 5.0)],
["user", "item", "rating"],
)
df_test = sqlCtx.createDataFrame(
[(0, 0), (0, 1), (1, 1), (1, 2), (2, 1), (2, 2)],
["user", "item"],
)
als = ALS()
param_grid = ParamGridBuilder().addGrid(
als.rank,
[10, 15],
).addGrid(
als.maxIter,
[10, 15],
).build()
evaluator = RegressionEvaluator(
metricName="rmse",
labelCol="rating",
)
tvs = TrainValidationSplit(
estimator=als,
estimatorParamMaps=param_grid,
evaluator=evaluator,
)
model = tvs.fit(df)
질문 : 최고 등급 및 최고 등급을 얻는 방법?