2017-12-20 3 views
0

나는 pyspark에 새로 왔습니다. pyspark에서 궁금해하는 부분은 HDFS fold로 날짜를 수정할 수있는 기능이 있습니까? 이러한 HDFS와 같이Pyspark check hdfs folder 수정 날짜

: 당신은 날짜를 얻을 수있는 HDFS 파일이나 디렉토리 다음 파이썬 시간 형식화하는 기능에 대한 수정 시간을 가져 오기위한 파일 시스템 API를 사용할 수 있습니다

def get_user_folder_update_date(): 
    magic() 
    return update_time 

print get_user_folder_update_date() 
2017-12-20 

답변

3

: pyspark에서 enter image description here

예상 된 형식으로. 예 :

import time 
path = lambda p: spark._jvm.org.apache.hadoop.fs.Path(p) 
fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()) 

time_ts = fs.getFileStatus(path('/tmp')).getModificationTime() 
print(time.strftime("%Y-%m-%d", time.localtime(time_ts/1000)))