로컬 디스크에 저장된 SQLLite .db 파일에서 테이블을로드하려고합니다. PySpark에서이 작업을 수행 할 수있는 명확한 방법이 있습니까?PySpark에서 SQLLite db 파일의 테이블을로드하는 방법은 무엇입니까?
현재 저는 작동하지만 우아하지는 않지만 해결책을 사용하고 있습니다. 먼저 sqlite3을 사용하여 pandas를 사용하여 테이블을 읽었습니다. 한가지 우려 사항은 프로세스 동안 스키마 정보가 전달되지 않는다는 것입니다 (문제 일 수도 있고 아닐 수도 있음). 팬더를 사용하지 않고 테이블을로드하는 직접적인 방법이 있는지 궁금합니다.
import sqlite3
import pandas as pd
db_path = 'alocalfile.db'
query = 'SELECT * from ATableToLoad'
conn = sqlite3.connect(db_path)
a_pandas_df = pd.read_sql_query(query, conn)
a_spark_df = SQLContext.createDataFrame(a_pandas_df)
jdbc를 사용하는 방법이 있지만 PySpark에서 사용하는 방법을 찾지 못했습니다.
어떤 스키마 정보? 당신은 데이터 유형을 의미합니까? 그 sqlite * 정말 * 그들을 가지고 ... –