.txt
개의 파일이 <text>\t<label>
형식의 디렉터리에 있습니다. 나는이 텍스트 기록을 소비하는 TextLineDataset
API를 사용하고 있습니다 :Tensorflow - 데이터 집합 API의 문자열 처리
filenames = ["/var/data/file1.txt", "/var/data/file2.txt"]
dataset = tf.contrib.data.Dataset.from_tensor_slices(filenames)
dataset = dataset.flat_map(
lambda filename: (
tf.contrib.data.TextLineDataset(filename)
.map(_parse_data)))
def _parse_data(line):
line_split = tf.string_split([line], '\t')
features = {"raw_text": tf.string(line_split.values[0].strip().lower()),
"label": tf.string_to_number(line_split.values[1],
out_type=tf.int32)}
parsed_features = tf.parse_single_example(line, features)
return parsed_features["raw_text"], raw_features["label"]
나는 RAW_TEXT 기능을 일부 문자열 청소/처리를 할 싶습니다. 내가 line_split.values[0].strip().lower()
를 실행하려고하면, 나는 다음과 같은 오류가 발생합니다 :
AttributeError: 'Tensor' object has no attribute 'strip'
여기에 약간의 명료성을 제공해 주셔서 감사합니다. 나는'py_func'를 사용하려고했지만 약간의 오류가 발생했습니다. 귀하의 코드는 저에게서 작용합니다. 또한,'.txt' 데이터를'TFRecord' 포맷으로 변환하기로 결정했습니다. 추후 참조를 위해'tensorflow'를 사용하기 전에 데이터를 통합하는 데'python'을 사용해야합니까, 아니면'tf'에서이 모든 것을 수행하기위한 좋은 패턴이 있습니까? 지금 당장은'python'을'VocabularyProcessor'를 사용하여 자체 빌드 된'CategoricalVocabulary'로 초기화했습니다. –