Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln visar hur du använder spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer och läsa in TFRecord med TensorFlow.
TFRecord-filformatet är ett enkelt postorienterat binärt format för ML-träningsdata. Med klassen tf.data.TFRecordDataset kan du strömma över innehållet i en eller flera TFRecord-filer som en del av en indatapipeline.
              Använda spark-tensorflow-connector bibliotek
Du kan använda spark-tensorflow-connector för att spara Apache Spark DataFrames i TFRecord-filer.
              spark-tensorflow-connectorär ett bibliotek i TensorFlow-ekosystemet  som möjliggör konvertering mellan Spark DataFrames och TFRecords (ett populärt format för lagring av data för TensorFlow). Med spark-tensorflow-connector kan du använda Spark DataFrame-API:er för att läsa TFRecords-filer i DataFrames och skriva DataFrames som TFRecords.
Kommentar
Biblioteket spark-tensorflow-connector ingår i Databricks Runtime for Machine Learning. Om du vill använda spark-tensorflow-connectorversionerna och kompatibiliteten i Databricks Runtime måste du installera biblioteket från Maven. Mer information finns i Maven- eller Spark-paketet .
Exempel: Läsa in data från TFRecord-filer med TensorFlow
Exempelanteckningsboken visar hur du sparar data från Apache Spark DataFrames till TFRecord-filer och läser in TFRecord-filer för ML-träning.
Du kan läsa in TFRecord-filerna med hjälp av tf.data.TFRecordDataset klassen . Se Läs en TFRecord-fil från TensorFlow för mer information.