Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Konfigurationsalternativ specifika för cloudFiles-källan har prefixet cloudFiles så att de finns i ett separat namnområde från andra Structured Streaming-källalternativ.
- Vanliga alternativ för Auto Loader
- Kataloglistningsalternativ
- Filenotisalternativ
- Alternativ för filformat
- Molnspecifika alternativ
Vanliga alternativ för Auto Loader
Du kan konfigurera följande alternativ för Auto Loader-strömmar.
| Alternativ |
|---|
cloudFiles.allowOverwritesTyp: BooleanOm du vill tillåta ändringar i indatakatalogfilen för att skriva över befintliga data. För konfigurationsvarningar, se Bearbetar autoinläsaren filen igen när filen läggs till eller skrivs över?. Förval: false |
cloudFiles.backfillIntervalTyp: Interval StringAutomatisk inläsning kan utlösa asynkrona återfyllningar med ett visst intervall. Till exempel 1 day för att återfylla dagligen eller 1 week till återfyllnad varje vecka. Mer information finns i Utlösa vanliga återfyllnad med cloudFiles.backfillInterval.Använd inte när cloudFiles.useManagedFileEvents är inställt på true.Standard: Ingen |
cloudFiles.cleanSourceTyp: StringOm bearbetade filer ska tas bort automatiskt från indatakatalogen. När värdet är ( OFF standard) tas inga filer bort.När värdet är inställt på DELETEtar autoinläsaren bort filer automatiskt 30 dagar efter att de har bearbetats. För att göra detta måste autoinläsaren ha skrivbehörighet till källkatalogen.När värdet är inställt MOVEpå flyttar Auto Loader automatiskt filer till den angivna platsen inom cloudFiles.cleanSource.moveDestination 30 dagar efter att de har bearbetats. För att göra detta måste autoinläsaren ha skrivbehörighet till källkatalogen samt till flyttplatsen.En fil betraktas som bearbetad när den har ett värde som inte är null för commit_time i resultatet av cloud_files_state funktionen tabellvärde. Se cloud_files_state tabellvärdesfunktion. Ytterligare 30 dagars väntan efter bearbetning kan konfigureras med hjälp av cloudFiles.cleanSource.retentionDuration.Obs! Databricks rekommenderar inte att du använder det här alternativet om det finns flera strömmar som förbrukar data från källplatsen eftersom den snabbaste konsumenten tar bort filerna och inte matas in i de långsammare källorna. Observera: Om du aktiverar den här funktionen måste autoinläsaren över huvud taget behålla ytterligare tillstånd i sin checkpunkt, vilket medför överbelastning av prestanda men möjliggör förbättrad observerbarhet via cloud_files_state tabellvärdesfunktionen. Se cloud_files_state tabellvärdesfunktion.Obs! cleanSource använder den aktuella inställningen för att bestämma om en viss fil ska MOVE eller DELETE. Anta till exempel att inställningen var MOVE när filen ursprungligen bearbetades men ändrades till DELETE när filen blev kandidat för rensning 30 dagar senare. I det här fallet tar cleanSource bort filen.cleanSource Observera: bästa möjliga ansträngning. Filer garanteras inte att tas bort så snart perioden retentionDuration är över. I stället blir de kandidater för rensning och tas bort efter bästa förmåga under regelbunden dataströmbearbetning. För att spara kostnader cleanSource avslutas korrekt när dataströmbearbetningen är klar, även om det finns kandidater kvar för rensning. De återstående kandidaterna hämtas under nästa bearbetning.Tillgänglig i Databricks Runtime 16.4 och senare. Standard: AVSTÄNGD |
cloudFiles.cleanSource.retentionDurationTyp: Interval StringTid att vänta innan bearbetade filer blir kandidater för arkivering med cleanSource. Måste vara längre än 7 dagar för DELETE. Ingen minsta begränsning för MOVE.Tillgänglig i Databricks Runtime 16.4 och senare. Standardvärde: 30 dagar |
cloudFiles.restrictNotificationSetupToSameAWSAccountIdTyp: BooleanTillåt endast händelsemeddelanden från AWS S3-bucketar i samma konto som SNS-ämnet. När det är sant accepterar Auto Loader endast händelsemeddelanden från AWS S3-bucketar i samma konto som SNS-ämnet. När falsebegränsar inte åtkomstprincipen inställningar för bucket- och SNS-ämnen mellan konton. Detta är användbart när SNS-ämnet och bucketsökvägen är associerade med olika konton.Tillgänglig i Databricks Runtime 17.2 och senare. Förval: false |
cloudFiles.cleanSource.moveDestinationTyp: StringSökväg för att arkivera bearbetade filer när cloudFiles.cleanSource är inställt på MOVE.Flyttplatsen är begränsad på följande sätt:
Automatisk inläsare måste ha skrivbehörighet till den här katalogen. Tillgänglig i Databricks Runtime 16.4 och senare. Standardvärde: Ingen |
cloudFiles.formatTyp: StringFormatet för datafilen i sökvägen. Tillåtna värden är:
Standard: Ingen (obligatoriskt alternativ) |
cloudFiles.includeExistingFilesTyp: BooleanOm du vill inkludera befintliga filer i indatasökvägen för dataströmbearbetning eller endast bearbeta nya filer som kommer efter den första installationen. Det här alternativet utvärderas endast när du startar en dataström för första gången. Att ändra det här alternativet efter att strömmen har startats om har ingen effekt. Förval: true |
cloudFiles.inferColumnTypesTyp: BooleanOm du vill härleda exakta kolumntyper vid användning av schemainferens. Som standard härleds kolumner som strängar när JSON- och CSV-datauppsättningar härleds. Mer information finns i schemainferens . Förval: false |
cloudFiles.maxBytesPerTriggerTyp: Byte StringDet maximala antalet nya byte som ska bearbetas i varje utlösare. Du kan ange en bytesträng, till exempel 10g för att begränsa varje mikrobatch till 10 GB data. Detta är ett mjukt maxvärde. Om du har filer som är 3 GB vardera bearbetar Azure Databricks 12 GB i en mikrobatch. När det används tillsammans med cloudFiles.maxFilesPerTrigger förbrukar Azure Databricks upp till den lägre gränsen cloudFiles.maxFilesPerTrigger eller cloudFiles.maxBytesPerTrigger, beroende på vilket som först uppnås. Det här alternativet har ingen effekt när det används med Trigger.Once() (Trigger.Once() är inaktuellt).Standard: Ingen |
cloudFiles.maxFileAgeTyp: Interval StringHur länge en filhändelse spåras i dedupliceringssyfte. Databricks rekommenderar inte att du justerar den här parametern om du inte matar in data i storleksordningen miljontals filer i timmen. Mer information finns i avsnittet om spårning av filhändelser . Om du justerar cloudFiles.maxFileAge för aggressivt kan det orsaka problem med datakvaliteten, till exempel duplicerad inmatning eller filer som saknas. Därför rekommenderar Databricks en konservativ inställning för cloudFiles.maxFileAge, till exempel 90 dagar, vilket liknar vad jämförbara datainmatningslösningar rekommenderar.Standard: Ingen |
cloudFiles.maxFilesPerTriggerTyp: IntegerDet maximala antalet nya filer som ska bearbetas i varje utlösare. När det används tillsammans med cloudFiles.maxBytesPerTrigger förbrukar Azure Databricks upp till den lägre gränsen cloudFiles.maxFilesPerTrigger eller cloudFiles.maxBytesPerTrigger, beroende på vilket som först uppnås. Det här alternativet har ingen effekt när det används med Trigger.Once() (inaktuellt).Standard: 1 000 |
cloudFiles.partitionColumnsTyp: StringEn kommaavgränsad lista över Partitionskolumner i Hive-format som du vill härleda från filernas katalogstruktur. Partitionskolumner i Hive-format är nyckelvärdepar som kombineras med ett likhetstecken, till exempel <base-path>/a=x/b=1/c=y/file.format. I det här exemplet är partitionskolumnerna a, b, och c. Som standard läggs dessa kolumner automatiskt till i schemat om du använder schemainferens och anger <base-path> att data ska läsas in från. Om du anger ett schema förväntar sig Auto Loader att dessa kolumner inkluderas i schemat. Om du inte vill att dessa kolumner ska ingå i schemat kan du ange "" att dessa kolumner ska ignoreras. Dessutom kan du använda det här alternativet när du vill att kolumner ska härledas till filsökvägen i komplexa katalogstrukturer, som exemplet nedan:<base-path>/year=2022/week=1/file1.csv<base-path>/year=2022/month=2/day=3/file2.csv<base-path>/year=2022/month=2/day=4/file3.csvcloudFiles.partitionColumns som year,month,day returnerar year=2022 för file1.csv, men kolumnerna month och day är null.month och day parsas korrekt för file2.csv och file3.csv.Standard: Ingen |
cloudFiles.schemaEvolutionModeTyp: StringSättet för att utveckla schemat när nya kolumner upptäcks i data. Som standard härleds kolumner som strängar när JSON-datauppsättningar härleds. Mer information finns i schemautveckling . Standard: addNewColumns när ett schema inte har angetts, none annars |
cloudFiles.schemaHintsTyp: StringSchemainformation som du ger till Auto Loader vid schemainferens. Mer information finns i schematips . Standard: Ingen |
cloudFiles.schemaLocationTyp: StringPlatsen där du vill lagra det härledda schemat och efterföljande ändringar. Mer information finns i schemainferens . Standard: Ingen (krävs för att härleda schemat) |
cloudFiles.useStrictGlobberTyp: BooleanHuruvida en strikt globber ska användas, vilket matchar standardglobbarbeteendet för andra filkällor i Apache Spark. Mer information finns i Vanliga datainläsningsmönster . Finns i Databricks Runtime 12.2 LTS och senare. Förval: false |
cloudFiles.validateOptionsTyp: BooleanHuruvida alternativ för automatisk inläsare ska verifieras och ett fel returneras för okända eller inkonsekventa alternativ. Förval: true |
Alternativ för kataloglistning
Följande alternativ är relevanta för kataloglistningsläget.
| Alternativ |
|---|
cloudFiles.useIncrementalListing (inaktuell)Typ: StringDen här funktionen är inaktuell. Databricks rekommenderar att du använder filmeddelandeläget med filhändelser i stället för cloudFiles.useIncrementalListing.Om du vill använda den inkrementella listan i stället för den fullständiga listan i kataloglistningsläge. Som standard gör Auto Loader det bästa för att automatiskt identifiera om en viss katalog är tillämplig för den inkrementella listan. Du kan uttryckligen använda den inkrementella listan eller använda den fullständiga kataloglistan genom att ange den som true eller false respektive.Om du felaktigt aktiverar inkrementell lista i en icke-lexikalt ordnad katalog hindrar autoinläsaren från att identifiera nya filer. Fungerar med Azure Data Lake Storage ( abfss://), S3 (s3://) och GCS (gs://).Finns i Databricks Runtime 9.1 LTS och senare. Standard: auto på Databricks Runtime 17.2 och senare, false på Databricks Runtime 17.3 och senareTillgängliga värden: auto, true, false |
Alternativ för filaviseringar
Följande alternativ är relevanta för filmeddelandeläget.
| Alternativ |
|---|
cloudFiles.fetchParallelismTyp: IntegerAntal trådar som ska användas när meddelanden hämtas från kötjänsten. Använd inte när cloudFiles.useManagedFileEvents är inställt på true.Standardvärde: 1 |
cloudFiles.pathRewritesTyp: En JSON-sträng Krävs endast om du anger en queueUrl som tar emot filmeddelanden från flera S3-bucketar och du vill använda monteringspunkter som konfigurerats för åtkomst till data i dessa containrar. Använd det här alternativet för att skriva om prefixet för sökvägen bucket/key med monteringspunkten. Bara prefix kan skrivas om. För konfigurationen {"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}skrivs till exempel sökvägen s3://<databricks-mounted-bucket>/path/2017/08/fileA.json om till dbfs:/mnt/data-warehouse/2017/08/fileA.json.Använd inte när cloudFiles.useManagedFileEvents är inställt på true.Standard: Ingen |
cloudFiles.resourceTagTyp: Map(String, String)En serie nyckel/värde-taggpar som hjälper dig att associera och identifiera relaterade resurser, till exempel: cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue") .option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")Mer information om AWS finns i Amazon SQS-kostnadsallokeringstaggar och Konfigurera taggar för ett Amazon SNS-ämne. (1) Mer information om Azure finns i Namngivning av köer och metadata och täckningen för properties.labels i händelseprenumerationer. Auto Loader lagrar dessa nyckel/värde-taggpar i JSON som etiketter.
(1)Mer information om GCP finns i Rapportera användning med etiketter. (1) Använd inte när cloudFiles.useManagedFileEvents är inställt på true. Ange i stället resurstaggar med hjälp av molnproviderkonsolen.Standard: Ingen |
cloudFiles.useManagedFileEventsFörhandsversion: Stöd för automatisk inläsning för filhändelser finns i offentlig förhandsversion. Den är endast tillgänglig på Databricks Runtime 14.3 LTS och senare. När värdet är inställt på trueanvänder Auto Loader tjänsten för filhändelser för att identifiera filer på din externa plats. Du kan bara använda det här alternativet om inläsningssökvägen finns på en extern plats med filhändelser aktiverade. Se Använda filmeddelandeläge med filhändelser.Filhändelser ger prestanda på meddelandenivå i filidentifiering, eftersom Automatisk inläsning kan identifiera nya filer sedan den senaste körningen. Till skillnad från kataloglistan behöver den här processen inte visa alla filer i katalogen. Det finns vissa situationer när Auto Loader använder kataloglista trots att alternativet filhändelser är aktiverat:
Se När använder Auto Loader med filhändelser kataloglistning? för en omfattande lista över situationer där Auto Loader använder kataloglistning med detta alternativ. |
cloudFiles.useNotificationsTyp: BooleanOm du vill använda filmeddelandeläget för att avgöra när det finns nya filer. Om falseanvänder du kataloglistningsläge. Se Jämför Auto Loader-filidentifieringslägen.Använd inte när cloudFiles.useManagedFileEvents är inställt på true.Förval: false |
(1) Automatisk inläsning lägger till följande nyckel/värde-taggpar som standard på bästa möjliga sätt:
-
vendor:Databricks -
path: Platsen där data läses in. Inte tillgänglig i GCP på grund av etiketteringsbegränsningar. -
checkpointLocation: Platsen för dataströmmens kontrollpunkt. Inte tillgänglig i GCP på grund av etiketteringsbegränsningar. -
streamId: En globalt unik identifierare för strömmen.
Dessa nyckelnamn är reserverade och du kan inte skriva över deras värden.
Filformatalternativ
Med Auto Loader kan du mata in JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILEoch ORC filer.
- Allmänna alternativ
-
JSONalternativ -
CSValternativ -
XMLalternativ -
PARQUETalternativ -
AVROalternativ -
BINARYFILEalternativ -
TEXTalternativ -
ORCalternativ
Allmänna alternativ
Följande alternativ gäller för alla filformat.
| Alternativ |
|---|
ignoreCorruptFilesTyp: BooleanOm du vill ignorera skadade filer. Om det är sant fortsätter Spark-jobben att köras när skadade filer påträffas och innehållet som har lästs returneras fortfarande. Kan observeras som numSkippedCorruptFiles ioperationMetrics kolumn i historiken för Delta Lake. Finns i Databricks Runtime 11.3 LTS och senare.Standardvärde: false |
ignoreMissingFilesTyp: BooleanOm du vill ignorera filer som saknas. Om det är sant fortsätter Spark-jobben att köras när filer saknas och innehållet som har lästs returneras fortfarande. Finns i Databricks Runtime 11.3 LTS och senare. Standardvärde: false för automatisk inläsning, true för COPY INTO (äldre) |
modifiedAfterTyp: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0En valfri tidsstämpel som ett filter för att endast mata in filer som har en tidsstämpel för ändring efter den angivna tidsstämpeln. Standardvärde: Ingen |
modifiedBeforeTyp: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0En valfri tidsstämpel som ett filter för att endast mata in filer som har en ändringstidsstämpel före den angivna tidsstämpeln. Standardvärde: Ingen |
pathGlobFilter eller fileNamePatternTyp: StringEtt potentiellt globmönster för att välja filer. Likvärdig med PATTERN i COPY INTO (föråldrad).
fileNamePattern kan användas i read_files.Standardvärde: Ingen |
recursiveFileLookupTyp: BooleanDet här alternativet söker igenom kapslade kataloger även om deras namn inte följer ett namngivningsschema för partitioner som date=2019-07-01. Standardvärde: false |
JSON Alternativ
| Alternativ |
|---|
allowBackslashEscapingAnyCharacterTyp: BooleanOm du vill tillåta att omvänt snedstreck används för att undkomma alla tecken som följer. Om det inte är aktiverat kan endast tecken som uttryckligen anges av JSON-specifikationen undantagas. Standardvärde: false |
allowCommentsTyp: BooleanOm du vill tillåta användning av Java-, C- och C++-formatkommentarer ( '/', '*'och '//' sorter) inom parsat innehåll eller inte.Standardvärde: false |
allowNonNumericNumbersTyp: BooleanOm du vill tillåta uppsättningen av token som inte är ett tal ( NaN) som giltiga flyttalvärden.Standardvärde: true |
allowNumericLeadingZerosTyp: BooleanHuruvida man vill tillåta att heltal börjar med ytterligare (ignorerbara) nollor (till exempel 000001).Standardvärde: false |
allowSingleQuotesTyp: BooleanOm du vill tillåta användning av enkla citattecken (apostrofer, tecken '\') för att citera strängar (namn och strängvärden).Standardvärde: true |
allowUnquotedControlCharsTyp: BooleanOm JSON-strängar ska tillåtas innehålla icke kapslade kontrolltecken (ASCII-tecken med ett värde som är mindre än 32, inklusive flik- och radmatningstecken) eller inte. Standardvärde: false |
allowUnquotedFieldNamesTyp: BooleanOm du vill tillåta användning av ociterade fältnamn (som tillåts av JavaScript, men inte av JSON-specifikationen). Standardvärde: false |
badRecordsPathTyp: StringSökvägen för att lagra filer som innehåller information om felaktiga JSON-poster. Att använda alternativet badRecordsPath i en filbaserad datakälla har följande begränsningar:
Standardvärde: Ingen |
columnNameOfCorruptRecordTyp: StringKolumnen för lagring av poster som är felaktiga och inte kan tolkas. mode Om inställningen för parsning är angiven som DROPMALFORMED, kommer den här kolumnen vara tom.Standardvärde: _corrupt_record |
dateFormatTyp: StringFormatet för parsning av datumsträngar. Standardvärde: yyyy-MM-dd |
dropFieldIfAllNullTyp: BooleanOm du vill ignorera kolumner med alla null-värden eller tomma matriser och structs under schemainferens. Standardvärde: false |
encoding eller charsetTyp: StringNamnet på kodningen av JSON-filerna. Se java.nio.charset.Charset för lista över alternativ. Du kan inte använda UTF-16 och UTF-32 när multiline är true.Standardvärde: UTF-8 |
inferTimestampTyp: BooleanHuruvida man ska försöka härleda tidsstämpelsträngar som en TimestampType. När det är inställt påtruekan schemainferensen ta märkbart längre tid. Du måste aktivera cloudFiles.inferColumnTypes för att kunna använda Auto Loader.Standardvärde: false |
lineSepTyp: StringEn sträng mellan två JSON-poster som följer på varandra. Standardvärde: Ingen, som omfattar \r, \r\noch \n |
localeTyp: StringEn java.util.Locale identifikator. Påverkar standarddatum, tidsstämpel och decimalparsning i JSON.Standardvärde: US |
modeTyp: StringParsningsläge för hantering av felaktiga poster. En av PERMISSIVE, DROPMALFORMEDeller FAILFAST.Standardvärde: PERMISSIVE |
multiLineTyp: BooleanOm JSON-posterna sträcker sig över flera rader. Standardvärde: false |
prefersDecimalTyp: BooleanFörsöker tolka strängar som DecimalType i stället för typen float eller dubbel när så är möjligt. Du måste också använda schemainferens, antingen genom att aktiverainferSchema eller genom att använda cloudFiles.inferColumnTypes med Auto Loader.Standardvärde: false |
primitivesAsStringTyp: BooleanHuruvida man ska härleda primitiva typer som tal och booleska värden som StringType.Standardvärde: false |
readerCaseSensitiveTyp: BooleanSpecificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant, åtgärda de datakolumner vars namn skiljer sig i bokstavskombination från schemat; annars, läs data på ett skiftlägesokänsligt sätt. Tillgänglig i Databricks Runtime13.3 och senare. Standardvärde: true |
rescuedDataColumnTyp: StringOm du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp eller schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
singleVariantColumnTyp: StringOm du vill mata in hela JSON-dokumentet, parsat i en enskild variantkolumn med den angivna strängen som kolumnens namn. Om det är inaktiverat matas JSON-fälten in i sina egna kolumner. Standardvärde: Ingen |
timestampFormatTyp: StringFormatet för att parsa tidsstämpelsträngar. Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringAtt java.time.ZoneId använda för parsning av datum och tidsstämplar.Standardvärde: Ingen |
CSV Alternativ
| Alternativ |
|---|
badRecordsPathTyp: StringSökvägen för att lagra filer för registrering av information om felaktiga CSV-poster. Standardvärde: Ingen |
charToEscapeQuoteEscapingTyp: CharTecknet som används för att undkomma det tecken som används för att undvika citattecken. Till exempel för följande post: [ " a\\", b ]
Standardvärde: '\0' |
columnNameOfCorruptRecordStöds för Auto Loader. Stöds inte för COPY INTO (äldre).Typ: StringKolumnen för lagring av poster som är felaktiga och inte kan tolkas. mode Om inställningen för parsning är angiven som DROPMALFORMED, kommer den här kolumnen vara tom.Standardvärde: _corrupt_record |
commentTyp: CharDefinierar det tecken som representerar en radkommentar när det hittas i början av en textrad. Använd '\0' för att inaktivera överhoppning av kommentarer.Standardvärde: '\u0000' |
dateFormatTyp: StringFormatet för parsning av datumsträngar. Standardvärde: yyyy-MM-dd |
emptyValueTyp: StringSträngrepresentation av ett tomt värde. Standardvärde: "" |
encoding eller charsetTyp: StringNamnet på kodningen av CSV-filerna. Se java.nio.charset.Charset listan med alternativ.
UTF-16 och UTF-32 kan inte användas när multiline är true.Standardvärde: UTF-8 |
enforceSchemaTyp: BooleanHuruvida man ska tvinga fram tillämpningen av det angivna eller härledda schemat på CSV-filerna. Om alternativet är aktiverat ignoreras rubrikerna för CSV-filer. Det här alternativet ignoreras som standard när du använder Auto Loader för att rädda data och tillåta schemautveckling. Standardvärde: true |
escapeTyp: CharEscape-tecknet som ska användas vid parsning av data. Standardvärde: '\' |
headerTyp: BooleanOm CSV-filerna innehåller ett huvud. Auto Loader förutsätter att filer har rubriker när schemat fastställs. Standardvärde: false |
ignoreLeadingWhiteSpaceTyp: BooleanOm du vill ignorera inledande blanksteg för varje parsat värde. Standardvärde: false |
ignoreTrailingWhiteSpaceTyp: BooleanHuruvida avslutande blanksteg ska ignoreras för varje analyserat värde. Standardvärde: false |
inferSchemaTyp: BooleanOm du vill härleda datatyperna för de parsade CSV-posterna eller anta att alla kolumner är av StringType. Kräver en ytterligare genomgång av data om det är inställt på true. För Auto Loader, använd cloudFiles.inferColumnTypes istället.Standardvärde: false |
lineSepTyp: StringEn sträng mellan två CSV-poster i följd. Standardvärde: Ingen, som omfattar \r, \r\noch \n |
localeTyp: StringEn java.util.Locale identifikator. Påverkar standarddatum, tidsstämpel och decimalparsning i CSV.Standardvärde: US |
maxCharsPerColumnTyp: IntMaximalt antal tecken som förväntas från ett värde att parsa. Kan användas för att undvika minnesfel. Standardinställningen är -1, vilket innebär obegränsat.Standardvärde: -1 |
maxColumnsTyp: IntDen hårda begränsningen för hur många kolumner en datapost kan ha. Standardvärde: 20480 |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Aktiverad som standard för Auto Loader när schemat härleds. Standardvärde: false |
modeTyp: StringParsningsläge för hantering av felaktiga poster. En av 'PERMISSIVE','DROPMALFORMED', och 'FAILFAST'.Standardvärde: PERMISSIVE |
multiLineTyp: BooleanOm CSV-posterna sträcker sig över flera rader. Standardvärde: false |
nanValueTyp: StringSträngrepresentationen av ett värde som inte är ett tal vid parsning FloatType och DoubleType kolumner.Standardvärde: "NaN" |
negativeInfTyp: StringSträngrepresentationen av negativ oändlighet vid parsning av kolumnerna FloatType eller DoubleType.Standardvärde: "-Inf" |
nullValueTyp: StringSträngrepresentation av ett null-värde. Standardvärde: "" |
parserCaseSensitive (inaktuell)Typ: BooleanNär du läser filer, överväg om du vill justera kolumnerna som deklarerats i rubriken så att de matchar schemat, med hänsyn till skiftlägeskänslighet. Detta är true som standard för Auto Loader. Kolumner som skiljer sig åt i skiftläge kommer att återställas i rescuedDataColumn om den är aktiverad. Det här alternativet har blivit inaktuellt till förmån för readerCaseSensitive.Standardvärde: false |
positiveInfTyp: StringSträngrepresentationen av den positiva oändligheten vid tolkningen av FloatType eller DoubleType-kolumnerna.Standardvärde: "Inf" |
preferDateTyp: BooleanFörsöker härleda strängar som datum i stället för tidsstämpel när det är möjligt. Du måste också använda schemainferens, antingen genom att aktivera inferSchema eller användacloudFiles.inferColumnTypes med Auto Loader.Standardvärde: true |
quoteTyp: CharTecknet som används för att ta bort värden där fältgränsaren är en del av värdet. Standardvärde: " |
readerCaseSensitiveTyp: BooleanSpecificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant, åtgärda de datakolumner vars namn skiljer sig i bokstavskombination från schemat; annars, läs data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
sep eller delimiterTyp: StringAvgränsarsträngen mellan kolumner. Standardvärde: "," |
skipRowsTyp: IntAntalet rader från början av CSV-filen som ska ignoreras (inklusive kommenterade och tomma rader). Om header är sant blir rubriken den första oskipade och okommenterade raden.Standardvärde: 0 |
timestampFormatTyp: StringFormatet för att parsa tidsstämpelsträngar. Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringAtt java.time.ZoneId använda för parsning av datum och tidsstämplar.Standardvärde: Ingen |
unescapedQuoteHandlingTyp: StringStrategin för hantering av okapslade citattecken. Tillåtna alternativ:
Standardvärde: STOP_AT_DELIMITER |
XML Alternativ
| Alternativ | Beskrivning | Definitionsområde |
|---|---|---|
rowTag |
Radtaggen för XML-filerna som ska behandlas som en rad. I xml-exemplet <books> <book><book>...<books>är booklämpligt värde . Det här är ett obligatoriskt alternativ. |
läs |
samplingRatio |
Definierar en bråkdel av rader som används för schemainferens. Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: 1.0. |
läs |
excludeAttribute |
Om du vill exkludera attribut i element. Förvald: false. |
läs |
mode |
Läge för att hantera korrupta poster vid parsning.PERMISSIVE: För skadade poster placerar du den felaktiga strängen i ett fält som konfigurerats av columnNameOfCorruptRecord, och felaktiga fält sätts till null. Om du vill behålla korrupta poster kan du ange ett fält av typen string med namnet columnNameOfCorruptRecord i ett användardefinierat schema. Om ett schema inte har fältet tas skadade poster bort under parsningen. När du härleder ett schema lägger parsern implicit till ett columnNameOfCorruptRecord fält i ett utdataschema.DROPMALFORMED: Ignorerar skadade poster. Det här läget stöds inte för inbyggda XML-funktioner.FAILFAST: Kastar ett undantag när parsern stöter på korrupta poster. |
läs |
inferSchema |
Om trueförsöker du härleda en lämplig typ för varje resulterande DataFrame-kolumn. Om falseär alla resulterande kolumner av string typen . Standardvärde:true. Inbyggda XML-funktioner ignorerar det här alternativet. |
läs |
columnNameOfCorruptRecord |
Tillåter namnbyte av det nya fältet som innehåller en felaktigt formaterad sträng som skapats avPERMISSIVE läge. Förvald: spark.sql.columnNameOfCorruptRecord. |
läs |
attributePrefix |
Prefixet för attribut för att skilja attribut från element. Det här är prefixet för fältnamn. Standard är _. Kan vara tomt för läsning av XML, men inte för skrivning. |
läsa, skriva |
valueTag |
Taggen som används för teckendata i element som även har attribut eller underelement. Användaren kan ange fältet valueTag i schemat eller så läggs det till automatiskt under schemainferensen när teckendata finns i element med andra element eller attribut. Förval: _VALUE |
läs,skriv |
encoding |
För läsning avkodar XML-filerna efter den angivna kodningstypen. För skrivning anger kodning (teckenuppsättning) för sparade XML-filer. Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: UTF-8. |
läsa, skriva |
ignoreSurroundingSpaces |
Definierar om blanksteg som omger de värden som läses ska hoppas över. Förvald: true. Teckendata med enbart mellanslag ignoreras. |
läs |
rowValidationXSDPath |
Sökväg till en valfri XSD-fil som används för att verifiera XML för varje rad individuellt. Rader som inte kan verifieras behandlas som parsningsfel som ovan. XSD påverkar inte det angivna eller härledda schemat på något annat sätt. | läs |
ignoreNamespace |
Om trueignoreras namnrymdernas prefix för XML-element och attribut. Taggar <abc:author> och <def:author>, till exempel, behandlas som om båda bara är <author>. Det går inte att ignorera namnrymder för elementet rowTag, endast dess läsbara underordnade. XML-parsning är inte namnområdesmedveten även om false. Förvald: false. |
läs |
timestampFormat |
Anpassad tidsstämpelformatsträng som följer datetime-mönsterformatet . Detta gäller för timestamp typ. Förvald: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. |
läsa, skriva |
timestampNTZFormat |
Anpassad formatsträng för tidsstämpel utan tidszon som följer datetime-mönsterformatet. Detta gäller för timestampNTZType-typen. Standardvärde:yyyy-MM-dd'T'HH:mm:ss[.SSS] |
läsa, skriva |
dateFormat |
Anpassad datumformatsträng som följer datetime-mönsterformatet. Detta gäller för datumtyp. Förvald: yyyy-MM-dd. |
läsa, skriva |
locale |
Ställer in en lokal som en språktagg i IETF BCP 47-format. Används till exempel locale vid parsning av datum och tidsstämplar. Förvald: en-US. |
läs |
rootTag |
Rottagg för XML-filerna. Till exempel, i <books> <book><book>...</books> är det lämpliga värdet books. Du kan inkludera grundläggande attribut genom att ange ett värde som books foo="bar". Förvald: ROWS. |
skriva |
declaration |
Innehållet i XML-deklarationen som ska skrivas i början av varje XML-utdatafil före rootTag. Till exempel orsakar ett värde av foo att <?xml foo?> skrivs. Ställ in på en tom sträng för att undertrycka. Förval: version="1.0"encoding="UTF-8" standalone="yes". |
skriva |
arrayElementName |
Namn på XML-element som omger varje element i en matrisvärdeskolumn när du skriver. Förvald: item. |
skriva |
nullValue |
Anger strängrepresentationen av ett null-värde. Standard: sträng null. När detta är nullskriver parsern inte attribut och element för fält. |
läsa, skriva |
compression |
Komprimeringskod som ska användas när du sparar till filen. Detta kan vara ett av de kända skiftlägesokänsliga förkortade namnen (none, bzip2, gzip, lz4, snappy och).deflate). Inbyggda XML-funktioner ignorerar det här alternativet. Förvald: none. |
skriva |
validateName |
Om sant, kastar ett fel vid misslyckad validering av XML-elementnamn. Till exempel kan SQL-fältnamn ha blanksteg, men XML-elementnamn kan inte det. Standardvärde:true. |
skriva |
readerCaseSensitive |
Anger hur skiftlägeskänsligheten fungerar när rescuedDataColumn är aktiverad. Om det är sant, åtgärda de datakolumner vars namn skiljer sig i bokstavskombination från schemat; annars, läs data på ett skiftlägesokänsligt sätt. Förvald: true. |
läs |
rescuedDataColumn |
Om du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp och schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standard: Ingen. |
läs |
singleVariantColumn |
Anger namnet på den enskilda variantkolumnen. Om det här alternativet anges för läsning parsar du hela XML-posten i en enskild variantkolumn med det angivna alternativsträngsvärdet som kolumnens namn. Om det här alternativet anges för skrivning, skriv värdet för den enda kolumnen Variant till XML-filer. Förvald: none. |
läsa, skriva |
PARQUET Alternativ
| Alternativ |
|---|
datetimeRebaseModeTyp: StringStyr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
int96RebaseModeTyp: StringStyr ombaseringen av INT96-tidsstämpelvärdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Standardvärde: false |
readerCaseSensitiveTyp: BooleanSpecificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant, åtgärda de datakolumner vars namn skiljer sig i bokstavskombination från schemat; annars, läs data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
AVRO Alternativ
| Alternativ |
|---|
avroSchemaTyp: StringValfritt schema som tillhandahålls av en användare i Avro-format. När du läser Avro kan det här alternativet ställas in på ett utvecklat schema, som är kompatibelt men annorlunda med det faktiska Avro-schemat. Deserialiseringsschemat överensstämmer med det utvecklade schemat. Om du till exempel anger ett schema som innehåller ytterligare en kolumn med ett standardvärde innehåller läsresultatet även den nya kolumnen. Standardvärde: Ingen |
datetimeRebaseModeTyp: StringStyr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. mergeSchema för Avro lättar inte på kraven för datatyper.Standardvärde: false |
readerCaseSensitiveTyp: BooleanSpecificerar hur skiftlägeskänsligheten beter sig när rescuedDataColumn är aktiverat. Om det är sant, åtgärda de datakolumner vars namn skiljer sig i bokstavskombination från schemat; annars, läs data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Mer information finns i Vad är den räddade datakolumnen?. Standardvärde: Ingen |
BINARYFILE Alternativ
Binära filer har inga ytterligare konfigurationsalternativ.
TEXT Alternativ
| Alternativ |
|---|
encodingTyp: StringNamnet på kodningen av TEXT-filradsavgränsaren. En lista över alternativ finns i java.nio.charset.Charset.Innehållet i filen påverkas inte av det här alternativet och läses as-is. Standardvärde: UTF-8 |
lineSepTyp: StringEn sträng mellan två TEXT-poster i följd. Standardvärde: Ingen, som omfattar \r, \r\n och \n |
wholeTextTyp: BooleanHuruvida en fil ska läsas som en enda post. Standardvärde: false |
ORC Alternativ
| Alternativ |
|---|
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Standardvärde: false |
Molnspecifika alternativ
Auto Loader erbjuder ett antal alternativ för att konfigurera molninfrastruktur.
AWS-specifika alternativ
Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska konfigurera meddelandetjänsterna åt dig:
| Alternativ |
|---|
cloudFiles.regionTyp: StringDen region där käll-S3-bucketen finns och där AWS SNS- och SQS-tjänsterna skapas. Standard: Regionen för EC2-instansen. |
Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:
| Alternativ |
|---|
cloudFiles.queueUrlTyp: StringWebbadressen till SQS-kön. Om det är tillgängligt förbrukar Auto Loader händelser direkt från den här kön i stället för att konfigurera sina egna AWS SNS- och SQS-tjänster. Standard: Ingen |
AWS-autentiseringsalternativ
Ange följande autentiseringsalternativ för att använda en Databricks-tjänstautentiseringsuppgift:
| Alternativ |
|---|
databricks.serviceCredentialTyp: StringNamnet på din Databricks-tjänsts referenskod. Tillgänglig i Databricks Runtime 16.1 och senare. Standard: Ingen |
När Databricks-tjänstens autentiseringsuppgifter eller IAM-roller inte är tillgängliga kan du ange följande autentiseringsalternativ i stället:
| Alternativ |
|---|
cloudFiles.awsAccessKeyTyp: StringAWS-åtkomstnyckelns ID för användaren. Måste vara försett med cloudFiles.awsSecretKey.Standard: Ingen |
cloudFiles.awsSecretKeyTyp: StringDen hemliga åtkomstnyckeln för AWS-användaren. Måste vara försett med cloudFiles.awsAccessKey.Standard: Ingen |
cloudFiles.roleArnTyp: StringARN för en IAM-roll att använda, om det behövs. Rollen kan antas från klustrets instansprofil eller genom att ange autentiseringsuppgifter med cloudFiles.awsAccessKey och cloudFiles.awsSecretKey.Standard: Ingen |
cloudFiles.roleExternalIdTyp: StringEn identifierare att ange när du antar en roll med hjälp av cloudFiles.roleArn.Standard: Ingen |
cloudFiles.roleSessionNameTyp: StringEtt valfritt sessionsnamn att använda när du antar en roll med hjälp av cloudFiles.roleArn.Standard: Ingen |
cloudFiles.stsEndpointTyp: StringEn valfri slutpunkt för att ge åtkomst till AWS STS när du antar en roll med hjälp av cloudFiles.roleArn.Standard: Ingen |
Azure-specifika alternativ
Du måste ange värden för alla följande alternativ om du anger cloudFiles.useNotifications = true och vill att Auto Loader ska konfigurera meddelandetjänsterna åt dig:
| Alternativ |
|---|
cloudFiles.resourceGroupTyp: StringDen Azure-resursgrupp under vilken lagringskontot skapas. Standard: Ingen |
cloudFiles.subscriptionIdTyp: StringDet Azure-prenumerations-ID under vilket resursgruppen skapas. Standard: Ingen |
databricks.serviceCredentialTyp: StringNamnet på din Databricks-tjänsts referenskod. Tillgänglig i Databricks Runtime 16.1 och senare. Standard: Ingen |
Om en Databricks-tjänstautentiseringsuppgift inte är tillgänglig kan du ange följande autentiseringsalternativ i stället:
| Alternativ |
|---|
cloudFiles.clientIdTyp: StringKlient-ID eller program-ID för tjänstens huvudman. Standard: Ingen |
cloudFiles.clientSecretTyp: StringKlienthemligheten för serviceprincipalen. Standard: Ingen |
cloudFiles.connectionStringTyp: StringAnslutningssträng för lagringskontot, baserat på antingen kontoåtkomstnyckel eller signatur för delad åtkomst (SAS). Standard: Ingen |
cloudFiles.tenantIdTyp: StringAzure tenant-ID där serviceprincipalen skapas. Standard: Ingen |
Viktigt!
Automatisk meddelandekonfiguration är tillgänglig i Azure Kina- och myndighetsregioner med Databricks Runtime 9.1 och senare. Du måste ange en queueName för att använda Auto Loader med filmeddelanden i dessa regioner för DBR-äldre versioner.
Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:
| Alternativ |
|---|
cloudFiles.queueNameTyp: StringNamnet på kön i Azure. Om det tillhandahålls tar molnfilkällan emot händelser direkt från denna kö i stället för att konfigurera sina egna Azure Event Grid- och kölagringstjänster. I så fall kräver din databricks.serviceCredential eller cloudFiles.connectionString endast läsbehörigheter i kön.Standard: Ingen |
Google-specifika alternativ
Automatisk inläsare kan konfigurera meddelandetjänster åt dig automatiskt genom att utnyttja Databricks -tjänstens autentiseringsuppgifter. Tjänstkontot som skapats med Databricks-tjänstens autentiseringsuppgifter kräver de behörigheter som anges i Konfigurera automatiska inläsningsströmmar i filmeddelandeläge.
| Alternativ |
|---|
cloudFiles.projectIdTyp: StringID för projektet som GCS-bucketen finns i. Google Cloud Pub/Sub-prenumerationen skapas också i det här projektet. Standard: Ingen |
databricks.serviceCredentialTyp: StringNamnet på din Databricks-tjänsts referenskod. Tillgänglig i Databricks Runtime 16.1 och senare. Standard: Ingen |
Om en Databricks-tjänstautentiseringsuppgift inte är tillgänglig kan du använda Google-tjänstkonton direkt. Du kan antingen konfigurera klustret så att det förutsätter ett tjänstkonto genom att följa Konfiguration av Google-tjänsten eller ange följande autentiseringsalternativ direkt:
| Alternativ |
|---|
cloudFiles.clientTyp: StringKlient-ID för Google-tjänstkontot. Standard: Ingen |
cloudFiles.clientEmailTyp: StringE-postmeddelandet för Google-tjänstkontot. Standard: Ingen |
cloudFiles.privateKeyTyp: StringDen privata nyckel som genereras för Google-tjänstkontot. Standard: Ingen |
cloudFiles.privateKeyIdTyp: StringID för den privata nyckel som genereras för Google-tjänstkontot. Standard: Ingen |
Ange endast följande alternativ om du väljer cloudFiles.useNotifications = true och vill att Auto Loader ska använda en kö som du redan har konfigurerat:
| Alternativ |
|---|
cloudFiles.subscriptionTyp: StringNamnet på Google Cloud Pub/Sub-prenumerationen. Om det är tillgängligt använder molnfilkällan händelser från den här kön i stället för att ställa in sina egna GCS-aviseringar och Google Cloud Pub/Sub-tjänster. Standard: Ingen |