Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Gäller för:
Databricks SQL
Databricks Runtime
Läser in data från en filplats till en Delta-tabell. Det här är en återförsöksbar och idempotent åtgärd – Filer i källan som redan har lästs in skippas. Detta gäller även om filerna har ändrats sedan de lästes in.
Exempel finns i Vanliga datainläsningsmönster med hjälp av COPY INTO.
Syntax
COPY INTO target_table [ BY POSITION | ( col_name [ , <col_name> ... ] ) ]
FROM { source_clause |
( SELECT expression_list FROM source_clause ) }
FILEFORMAT = data_source
[ VALIDATE [ ALL | num_rows ROWS ] ]
[ FILES = ( file_name [, ...] ) | PATTERN = glob_pattern ]
[ FORMAT_OPTIONS ( { data_source_reader_option = value } [, ...] ) ]
[ COPY_OPTIONS ( { copy_option = value } [, ...] ) ]
source_clause
source [ WITH ( [ CREDENTIAL { credential_name |
(temporary_credential_options) } ]
[ ENCRYPTION (encryption_options) ] ) ]
Parametrar
target_tableIdentifierar en befintlig Delta-tabell. Target_table får inte innehålla någon specifikation för tidsmässiga specifikationer eller alternativ.
Om tabellnamnet anges i form av en plats, till exempel:
delta.`/path/to/table`, kan Unity Catalog styra åtkomsten till de platser som skrivs till. Du kan skriva till en extern plats genom att:- Definiera platsen som en extern plats och ha
WRITE FILESbehörighet på den externa platsen. - Har
WRITE FILESbehörighet för en namngiven lagringsuppgift som tillåter att skriva till en plats med hjälp av:COPY INTO delta.`/some/location` WITH (CREDENTIAL <named-credential>)
Mer information finns i Ansluta till molnobjektlagring med Unity Catalog .
- Definiera platsen som en extern plats och ha
BY POSITION| ( col_name [ , <col_name> ... ] )Jämför källkolumner med kolumner i måltabellen efter ordningsposition. Typgjutning av de matchade kolumnerna görs automatiskt.
Den här parametern stöds endast för huvudlöst CSV-filformat. Du måste ange
FILEFORMAT = CSV.FORMAT_OPTIONSmåste också anges till("headers" = "false")(FORMAT_OPTIONS ("headers" = "false")är standardvärdet).Syntaxalternativ 1:
BY POSITION- Matchar ihop källkolumner med måltabellens kolumner efter ordningsposition automatiskt.
- Standardnamnmatchningen används inte för jämförelse.
-
IDENTITYkolumner ochGENERATEDkolumner i måltabellen ignoreras när de matchar källkolumnerna. - Om antalet källkolumner inte är lika med de filtrerade måltabellkolumnerna
COPY INTOgenererar ett fel.
Syntaxalternativ 2:
( col_name [ , <col_name> ... ] )- Matchar källkolumner med de angivna måltabellkolumnerna efter relativ ordningstalsposition med hjälp av en namnlista för måltabellkolumner inom parenteser, avgränsade med kommatecken.
- Den ursprungliga tabellkolumnordningen och kolumnnamnen används inte för matchning.
-
IDENTITYkolumner ochGENERATEDkolumner kan inte anges i listan med kolumnnamn, annarsCOPY INTOuppstår ett fel. - Det går inte att duplicera de angivna kolumnerna.
- När antalet källkolumner inte är lika med de angivna tabellkolumnerna uppstår
COPY INTOett fel. - För de kolumner som inte anges i kolumnnamnslistan tilldelar
COPY INTOeventuella standardvärden, och tilldelarNULLannars. Om någon kolumn inte är nullbar uppstårCOPY INTOett fel.
- Matchar ihop källkolumner med måltabellens kolumner efter ordningsposition automatiskt.
sourceFilplatsen som data ska läsas in från. Filer på den här platsen måste ha det format som anges i
FILEFORMAT. Platsen tillhandahålls i form av en URI.Åtkomst till källplatsen kan ges via:
credential_nameValfritt namn på de autentiseringsuppgifter som används för att komma åt eller skriva till lagringsplatsen. Du använder endast den här autentiseringsuppgiften om filplatsen inte ingår på en extern plats. Se credential_name.
Infogade tillfälliga autentiseringsuppgifter.
- Definiera källplatsen som en extern plats och ha
READ FILESbehörigheter på den externa platsen via Unity Catalog. - Att använda en namngiven lagringsreferens med
READ FILESbehörigheter som tillåter läsning från en plats via Unity Catalog.
Du behöver inte ange inbäddade eller namngivna autentiseringsuppgifter om platsen redan har definierats som en extern sökväg som du har behörighet att använda. Mer information finns i Översikt över externa platser .
Kommentar
Om källfilsökvägen är en rotsökväg lägger du till ett snedstreck (
/) i slutet av filsökvägen,s3://my-bucket/till exempel .Godkända alternativ för autentiseringsuppgifter är:
-
AZURE_SAS_TOKENför ADLS och Azure Blob Storage -
AWS_ACCESS_KEY,AWS_SECRET_KEYochAWS_SESSION_TOKENför AWS S3
Godkända krypteringsalternativ är:
-
TYPE = 'AWS_SSE_C', ochMASTER_KEYför AWS S3
Se Ladda data med COPY INTO med tillfälliga inloggningsuppgifter.
SELECT expression_listVäljer de angivna kolumnerna eller uttrycken från källdata innan du kopierar till Delta-tabellen. Uttrycken kan vara allt du använder med
SELECT-instruktioner, inklusive fönsteråtgärder. Du kan bara använda aggregeringsuttryck för globala aggregeringar. Du kan inteGROUP BYanvända kolumner med den här syntaxen.FILEFORMAT = data_sourceFormatet för källfilerna som ska läsas in. En av
CSV,JSON,AVRO,ORC,PARQUET,TEXT,BINARYFILE.VALIDATEGäller för:
Databricks SQL
Databricks Runtime 10.4 LTS och senareDe data som ska läsas in i en tabell verifieras men skrivs inte till tabellen. Dessa valideringar omfattar:
- Om data kan parsas.
- Om schemat matchar tabellens eller om schemat behöver utvecklas.
- Om alla null- och kontrollvillkor är uppfyllda.
Standardvärdet är att verifiera alla data som ska läsas in. Du kan ange ett antal rader som ska verifieras med nyckelordet
ROWS, till exempelVALIDATE 15 ROWS. InstruktionenCOPY INTOreturnerar en förhandsgranskning av data på 50 rader eller mindre när ett antal mindre än 50 används med nyckelordetROWS).FILESEn lista över filnamn som ska läsas in med en gräns på 1 000 filer. Det går inte att ange med
PATTERN.PATTERNEtt globmönster som identifierar de filer som ska läsas in från källkatalogen. Det går inte att ange med
FILES.Mönster beskrivning ?Matchar ett enskilt tecken *Matchar noll eller fler tecken [abc]Matchar ett enskilt tecken från teckenuppsättningen {a,b,c}. [a-z]Matchar ett enskilt tecken från teckenområdet {a... z}. [^a]Matchar ett enskilt tecken som inte kommer från teckenuppsättningen eller intervallet {a}. Observera att ^tecken måste förekomma omedelbart till höger om den inledande hakparentesen.{ab,cd}Matchar en sträng från stränguppsättningen {ab, cd}. {ab,c{de, fh}}Matchar en sträng från stränguppsättningen {ab, cde, cfh}. FORMAT_OPTIONSAlternativ som ska skickas till Apache Spark-datakällans läsare för det angivna formatet. Se Formatalternativ för varje filformat.
COPY_OPTIONSAlternativ för att styra kommandots
COPY INTOfunktion.-
force: boolesk, standardvärdefalse. Om värdettrueär inaktiverat inaktiveras idempotens och filer läses in oavsett om de har lästs in tidigare. -
mergeSchema: boolesk, standardvärdefalse. Om det är inställt påtruekan schemat utvecklas enligt inkommande data.
-
Anropa COPY INTO samtidigt
COPY INTO stöder samtidiga anrop mot samma tabell. Så länge som COPY INTO anropas samtidigt på distinkta uppsättningar med indatafiler bör varje anrop så småningom lyckas, annars får du en transaktionskonflikt.
COPY INTO bör inte anropas samtidigt för att förbättra prestandan. ett enda COPY INTO kommando med flera filer presterar vanligtvis bättre än att köra samtidiga COPY INTO kommandon med en enda fil vardera.
COPY INTO kan anropas samtidigt när:
- Flera dataproducenter har inte ett enkelt sätt att samordna och kan inte göra ett enda anrop.
- När en mycket stor katalog kan bearbetas del för del, underkatalog för underkatalog. När du matar in kataloger med ett mycket stort antal filer rekommenderar Databricks att du använder Auto Loader när det är möjligt.
Komma åt filens metadata
Information om hur du kommer åt metadata för filbaserade datakällor finns i kolumnen Filmetadata.
Formatalternativ
- Allmänna alternativ
-
JSONalternativ -
CSValternativ -
XMLalternativ -
PARQUETalternativ -
AVROalternativ -
BINARYFILEalternativ -
TEXTalternativ -
ORCalternativ
Allmänna alternativ
Följande alternativ gäller för alla filformat.
| Alternativ |
|---|
ignoreCorruptFilesTyp: BooleanOm du vill ignorera skadade filer. Om det är sant fortsätter Spark-jobben att köras när skadade filer påträffas och innehållet som har lästs returneras fortfarande. Kan observeras som numSkippedCorruptFiles iDelta Lake-historikens operationMetrics-kolumn. Finns i Databricks Runtime 11.3 LTS och senare.Standardvärde: false |
ignoreMissingFilesTyp: BooleanOm du vill ignorera filer som saknas. Om det är sant fortsätter Spark-jobben att köras när filer saknas och innehållet som har lästs returneras fortfarande. Finns i Databricks Runtime 11.3 LTS och senare. Standardvärde: false för automatisk inläsning, true för COPY INTO (äldre) |
modifiedAfterTyp: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0En valfri tidsstämpel som ett filter för att endast mata in filer som har en tidsstämpel för ändring efter den angivna tidsstämpeln. Standardvärde: Ingen |
modifiedBeforeTyp: Timestamp String, till exempel 2021-01-01 00:00:00.000000 UTC+0En valfri tidsstämpel som ett filter för att endast mata in filer som har en ändringstidsstämpel före den angivna tidsstämpeln. Standardvärde: Ingen |
pathGlobFilter eller fileNamePatternTyp: StringEtt potentiellt globmönster för att välja filer. Motsvarar PATTERN i COPY INTO (äldre).
fileNamePattern kan användas i read_files.Standardvärde: Ingen |
recursiveFileLookupTyp: BooleanDet här alternativet söker igenom kapslade kataloger även om deras namn inte följer ett namngivningsschema för partitioner som date=2019-07-01. Standardvärde: false |
JSON Alternativ
| Alternativ |
|---|
allowBackslashEscapingAnyCharacterTyp: BooleanHuruvida man ska tillåta backslash att maskera vilket tecken som helst som följer det. Om det inte är aktiverat kan endast tecken som uttryckligen anges av JSON-specifikationen undantagas. Standardvärde: false |
allowCommentsTyp: BooleanOm du vill tillåta användning av Java-, C- och C++-formatkommentarer ( '/', '*'och '//' sorter) inom parsat innehåll eller inte.Standardvärde: false |
allowNonNumericNumbersTyp: BooleanOm du vill tillåta uppsättningen med NaN-token ( NaN) som giltiga flytande talvärden.Standardvärde: true |
allowNumericLeadingZerosTyp: BooleanOm att tillåta att heltal börjar med ytterligare (ignorerbara) nollor (till exempel 000001).Standardvärde: false |
allowSingleQuotesTyp: BooleanOm du vill tillåta användning av enkla citattecken (apostrofer, tecken '\') för att citera strängar (namn och strängvärden).Standardvärde: true |
allowUnquotedControlCharsTyp: BooleanOm JSON-strängar ska tillåtas innehålla icke kapslade kontrolltecken (ASCII-tecken med ett värde som är mindre än 32, inklusive flik- och radmatningstecken) eller inte. Standardvärde: false |
allowUnquotedFieldNamesTyp: BooleanOm du vill tillåta användning av ociterade fältnamn (som tillåts av JavaScript, men inte av JSON-specifikationen). Standardvärde: false |
badRecordsPathTyp: StringSökvägen för att lagra filer där information om felaktiga JSON-poster sparas. Att använda alternativet badRecordsPath i en filbaserad datakälla har följande begränsningar:
Standardvärde: Ingen |
columnNameOfCorruptRecordTyp: StringKolumnen för att lagra poster som är felaktiga och inte kan tolkas. Om mode för parsning anges som DROPMALFORMED, kommer den här kolumnen att vara tom.Standardvärde: _corrupt_record |
dateFormatTyp: StringFormatet för parsning av datumsträngar. Standardvärde: yyyy-MM-dd |
dropFieldIfAllNullTyp: BooleanOm du vill ignorera kolumner med alla null-värden eller tomma matriser och structs under schemainferens. Standardvärde: false |
encoding eller charsetTyp: StringNamnet på kodningen av JSON-filerna. Se java.nio.charset.Charset för lista över alternativ. Du kan inte använda UTF-16 och UTF-32 när multiline är true.Standardvärde: UTF-8 |
inferTimestampTyp: BooleanOm man ska försöka att härleda tidsstämpelsträngar som en TimestampType. När det är inställt påtruekan schemainferensen ta märkbart längre tid. Du måste aktivera cloudFiles.inferColumnTypes för att kunna använda det med Auto Loader.Standardvärde: false |
lineSepTyp: StringEn sträng mellan två på varandra följande JSON-poster. Standardvärde: Ingen, som omfattar \r, \r\noch \n |
localeTyp: StringEn java.util.Locale identifikator. Påverkar standarddatum, tidsstämpel och decimalparsning i JSON.Standardvärde: US |
modeTyp: StringParsningsläge för hantering av felaktiga poster. En av PERMISSIVE, DROPMALFORMEDeller FAILFAST.Standardvärde: PERMISSIVE |
multiLineTyp: BooleanOm JSON-posterna sträcker sig över flera rader. Standardvärde: false |
prefersDecimalTyp: BooleanFörsöker härleda strängar som DecimalType i stället för float eller double där det är möjligt. Du måste också använda schemainferens, antingen genom att aktiverainferSchema eller använda cloudFiles.inferColumnTypes med Auto Loader.Standardvärde: false |
primitivesAsStringTyp: BooleanHuruvida man ska härleda primitiva typer som tal och booleska värden som StringType.Standardvärde: false |
readerCaseSensitiveTyp: BooleanAnger hur skiftlägeskänslighet hanteras när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt. Tillgänglig i Databricks Runtime13.3 och senare. Standardvärde: true |
rescuedDataColumnTyp: StringOm du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp eller schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
singleVariantColumnTyp: StringOm du vill mata in hela JSON-dokumentet, parsat i en enskild variantkolumn med den angivna strängen som kolumnens namn. Om det är inaktiverat matas JSON-fälten in i sina egna kolumner. Standardvärde: Ingen |
timestampFormatTyp: StringFormatet för att parsa tidsstämpelsträngar. Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringDet java.time.ZoneId som används vid tolkning av tidsstämplar och datum.Standardvärde: Ingen |
CSV Alternativ
| Alternativ |
|---|
badRecordsPathTyp: StringSökvägen för att spara filer för att registrera information om felaktiga CSV-poster. Standardvärde: Ingen |
charToEscapeQuoteEscapingTyp: CharTecknet som används för att undkomma det tecken som används för att undvika citattecken. Till exempel för följande post: [ " a\\", b ]
Standardvärde: '\0' |
columnNameOfCorruptRecordStöd finns för Auto Loader. Stöds inte för COPY INTO (äldre).Typ: StringKolumnen för att lagra poster som är felaktiga och inte kan tolkas. Om mode för parsning anges som DROPMALFORMED, kommer den här kolumnen att vara tom.Standardvärde: _corrupt_record |
commentTyp: CharDefinierar det tecken som representerar en radkommentar när det hittas i början av en textrad. Använd '\0' för att inaktivera överhoppning av kommentarer.Standardvärde: '\u0000' |
dateFormatTyp: StringFormatet för parsning av datumsträngar. Standardvärde: yyyy-MM-dd |
emptyValueTyp: StringSträngrepresentation av ett tomt värde. Standardvärde: "" |
encoding eller charsetTyp: StringNamnet på kodningen av CSV-filerna. Se java.nio.charset.Charset listan med alternativ.
UTF-16 och UTF-32 kan inte användas när multiline är true.Standardvärde: UTF-8 |
enforceSchemaTyp: BooleanAtt tvångstillämpa det angivna eller härledda schemat på CSV-filerna. Om alternativet är aktiverat ignoreras rubrikerna för CSV-filer. Det här alternativet ignoreras som standard när du använder Auto Loader för att rädda data och tillåta schemautveckling. Standardvärde: true |
escapeTyp: CharEscape-tecknet som ska användas vid parsning av data. Standardvärde: '\' |
headerTyp: BooleanOm CSV-filerna innehåller ett huvud. Automatisk inläsning förutsätter att filer har rubriker vid härledning av schemat. Standardvärde: false |
ignoreLeadingWhiteSpaceTyp: BooleanOm du vill ignorera inledande blanksteg för varje parsat värde. Standardvärde: false |
ignoreTrailingWhiteSpaceTyp: BooleanHuruvida man ska ignorera avslutande blanksteg för varje tolkat värde. Standardvärde: false |
inferSchemaTyp: BooleanOm du vill härleda datatyperna för de parsade CSV-posterna eller anta att alla kolumner är av StringType. Kräver en ytterligare genomgång av data om inställt på true. Använd cloudFiles.inferColumnTypes istället för Automatisk inläsare.Standardvärde: false |
lineSepTyp: StringEn sträng mellan två på varandra följande CSV-poster. Standardvärde: Ingen, som omfattar \r, \r\noch \n |
localeTyp: StringEn java.util.Locale identifikator. Påverkar standarddatum, tidsstämpel och decimalparsning i CSV.Standardvärde: US |
maxCharsPerColumnTyp: IntMaximalt antal tecken som förväntas från ett värde att parsa. Kan användas för att undvika minnesfel. Standardvärdet är -1, vilket innebär obegränsat.Standardvärde: -1 |
maxColumnsTyp: IntDen hårda gränsen för hur många kolumner en post kan ha. Standardvärde: 20480 |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Aktiverad som standard för Auto Loader när schemat härleds. Standardvärde: false |
modeTyp: StringParsningsläge för hantering av felaktiga poster. En av 'PERMISSIVE','DROPMALFORMED', och 'FAILFAST'.Standardvärde: PERMISSIVE |
multiLineTyp: BooleanOm CSV-posterna sträcker sig över flera rader. Standardvärde: false |
nanValueTyp: StringSträngrepresentationen av ett värde som inte är ett tal vid parsning FloatType och DoubleType kolumner.Standardvärde: "NaN" |
negativeInfTyp: StringSträngrepresentationen av negativ oändlighet vid tolkning av kolumner FloatType eller DoubleType.Standardvärde: "-Inf" |
nullValueTyp: StringSträngrepresentation av ett null-värde. Standardvärde: "" |
parserCaseSensitive (inaktuell)Typ: BooleanNär du läser filer, om du vill justera kolumner som deklarerats i rubriken med schemafallet känsligt. Detta är true som standard för autoladdare. Kolumner som skiljer sig åt i skiftläge kommer att räddas i rescuedDataColumn om det är aktiverat. Det här alternativet har blivit inaktuellt till förmån för readerCaseSensitive.Standardvärde: false |
positiveInfTyp: StringSträngrepresentationen av positiv oändlighet när man analyserar FloatType eller DoubleType i kolumner.Standardvärde: "Inf" |
preferDateTyp: BooleanFörsöker härleda strängar som datum i stället för tidsstämpel när det är möjligt. Du måste också använda schemainferens, antingen genom att aktivera inferSchema eller användacloudFiles.inferColumnTypes med Auto Loader.Standardvärde: true |
quoteTyp: CharTecknet som används för att ta bort värden där fältgränsaren är en del av värdet. Standardvärde: " |
readerCaseSensitiveTyp: BooleanAnger hur skiftlägeskänslighet hanteras när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
sep eller delimiterTyp: StringAvgränsarsträngen mellan kolumner. Standardvärde: "," |
skipRowsTyp: IntAntalet rader från början av CSV-filen som ska ignoreras (inklusive kommenterade och tomma rader). Om header är sant blir rubriken den första oskippna och okommenterade raden.Standardvärde: 0 |
timestampFormatTyp: StringFormatet för att parsa tidsstämpelsträngar. Standardvärde: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX] |
timeZoneTyp: StringDet java.time.ZoneId som används vid tolkning av tidsstämplar och datum.Standardvärde: Ingen |
unescapedQuoteHandlingTyp: StringStrategin för hantering av ej kapslade citattecken. Tillåtna alternativ:
Standardvärde: STOP_AT_DELIMITER |
XML Alternativ
| Alternativ | beskrivning | Definitionsområde |
|---|---|---|
rowTag |
Radtaggen för XML-filerna som ska behandlas som en rad. I xml-exemplet <books> <book><book>...<books>är booklämpligt värde . Det här är ett obligatoriskt alternativ. |
läs |
samplingRatio |
Definierar en bråkdel av rader som används för schemainferens. Inbyggda XML-funktioner ignorerar det här alternativet. Standard: 1.0. |
läs |
excludeAttribute |
Om du vill exkludera attribut i element. Standard: false. |
läs |
mode |
Metod för att hantera skadade poster under parsing.PERMISSIVE: För skadade poster placerar du den skadade strängen i ett fält som konfigurerats av columnNameOfCorruptRecord, och konfigurerar skadade fält till null. Om du vill behålla skadade poster kan du ange ett typfält string som heter columnNameOfCorruptRecord i ett användardefinierat schema. Om ett schema inte har fältet tas skadade poster bort under parsningen. När du härleder ett schema lägger parsern implicit till ett columnNameOfCorruptRecord fält i ett utdataschema.DROPMALFORMED: Ignorerar skadade registerposter. Det här läget stöds inte för inbyggda XML-funktioner.FAILFAST: Kastar ett undantag när parsern möter korrupta poster. |
läs |
inferSchema |
Om trueförsöker du härleda en lämplig typ för varje resulterande DataFrame-kolumn. Om falseär alla resulterande kolumner av string typen . Standardvärde:true. Inbyggda XML-funktioner ignorerar det här alternativet. |
läs |
columnNameOfCorruptRecord |
Tillåter namnbyte av det nya fältet som innehåller en felaktigt formaterad sträng som skapats avPERMISSIVE läge. Standard: spark.sql.columnNameOfCorruptRecord. |
läs |
attributePrefix |
Prefixet för attribut för att skilja attribut från element. Det här är prefixet för fältnamn. Standard är _. Kan vara tomt för läsning av XML, men inte för skrivning. |
läsa, skriva |
valueTag |
Taggen som används för teckendata i element som också har attribut och/eller underordnade element. Användaren kan ange fältet valueTag i schemat eller så läggs det till automatiskt under schemainferensen när teckendata finns i element med andra element eller attribut. Standard: _VALUE |
läsa,skriva |
encoding |
För läsning avkodar XML-filerna efter den angivna kodningstypen. För skrivning anger kodning (teckenuppsättning) för sparade XML-filer. Inbyggda XML-funktioner ignorerar det här alternativet. Standard: UTF-8. |
läsa, skriva |
ignoreSurroundingSpaces |
Definierar om kringliggande blanksteg från värden som ska läsas ska ignoreras. Standard: true. Tecken som endast består av blanksteg ignoreras. |
läs |
rowValidationXSDPath |
Sökväg till en valfri XSD-fil som används för att verifiera XML för varje rad individuellt. Rader som inte kan verifieras behandlas som parsningsfel som ovan. XSD påverkar inte det angivna eller härledda schemat på något annat sätt. | läs |
ignoreNamespace |
Om trueignoreras namnrymdernas prefix för XML-element och attribut. Taggar <abc:author> och <def:author> behandlas, till exempel, som om båda bara är <author>. Det går inte att ignorera namnrymder på elementet rowTag, endast dess läsbara underordnade. XML-parsning är inte namnområdesmedveten även om false. Standard: false. |
läs |
timestampFormat |
Anpassad tidsstämpelformatsträng som följer datetime-mönsterformatet . Detta gäller för timestamp typ. Standard: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. |
läsa, skriva |
timestampNTZFormat |
Anpassad formatsträng för tidsstämpel utan tidszon som följer datetime-mönsterformatet. Detta gäller för timestampNTZType-typen. Standardvärde:yyyy-MM-dd'T'HH:mm:ss[.SSS] |
läsa, skriva |
dateFormat |
Anpassad datumformatsträng som följer datetime-mönsterformatet. Detta gäller för datumtyp. Standard: yyyy-MM-dd. |
läsa, skriva |
locale |
Anger en platsinställning som en språktagg i IETF BCP 47-format. Används till exempel locale vid parsning av datum och tidsstämplar. Standard: en-US. |
läs |
rootTag |
Rottagg för XML-filerna. Till exempel, i <books> <book><book>...</books> är det lämpliga värdet books. Du kan inkludera grundläggande attribut genom att ange ett värde som books foo="bar". Standard: ROWS. |
skriva |
declaration |
Innehållet i XML-deklarationen som ska skrivas i början av varje XML-utdatafil före rootTag. Till exempel orsakar ett värde av foo att <?xml foo?> skrivs. Ange en tom sträng för att undertrycka. Standard: version="1.0"encoding="UTF-8" standalone="yes". |
skriva |
arrayElementName |
Namn på XML-element som omger varje element i en matrisvärdeskolumn när du skriver. Standard: item. |
skriva |
nullValue |
Anger strängrepresentationen av ett null-värde. Standard: sträng null. När detta är nullskriver parsern inte attribut och element för fält. |
läsa, skriva |
compression |
Komprimeringskod som ska användas när du sparar till filen. Detta kan vara ett av de kända skiftlägesokänsliga förkortade namnen (none, bzip2, gzip, lz4, snappy ochdeflate). Inbyggda XML-funktioner ignorerar det här alternativet. Standard: none. |
skriva |
validateName |
Om sant kastar ett fel vid misslyckad validering av XML-elementnamn. Till exempel kan SQL-fältnamn innehålla blanksteg, men XML-elementnamn kan inte det. Standardvärde:true. |
skriva |
readerCaseSensitive |
Anger skiftlägeskänslighetsbeteendet när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt. Standard: true. |
läs |
rescuedDataColumn |
Om du vill samla in alla data som inte kan parsas på grund av ett matchningsfel av datatyp och schemamatchning (inklusive kolumnhölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?.COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen. |
läs |
singleVariantColumn |
Anger namnet på den enskilda variantkolumnen. Om det här alternativet anges för läsning parsar du hela XML-posten i en enskild variantkolumn med det angivna alternativsträngsvärdet som kolumnens namn. Om det här alternativet anges för skrivning, skriv värdet för den enda kolumnen Variant till XML-filer. Standard: none. |
läsa, skriva |
PARQUET Alternativ
| Alternativ |
|---|
datetimeRebaseModeTyp: StringStyr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
int96RebaseModeTyp: StringStyr ombaseringen av INT96-tidsstämpelvärdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Standardvärde: false |
readerCaseSensitiveTyp: BooleanAnger hur skiftlägeskänslighet hanteras när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. Mer information finns i Vad är den räddade datakolumnen?. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Standardvärde: Ingen |
AVRO Alternativ
| Alternativ |
|---|
avroSchemaTyp: StringValfritt schema som tillhandahålls av en användare i Avro-format. När du läser Avro kan det här alternativet ställas in på ett utvecklat schema, som är kompatibelt men annorlunda med det faktiska Avro-schemat. Deserialiseringsschemat överensstämmer med det utvecklade schemat. Om du till exempel anger ett schema som innehåller ytterligare en kolumn med ett standardvärde innehåller läsresultatet även den nya kolumnen. Standardvärde: Ingen |
datetimeRebaseModeTyp: StringStyr ombaseringen av DATE- och TIMESTAMP-värdena mellan julianska och proleptiska gregorianska kalendrar. Tillåtna värden: EXCEPTION, LEGACYochCORRECTED.Standardvärde: LEGACY |
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. mergeSchema för Avro tillåter inte flexibilitet i datatyper.Standardvärde: false |
readerCaseSensitiveTyp: BooleanAnger hur skiftlägeskänslighet hanteras när rescuedDataColumn är aktiverat. Om det är sant kan du rädda de datakolumner vars namn skiljer sig från schemat. Annars läser du data på ett skiftlägesokänsligt sätt.Standardvärde: true |
rescuedDataColumnTyp: StringHuruvida man ska samla in all data som inte kan parsas på grund av datatypbortfall och schemafel (inklusive kolumnens hölje) till en separat kolumn. Den här kolumnen ingår som standard när du använder Auto Loader. COPY INTO (äldre) stöder inte den räddade datakolumnen eftersom du inte kan ange schemat manuellt med hjälp av COPY INTO. Databricks rekommenderar att du använder Auto Loader för de flesta inmatningsscenarier.Mer information finns i Vad är den räddade datakolumnen?. Standardvärde: Ingen |
BINARYFILE Alternativ
Binära filer har inga ytterligare konfigurationsalternativ.
TEXT Alternativ
| Alternativ |
|---|
encodingTyp: StringNamnet på kodningen av TEXT-filradsavgränsaren. En lista över alternativ finns i java.nio.charset.Charset.Innehållet i filen påverkas inte av det här alternativet och läses as-is. Standardvärde: UTF-8 |
lineSepTyp: StringEn sträng mellan två på varandra följande TEXT-poster. Standardvärde: Ingen, som omfattar \r, \r\n och \n |
wholeTextTyp: BooleanOm du vill läsa en fil som en enda post. Standardvärde: false |
ORC Alternativ
| Alternativ |
|---|
mergeSchemaTyp: BooleanOm schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Standardvärde: false |