Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Lär dig mer om alternativet cloudFiles.useManagedFileEvents med Automatisk inläsare, som ger effektiv filidentifiering.
Hur fungerar Auto Loader med filhändelser?
Automatisk laddare med filhändelser använder funktioner för filhändelsemeddelanden som tillhandahålls av molntjänstleverantörer. Du kan konfigurera molnlagringscontainrar för att publicera meddelanden om filhändelser, till exempel skapande och ändring av nya filer. Med Amazon S3-händelseaviseringar kan till exempel en ny fil som anländer utlösa ett meddelande till ett Amazon SNS-ämne. En Amazon SQS-kö kan sedan prenumerera på SNS-ämnet för asynkron bearbetning av händelsen.
Följande diagram visar det här mönstret:
              
              
            
Databricks filhändelser är en tjänst som konfigurerar molnresurser för att lyssna efter filaktiviteter. Du kan också konfigurera molnresurserna själv och tillhandahålla en egen lagringskö.
När molnresurserna har konfigurerats lyssnar tjänsten på filhändelser och cachelagrar information om filmetadata. Cacheminnet behåller filmetadata för filer som ändrats under de senaste 7 dagarna. Auto Loader använder den här cachen för att identifiera filer när den körs med cloudFiles.useManagedFileEvents inställt på true.
Följande diagram visar dessa interaktioner:
              
              
            
När en dataström körs för första gången med cloudFiles.useManagedFileEvents inställd på true, gör Auto Loader en fullständig kataloggenomgång av inläsningssökvägen för att identifiera alla filer och synkronisera med filhändelsernas cache (säkerställa en giltig läsposition i cacheminnet och lagra den i dataströmmens kontrollpunkt). Efterföljande körningar av Auto Loader identifierar nya filer genom att läsa direkt från cachen för filhändelser med hjälp av den lagrade läspositionen och kräver inte kataloglista.
Eftersom cachen endast innehåller metadata för filer som ändrats under de senaste 7 dagarna kan den bara stödja inkrementella läsningar om du kör Auto Loader minst en gång var sjunde dag. Om du inte kör Auto Loader minst så här ofta blir den lagrade läspositionen ogiltig och Auto Loader måste utföra en fullständig kataloggenomsökning för att bli aktuell med cache för filhändelser.
När använder Auto Loader med filhändelser kataloglistning?
Den automatiska laddaren utför en fullständig kataloglista när:
- Starta en ny strömning
 - Migrera en dataström från kataloglistor eller äldre filaviseringar
 - En dataströms inläsningssökväg ändras
 - Auto Loader med filhändelser körs inte under en period av mer än 7 dagar.
 - Uppdateringar görs på den externa plats som gör Auto Loaders läsposition ogiltig. Exempel är när filhändelser inaktiveras och aktiveras igen, när den externa platsens sökväg ändras eller när en annan kö tillhandahålls för den externa platsen.
 
Auto Loader utför alltid en fullständig genomgång vid första körningen, även när includeExistingFiles är inställd på false. Med den här flaggan kan du mata in alla filer som skapades efter strömmens starttid. Auto Loader listar hela katalogen för att identifiera alla filer som skapats efter strömmens starttid, säkerställer en läsposition i filhändelsernas cache och lagrar den i kontrollpunkten. Efterföljande körningar läse direkt från filhändelsernas cacheminne och kräver ingen kataloglista.
Tjänsten Databricks-filhändelser utför också kontinuerligt fullständiga kataloglistningar på den externa platsen för att bekräfta att inga filer har missats (till exempel om den angivna kön är felkonfigurerad). De första fullständiga kataloglistorna börjar så snart filhändelser aktiveras på den externa platsen. Efterföljande listor börjar 24 timmar efter att den tidigare listan har slutförts. Så länge det finns minst en Auto Loader-ström som använder filhändelser för att läsa in data, utförs dessa listor för externa platser med filhändelser aktiverade.
Begränsningar med Auto Loader för filhändelser
- Omdirigeringar av sökvägar stöds inte. Sökvägsomskrivningar används när flera bucketar eller containrar monteras under DBFS, vilket är ett inaktuellt användningsmönster.
 
En allmän lista över begränsningar för filhändelser finns i Begränsningar för filhändelser.
Vanliga frågor och svar
Hitta svar på vanliga frågor om Auto Loader med filhändelser.
Hur bekräftar jag att filhändelser har konfigurerats korrekt?
Klicka på knappen Testa anslutning på sidan för extern plats. Om filhändelser har konfigurerats korrekt visas en grön bockmarkering för filhändelsernas läsobjekt . Om du precis har skapat den externa platsen och aktiverat filhändelser i Automatic-läge visar Skipped testet medan Databricks konfigurerar meddelanden för den externa platsen. Vänta några minuter och klicka sedan på Testa anslutning igen. Om Databricks inte har de behörigheter som krävs för att konfigurera eller läsa från filhändelser visas ett fel för läsobjektet för filhändelserna .
Kan jag undvika en fullständig kataloglista under den första körningen?
Nej. Även om includeExistingFiles är inställt på false, utför Auto Loader en kataloglistning för att identifiera filer som skapats efter att dataströmmen har startats och synkroniseras med cacheminnet för filhändelser (säkrar en giltig läsposition i cacheminnet och lagrar den i dataströmmens kontrollpunkt).
               Ska jag ställa in cloudFiles.backfillInterval för att undvika filer som saknas?
Nej. Den här inställningen rekommenderades för det äldre filmeddelandeläget eftersom molnlagringsmeddelandesystem kan resultera i missade eller försenade filer. Nu utför Databricks fullständiga kataloglistningar kontinuerligt på den externa platsenheten. De första fullständiga kataloglistorna börjar så snart filhändelser aktiveras på den externa platsen. Efterföljande listor börjar 24 timmar efter att den tidigare listan har slutförts. Dessa listor utförs för externa platser med filhändelser aktiverade så länge det finns minst en Auto Loader-ström med filhändelser för att läsa in data.
Jag konfigurerade filhändelser med en angiven lagringskö, men kön var felkonfigurerad och jag missade filer. Hur ser jag till att Auto Loader matar in de filer som missades när min kö var felkonfigurerad?
Kontrollera först att den angivna köfelkonfigurationen har åtgärdats. För att testa, klicka på knappen Testa anslutningen på sidan för extern plats. Om filhändelser har konfigurerats korrekt visas en grön bockmarkering för filhändelsernas läsobjekt .
Databricks utför en fullständig kataloglista för externa platser med filhändelser aktiverade. Den här kataloglistan identifierar alla filer som missades under felkonfigurationsperioden och lagrar dem i cacheminnet för filhändelser.
När felkonfigurationen har åtgärdats och Databricks har slutfört kataloglistan fortsätter Auto Loader att läsa från cacheminnet för filhändelser och automatiskt mata in filer som missats under felkonfigurationsperioden.
Hur får Databricks behörighet att skapa molnresurser och läsa och ta bort meddelanden från kön?
Databricks använder de behörigheter som beviljats i lagringsautentiseringsuppgifterna som är associerade med den externa plats där filhändelser är aktiverade.