OCR – optisk teckenigenkänning

2025-07-21

Varning

Vi rekommenderar inte att du använder den här tjänsten, inklusive äldre OCR API för Azure AI Vision i v3.2 och RecognizeText API i v2.1.

OCR-utgåvor (läsversioner)

Viktigt!

Välj den Läs-utgåva som passar dina behov bäst.

Indata	Exempel	Läs utgåva	Förmån
Bilder: Allmänna, vilda bilder	etiketter, gatuskyltar och affischer	OCR för avbildningar (version 4.0)	Optimerad för allmänna bilder som inte är dokument med ett prestandaförbättrat synkront API som gör det enklare att bädda in OCR i dina användarupplevelsescenarier.
Dokument: Digital och skannad, inklusive bilder	böcker, artiklar och rapporter	Dokumentintelligens tolkningsmodell	Optimerad för textintensiva genomsökta och digitala dokument med ett asynkront API för att automatisera intelligent dokumentbearbetning i stor skala.

Om Azure AI Vision v3.2 GA Läs

Letar du efter den senaste ga-läsningen i Azure AI Vision v3.2? Alla framtida förbättringar av läs-OCR är en del av de två tjänster som listades tidigare. Det finns inga ytterligare uppdateringar av Azure AI Vision v3.2. Mer information finns i Anropa Azure AI Vision 3.2 GA Read API och Snabbstart: Azure AI Vision v3.2 GA Read.

OCR eller optisk teckenigenkänning kallas även för textigenkänning eller textextrahering. Med maskininlärningsbaserade OCR-tekniker kan du extrahera tryckt eller handskriven text från bilder som affischer, gatuskyltar och produktetiketter, samt från dokument som artiklar, rapporter, formulär och fakturor. Texten extraheras vanligtvis som ord, textrader och stycken eller textblock, vilket ger åtkomst till digital version av den skannade texten. Den här funktionen eliminerar eller minskar avsevärt behovet av manuell datainmatning.

OCR-motor

Microsofts Read OCR-motor använder flera avancerade maskininlärningsmodeller som stöder globala språk. Den extraherar tryckt och handskriven text, inklusive blandade språk och skrivstilar. Du kan använda Läsa som en molntjänst eller som en lokal container för flexibel distribution. Det är också tillgängligt som ett synkront API för enskilda scenarier som inte är dokumentbaserade och endast avbildningar med prestandaförbättringar som förenklar implementeringen av OCR-assisterad användarupplevelse.

Intelligent dokumentbearbetning (IDP) använder OCR som grundteknik för att extrahera struktur, relationer, nyckelvärden, entiteter och andra dokumentcentrerade insikter med en avancerad maskininlärningsbaserad AI-tjänst som Document Intelligence. Dokumentintelligens innehåller en dokumentoptimerad version av Read som sin OCR-motor samtidigt som den delegerar till andra modeller för avancerade insikter. Om du extraherar text från skannade och digitala dokument använder du Document Intelligence Read OCR.

Så här använder du OCR

Prova OCR med hjälp av Vision Studio. Följ sedan en av länkarna till Read-utgåvan som bäst uppfyller dina krav.

Prova Vision Studio

Skärmbild: Läs OCR-demo i Vision Studio.

OCR-språk som stöds

Båda läsversionerna som är tillgängliga i Azure AI Vision har stöd för flera språk för tryckt och handskriven text. OCR för tryckt text stöder engelska, franska, tyska, italienska, portugisiska, spanska, kinesiska, japanska, koreanska, ryska, arabiska, hindi och andra internationella språk som använder latinska, kyrilliska, arabiska och Devanagari-skript. OCR för handskriven text stöder engelska, förenklad kinesiska, franska, tyska, italienska, japanska, koreanska, portugisiska och spanska.

Se den fullständiga listan över OCR-språk som stöds.

Vanliga OCR-funktioner

Read OCR-modellen är tillgänglig i Azure AI Vision och Document Intelligence med vanliga baslinjefunktioner samtidigt som du optimerar för respektive scenarier. I följande lista sammanfattas de vanliga funktionerna:

Extrahering av tryckt och handskriven text på språk som stöds
Sidor, textrader och ord med plats- och konfidenspoäng
Stöd för blandade språk, blandat läge (utskrift och handskriven)
Tillgänglig som distrolös Docker-container för lokal distribution

Använda OCR-moln-API:er eller distribuera lokalt

De flesta kunder föredrar moln-API:er eftersom de är enkla att integrera och erbjuda snabb produktivitet direkt. Azure och Azure AI Vision-tjänsten hanterar skalnings-, prestanda-, datasäkerhets- och efterlevnadsbehov samtidigt som du fokuserar på att uppfylla kundernas behov.

För lokal distribution gör Read Docker-containern att du kan distribuera azure AI Vision v3.2 allmänt tillgängliga OCR-funktioner i din egen lokala miljö. Containrar är bra för specifika säkerhets- och datastyrningskrav.

Indatakrav

Läs-API:et tar bilder och dokument som indata. Bilderna och dokumenten måste uppfylla följande krav:

Filformat som stöds är JPEG, PNG, BMP, PDF och TIFF.
För PDF- och TIFF-filer bearbetas upp till 2 000 sidor (endast de två första sidorna för den kostnadsfria nivån).
Filstorleken för bilder måste vara mindre än 500 MB (4 MB för den kostnadsfria nivån) med dimensioner på minst 50 x 50 bildpunkter och högst 10 000 x 10 000 bildpunkter. PDF-filer har ingen storleksgräns.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768, vilket motsvarar ungefär 8-punkts teckensnittstext vid 150 DPI.

Kommentar

Du behöver inte beskära en bild för textrader. Skicka hela avbildningen till Läs-API:et och den känner igen alla texter.

OCR-datasekretess och säkerhet

Precis som med alla Azure AI-tjänster bör utvecklare som använder Azure AI Vision-tjänsten vara medvetna om Microsofts principer för kunddata. Mer information finns på sidan Azure AI-tjänster i Microsoft Trust Center.

Nästa steg

För OCR med allmänna (icke-dokument)-bilder kan du prova azure AI Vision 4.0 förhandsversion av REST API-snabbstarten för bildanalys.
För OCR med PDF-, Office- och HTML-dokument samt dokumentbilder börjar du med Dokumentinformationsläsning.
För den tidigare GA-versionen, se snabbstarterna för Azure AI Vision 3.2 GA SDK eller REST API.

Feedback

Var den här sidan till hjälp?