🔍 OCR i rozpoznawanie

AWS Textract

✦ PolecanyPay-per-use (od ok. $1.50/1000 stron OCR, ~6 PLN)

AWS Textract to usługa OCR od Amazon Web Services do automatycznego odczytu tekstu, tabel i formularzy z dokumentów i skanów.

Odwiedź aws.amazon.com →

O narzędziu

AWS Textract to zarządzana usługa OCR i analizy dokumentów od Amazon Web Services, zaprojektowana do automatycznego odczytu tekstu, tabel oraz klucz–wartość z plików PDF i obrazów. W odróżnieniu od prostego OCR, Textract rozpoznaje strukturę dokumentu, pola formularzy, tabele i relacje między danymi, co ułatwia ich dalsze przetwarzanie w systemach biznesowych. Usługa integruje się natywnie z innymi komponentami AWS (S3, Lambda, Comprehend, Step Functions), umożliwiając budowę kompletnych pipeline’ów przetwarzania dokumentów w chmurze. AWS Textract jest skierowany do zespołów IT, działów księgowości, ubezpieczeń, sektora publicznego i firm budujących własne rozwiązania do przetwarzania dokumentów na AWS. Polski nie jest oficjalnie wymieniany jako w pełni wspierany język dla ekstrakcji semantycznej formularzy, choć podstawowy OCR tekstu drukowanego może działać częściowo także dla polskich dokumentów.

Do czego się przydaje

Automatyczne odczytywanie faktur, rachunków i paragonów oraz zapisywanie pozycji i kwot do systemów finansowo‑księgowych.
Digitalizacja teczek kredytowych i dokumentów ubezpieczeniowych, z wyłuskiwaniem pól typu imię, nazwisko, PESEL, adres, numer polisy.
Masowa archiwizacja i indeksowanie zeskanowanych umów, aneksów i pism urzędowych przechowywanych w Amazon S3.
Ekstrakcja tabel z raportów PDF (np. zestawienia sprzedaży, raporty laboratoryjne) i konwersja do CSV lub baz danych.
Automatyczny odczyt formularzy papierowych (wnioski, ankiety, zgody) i przenoszenie odpowiedzi do systemów CRM/ERP.
Budowa workflow RPA: Textract + AWS Lambda do bezobsługowego przetwarzania dokumentów przychodzących e‑mailem lub wrzucanych do określonego bucketu S3.
Wzbogacanie treści dokumentów poprzez połączenie wyników Textract z Amazon Comprehend do klasyfikacji, rozpoznawania encji i analizy treści.
Weryfikacja kompletności i poprawności dokumentów w procesach onboardingu klientów poprzez automatyczne sprawdzanie obecności wymaganych pól.

Funkcje i możliwości

Text Detection to podstawowa powierzchnia AWS Textract służąca do klasycznego OCR obrazów i dokumentów. Umożliwia rozpoznawanie pojedynczych linii i bloków tekstu bez interpretacji struktury formularzy czy tabel, co sprawdza się przy prostych dokumentach i skanach. Funkcja działa w trybach synchronizowanych i asynchronicznych dla plików przechowywanych w Amazon S3. Jest dostępna globalnie w wielu regionach AWS i stanowi najtańszą opcję użycia Textract przy dużej liczbie stron.

Modele AI

AWS Textract OCR engine (model detekcji tekstu drukowanego i layoutu dokumentu, rozwijany w ramach usług AI AWS)AWS Textract Forms & Tables engine (model wykrywania tabel oraz par klucz–wartość w dokumentach biznesowych)AWS Textract Expense engine (specjalistyczny model do faktur, paragonów i dokumentów kosztowych)AWS Textract ID engine (model ukierunkowany na dokumenty tożsamości i wybrane szablony ID)

Zalety

Gęsta integracja z ekosystemem AWS (S3, Lambda, Step Functions, Comprehend, A2I), co pozwala budować kompletne pipeline’y dokumentowe bez zewnętrznej infrastruktury.
Rozliczanie per strona dokumentu zamiast per token, co ułatwia planowanie kosztów przy dużych, jednorodnych wolumenach (np. 100 000 stron miesięcznie).
Specjalizowane funkcje AnalyzeExpense i AnalyzeID, które redukują potrzebę pisania własnych parserów dla faktur i dokumentów tożsamości.
Tryby synchroniczne i asynchroniczne, umożliwiające zarówno przetwarzanie w czasie zbliżonym do rzeczywistego, jak i masowe batchowanie dokumentów.
Możliwość włączenia ręcznej weryfikacji wyników przez Amazon A2I, co jest istotne w sektorach regulowanych, takich jak bankowość czy ubezpieczenia.
Wysoka skalowalność i dostępność w wielu regionach AWS, co pozwala obsługiwać setki tysięcy stron dziennie bez planowania własnej mocy obliczeniowej.

Cennik

Text Detection (Detect Document Text / OCR): od ok. $1.50 za 1000 stron (~6 PLN/1000 stron) w regionach standardowych, naliczanie per strona w trybach synchronicznym i asynchronicznym.
AnalyzeDocument (formularze i tabele): od ok. $15 za 1000 stron (~60 PLN/1000 stron), wyższa stawka ze względu na ekstrakcję struktur klucz–wartość i tabel.
AnalyzeExpense (faktury i paragony): od ok. $50 za 1000 stron (~200 PLN/1000 stron), model specjalistyczny do dokumentów kosztowych z rozbiciem pozycji i podatków.
AnalyzeID (dokumenty tożsamości): od ok. $35 za 1000 stron (~140 PLN/1000 stron), cena zależna od regionu i typu dokumentu ID.
Darmowy poziom Free Tierdo 1000 stron miesięcznie przez pierwsze 3 miesiące od założenia konta AWS dla wybranych funkcji Textract, po przekroczeniu progu obowiązuje standardowy cennik.
Ceny różnią się między regionami AWS, a rozliczanie odbywa się miesięcznie na podstawie liczby przetworzonych stron; minimalne opłaty nie są wymagane.

API i integracje

AWS Textract udostępnia REST API oraz pełne wsparcie w oficjalnych SDK AWS (m.in. Python/boto3, Java, JavaScript/TypeScript,.NET, Go). Główne endpointy to StartDocumentTextDetection, StartDocumentAnalysis, AnalyzeDocument, AnalyzeExpense i AnalyzeID, z odpowiednimi metodami do pobierania wyników w trybie asynchronicznym. Textract jest dostępny wyłącznie w chmurze AWS, bez lokalnego wariantu on‑premises, ale można go wywoływać z innych środowisk przez Internet lub prywatne łącza. Rozliczanie odbywa się per strona dokumentu zgodnie z cennikiem Textract, bez modelu per token znanego z klasycznych LLM. Integracja z Amazon S3, Lambda, Step Functions oraz Amazon A2I umożliwia budowanie zautomatyzowanych pipeline’ów dokumentowych sterowanych zdarzeniami. Brak odrębnego Batch API – przetwarzanie wsadowe realizuje się poprzez asynchroniczne zadania na plikach w S3.

Szczegóły

Kategoria: OCR i rozpoznawanie
Cennik: Pay-per-use (od ok. $1.50/1000 stron OCR, ~6 PLN)
Język polski: Tylko angielski
Strona: aws.amazon.com →

Tagi

OCRAWSPrzetwarzanie dokumentówChmuraAnalyzeExpense

Podobne narzędzia

Zobacz też

Google Document AI

Google Document AI to usługa OCR i przetwarzania dokumentów w Google Cloud z gotowymi parserami dla faktur, paragonów i formularzy.