Dokumentumok feldolgozása és intelligens keresése a generatív AI segítségével
A 2024. június 20-án az AWS-sel közösen szervezett, Generatív AI megoldások az üzleti világ kihívásaira című rendezvényünkön az egyik előadást Cloud Engineer kollégánk, Tassy János tartotta. Íme egy összefoglaló a nagy érdeklődéssel és sok kérdéssel kísért háromnegyedóráról, a cikk végén pedig az előadás felvétele is megtekinthető.
Papírunk van a papírdokumentumok problémájáról
János előadásának első részében azokról az okokról beszélt, amelyek a dokumentumdigitalizálást szükségessé tették. A papíralapú dokumentációkezelés ugyanis nagy teret kíván, extra munkaidőt vesz el, miközben egy seregnyi fizikai problémát vet fel (például a nehéz kereshetőséget, a tűzveszélyességet, a vízkár veszélyét, a fizikai romlást, és nem utolsósorban a biztonsági aggályokat).
A probléma egyáltalán nem marginális: a Whale szoftverfejlesztő cég LinkedInen publikált, 2024. áprilisi riportja szerint a papíralapú dokumentációt használó kis- és középvállalatok aránya még mindig 45%! Van tehát még bőven tennivaló ezen a területen. A kérdés csak az: vajon az AI mennyit tud ebben segíteni? János előadásának folytatásából kiderült: nagyon is sokat.
Digitalizáljunk AI segítségével!
Amikor a papírlapú dokumentációk digitalizációjáról és a későbbi kezelésükről beszélünk, az AI alkalmazása nyilvánvaló előnyökkel rendelkezik. Idesorolhatjuk az időmegtakarítást, a hatékonyság növelését, a nagyobb pontosságot, a megbízhatóságot, a skálázhatóságot és rugalmasságot, valamint a fejlett elemzési képességek használatát.
A hagyományos dokumentumkezelés kihívásait is figyelembe véve Tassy János kollégánk többek közt a metaadatok bányászatának vagy a RAG pipeline kiépítésének szükségességéről is beszélt. Ezután következett a gyakorlati bemutató.
PDF-ből kereshető szövegegység
Az optikai karakterfelismerés problematikájában elsősorban az Amazon Textract segít: ez a vállalat gépi tanulást használó, nyomtatott szövegből vagy kézírásból, akár strukturálatlan elrendezésű dokumentumokból – esetünkben a neten fellelhető PDF-ekből – is szöveget előállító terméke. A Textract olyan folyamatokat tesz lehetővé, mint a kézírás felismerése, formák és táblázatok kinyerése, layoutelemek és aláírás felismerése, illetve a kérdés alapú adatkivonás.
Amikor sokféle irattal rendelkezünk, akkor a sok széttartó forma egységesítésében az Amazon Bedrockhoz nyúlhatunk. Itt a promptolás segítségével úgynevezett Agent-eket hozhatunk létre, amelyek nagyobb, egymástól eltérő struktúrájú PDF-irathalmokat hozhatnak egységesen kezelhető formába. Ezzel lehetővé válik a teljesen menedzselt RAG workflow, az adatbázisokhoz történő biztos csatlakozás és a releváns adatok lekérése is.
Egy újabb Amazon-termék, az S3 pedig a dokumentumarchiválás hatékony eszköze, amely olyan dolgokat tesz lehetővé, amelyről a papíralapú működésnél nem is álmodhattak a felhasználók (például külön hozzáférés-szabályok kezelése vagy verziószámok követése).
Egy kiválasztott példán keresztül János le is demózta az elméletet, és végén megtudtuk azt is, milyen költségekkel tervezhetünk egy hasonló folyamat indításakor.
Apropó, demó: a munkatársunk esettanulmányában szereplő alkalmazás hamarosan élőben is elérhető lesz ügyfeleink számára a saját AWS-fiókjukban, az AWS Marketplace-n.
Itt nézhető meg Tassy János előadása: