1. End-to-End์ ๊ฐ๋ ์ดํด
1.1. ์ ์
-
End-to-End(์ดํ โE2Eโ๋ผ ํ๋ค) ๋ ์ธ๊ณต์ง๋ฅ(AI) ๋ฐ ๋จธ์ ๋ฌ๋(ML)์์, ์ฌ๋์ด ์ค๊ฐ ๋จ๊ณ๋ฅผ ์ง์ ์ค๊ณํ์ง ์๊ณ (ํ์ดํ๋ผ์ธ ๋คํธ์ํฌ ์์ด1), ๋ฐ์ดํฐ์ ์ ๋ ฅ๋ถํฐ ์ถ๋ ฅ๊น์ง ํ๋์ ์ ๊ฒฝ๋ง์ผ๋ก ํ์ต ๋ฐ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์๋ฏธํ๋ค.
-
์๋ฅผ ๋ค์ด, โ์ด๋ฏธ์ง โ ํ ์คํธโ๋ก ๋ฐ๋ก ์ฐ๊ฒฐ๋๋ ๋ชจ๋ธ์ ์ค๊ฐ์ ์์ญ ๊ฒ์ถ(Detection), ํ์ฒ๋ฆฌ(Postprocessing) ๋ฑ์ ๋จ๊ณ๋ฅผ ๋ณ๋ ๋ชจ๋๋ก ๋์ง ์๊ณ , ํ ๋ฒ์ ํ์ต๊ณผ์ ์์ ๋ชจ๋ ๊ด๊ณ๋ฅผ ํ์ตํ๋ค.
-
์ด๋ ์ ํต์ ๋ฐฉ์์ Pipleline ๋ชจ๋ธ๊ณผ ๊ตฌ๋ถ๋๋ค.
์์: OCR & ๋ฒ์ญ ์์คํ
- ๊ธฐ์กด: Preprocessing โ ํ ์คํธ ํ์ง โ ํ ์คํธ ์ธ์ ๋ฐ ์ถ์ถ โ ๋ฒ์ญ โ ๊ฒฐ๊ณผ
- End-to-End: ์ด๋ฏธ์ง โ ๋ฐ๋ก ๋ฒ์ญ ๊ฒฐ๊ณผ ์ถ๋ ฅ
1.2. ์ฅ์
- ์ค๋ฅ ๋์ (Error Propagation) ์ต์ํ
- ํ์ต ํ์ดํ๋ผ์ธ ๋จ์ํ
- GPU ๊ฐ์ ๋ฐ ๋ณ๋ ฌ ํ์ต์ ์ ๋ฆฌ
์ค๋ฅ ๋์ (error propagation) ํ์
๐ ์์์ ์๋ก ๋ ๊ธฐ์กด์ OCR ๋ฐ ๋ฒ์ญ ๋ชจ๋ธ๋ค์ ๋๋ถ๋ถ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ก ๋์ด ์๋ค.
Text Detection โ Text Recognition โ Translation์ฆ,
- ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ๋ฌธ์์์ ํ ์คํธ ์์ญ์ ํ์งํ๊ณ (Text Detection)
- ํ ์คํธ๋ฅผ ์์ธกํ๊ณ (Text Recognition)
- OCR๋ก ์ธ์๋ ํ ์คํธ๋ฅผ ๋ฒ์ญ (Translation)ํ๋ ๊ตฌ์กฐ๋ค.
์ด๋ฌํ ๊ธฐ์กด ๋ชจ๋ธ์ ๋จ์ ์ ๋จ๊ณ๊ฐ ๋ง์์ ๊ฐ ๋จ๊ณ์ ์ค๋ฅ๊ฐ ๋ค์ ๋จ๊ณ๋ก ์ ํ๋๋๋ฐ ์ด๋ฅผ ์ค๋ฅ ๋์ ํ์์ด๋ผ๊ณ ํ๋ค. ๊ธฐ์กด ๋ชจ๋ธ์ OCR ๋จ๊ณ์์ ๋ค์๊ณผ ๊ฐ์ ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค๊ณ ๊ฐ์ ํด๋ณด์.
๋จ๊ณ ์์ ์ค๋ช ์๋ฌธ ์ด๋ฏธ์ง โ๊ณ ์์ด๋ ๊ท์ฌ์!โ ํ๊ตญ์ด ๋ฌธ์ ์ด๋ฏธ์ง OCR ๊ฒฐ๊ณผ โ๊ณ ์์ด๋ ๊ท์ฌ์!โ OCR์ด โ์โ์ โ์โ์ผ๋ก ์๋ชป ์ธ์ ๋ฒ์ญ ๊ฒฐ๊ณผ โGoang is cute!โ ๋ฒ์ญ ๋จ๊ณ์์๋ ์ค๋ฅ๊ฐ ์ ํ๋จ OCR์ ์์ ์คํ ํ๋๊ฐ ๋ค์ ๋จ๊ณ์ธ ๋ฒ์ญ ๋จ๊ณ์์๋ ์๋ชป๋ ๋จ์ด๋ฅผ ๋ฒ์ญํ๊ฒ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ์ค๋ฅ ๋์ ์ด๋ค. ์ด๋ฌํ ์ค๋ฅ ๋์ ํ์์ ์ต์ํํ๊ธฐ ์ํด ๋ชจ๋ ๊ณผ์ ์ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ End-to-End ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋์๋ค. (End-to-End๋ผ๋ ํํ ์์ฒด๊ฐ โ์ค๊ฐ ๋จ๊ณ๋ฅผ ๋ค๋ฃจ์ง ์๋๋คโ๋ ์๋ฏธ๋ค.)
E2E ๋ฐฉ์์ ์ ์ค๋ฅ๊ฐ ์ค์ด๋๋๊ฐ?
E2E ๋ชจ๋ธ์ ์์ OCR ๋จ๊ณ ์์ฒด๊ฐ ์๋ค. ์ฆ, ์๋์ ๊ฐ์ด ์๋ํ๋ค. ๐
์ด๋ฏธ์ง โ [Vision-Language Transformer] โ ๋ฒ์ญ ํ ์คํธ๋ค์ ๋งํด โ์ด๋ฏธ์ง ์์ ๋จ์ดโ๋ฅผ ์ธ์ํด์ ๋ฌธ์๋ก ๋ณํํ๋ ๊ฒ์ด ์๋๋ผ ์ด๋ฏธ์ง ์ ์๊ฐ์ ํจํด(๋ฌธ์, ๋จ์ด, ๋ฌธ๋งฅ)์ ๋ณด๊ณ ์๋ฏธ๋ฅผ ์ถ๋ก ํด์ ๋ฒ์ญํ๋ ๊ฒ์ด๋ค.
๊ตฌ๋ถ ๊ธฐ์กด ํ์ดํ๋ผ์ธ ๋ชจ๋ธ E2E ๋ชจ๋ธ ์ฒ๋ฆฌ ๋จ๊ณ OCR โ ๋ฒ์ญ ํตํฉ ๋ชจ๋ธ๋ก ํ๋๋ก ์ฒ๋ฆฌ ์ค๊ฐ ์ ๋ณด ํ ์คํธ(๋ฌธ์์ด) ์ด๋ฏธ์ง ํผ์ฒ(์๋ฏธ ๋จ์) ์ค๋ฅ ๋ฐ์ ์์น OCR ์คํ, ์ค๋ฐ๊ฟ ์ค๋ฅ ๋ฑ ํตํฉ ํ์ต ๋ด ๋ณด์ ๊ฐ๋ฅ ๋ฒ์ญ ์ปจํ ์คํธ โ๋ฌธ์ ๋จ์โ๋ก ๋ฒ์ญ โ๋ฌธ๋งฅ ๋จ์โ๋ก ๋ฒ์ญ ๊ฒฐ๊ณผ ๊ณ ์์ด โ Goang(์ค๋ฅ ์ ํ) ์ด๋ฏธ์ง ์ ์ฒด ๋ฌธ๋งฅ์ ๋ณด๊ณ โcatโ์ผ๋ก ๋ฒ์ญ ๋ฐ๋ผ์ ๊ธฐ์กด ํ์ดํ๋ผ์ธ ๋ชจ๋ธ์ฒ๋ผ OCR ๊ณผ์ ์ ์ฒ ์ ํ๋๊ฐ ํ๋ฆฌ๊ฒ ๋๋ฉด ์ ์ฒด๊ฐ ์ค์ผ๋๋ ๊ตฌ์กฐ๊ฐ ์๋, ์๊ฐ์ ยท์๋ฏธ์ ๋ฌธ๋งฅ ๊ธฐ๋ฐ์ผ๋ก ์คํ๋ฅผ ์๋ ๋ณด์ ํ๊ฑฐ๋ ๋ฌด์ํ ์ ์๋ ๊ตฌ์กฐ์ด๊ธฐ์ ์ค๋ฅ๊ฐ ์๋์ ์ผ๋ก ์ ๋ค
1.3. ๋จ์
- ํ์ต ๋ฐ์ดํฐ ์๊ตฌ๋์ด ๋งค์ฐ ํผ
- ์ค๊ฐ ๊ณผ์ ์ด โ๋ธ๋๋ฐ์คโํ๋จ (๋๋ฒ๊น ์ด๋ ค์)
- ํ์ดํ๋ผ์ธ ๋ชจ๋ธ์ ์ธ๋ถ ๋ชจ๋๋ณ ํ์ธํ๋์ด ๊ฐ๋ฅํ์ง๋ง, E2E ๋ชจ๋ธ์ ํญ์ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ฌํ์ตํ๋ ๋ฐฉ์์ผ๋ก๋ง ๋ชจ๋ธ์ ๊ฐ์ ํ ์ ์์.
E2E ๋ชจ๋ธ์ ์ฃผ์ ์ฐ๊ตฌ ํ๋ฆ
E2E Speech Recognition (E2E ์์ฑ ์ธ์)
- ๋ํ ๋ชจ๋ธ: Deep Speech, LAS(Listen, Attend and Spell), Transformer Transducer
- ํต์ฌ ์์ด๋์ด: ๊ธฐ์กด์ โ์ํฅ ๋ชจ๋ธ โ ๋ฐ์ ๋ชจ๋ธ โ ์ธ์ด ๋ชจ๋ธโ์ด ๋ฐ๋ก ์์์ง๋ง, E2E ๋ชจ๋ธ์ ์์ฑํํ ์ ๋ ฅ โ ํ ์คํธ ์ถ๋ ฅ ์ ์ฒด๋ฅผ ํ๋๋ก ํ์ต
E2E Neural Machine Translation (E2E NMT)
- ๋ํ ๋ชจ๋ธ: Sequence-to-Sequence, Transformer
- ํต์ฌ ์์ด๋์ด: ๋ฌธ์ฅ ๋จ์ ๋ฒ์ญ์ ์ํ ๋ณต์กํ ๊ท์น ๊ธฐ๋ฐ / phrase ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ ์ ๊ฑฐํ๊ณ , ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ ํ๋๋ก โ์๋ฌธ โ ๋ฒ์ญ๋ฌธโ ์ง์ ๋งตํ
E2E Object Detection / OCR
- ๋ํ ๋ชจ๋ธ: YOLO, CenterNet, CRAFT, Donut
- ํต์ฌ ์์ด๋์ด: ๊ธฐ์กด์ โ๊ฒ์ถ โ ํ๋ณด ์์ญ ์์ฑ โ ๋ถ๋ฅโ ๋จ๊ณ๋ฅผ ํ๋์ CNN์ผ๋ก ํตํฉ. OCR์์๋ โํ์ง โ ์ธ์โ ๊ณผ์ ์ ๋จ์ผ ๋คํธ์ํฌ๋ก ์ฐ๊ฒฐ
E2E Document Understanding / Table Recognition (๋ฌธ์ ์ดํด)
- ๋ํ ๋ชจ๋ธ: Donut, Pix2Struct, FormNet, TILT, Dolphin
- ํต์ฌ ์์ด๋์ด: ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ์ธ์ฝ๋๊ฐ ์ดํดํ๊ณ , ๊ตฌ์กฐํ๋ ํ ์คํธ(HTML, Markdown, JSON ๋ฑ)๋ก ๋ฐ๋ก ๋์ฝ๋ฉ ์ฆ, โOCR โ ๋ ์ด์์ โ ๊ตฌ์กฐ ํด์โ ๋จ๊ณ๋ฅผ ํตํฉ.
E2E Vision-Language Models (E2E VLM)
- ๋ํ ๋ชจ๋ธ: BLIP, Falmingo, PaLI, LLaVA, GPT-4V, Kosmos-2, Qwen-VL
- ํต์ฌ ์์ด๋์ด: ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์ผํ ํํ ๊ณต๊ฐ(embedding space)์์ ๋ค๋ฃจ๋ ํตํฉ ๋ชจ๋ธ ํ๋์ ํ๋กฌํํธ ์ ๋ ฅ์ผ๋ก ์ด๋ฏธ์ง ๋ถ์, OCR, ์ค๋ช , ์ง์์๋ต์ ์ ๋ถ ์ํ
ํ๊ตญ์ด ์ง์ ๋ฐ ํ ๊ตฌ์กฐ ์ธ์ E2E ๋ชจ๋ธ
์ผ๋ถ ์ต์ ์ฐ๊ตฌ์์๋ ํ๊ตญ์ด ํ์ ๋ํด ํ๊ฐํ ๊ฒฝ์ฐ๊ฐ ์กด์ฌํ๋ค. ์์ปจ๋ TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism ๋ ผ๋ฌธ์์๋ ํ๊ตญ์ด ํ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ํ๊ฐํ๊ณ , ์์ด ๊ธฐ๋ฐ ํ์ต๋ง์ผ๋ก๋ ๊ฝค ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, TableMaster์ GPT-4V ๋ชจ๋ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค๊ณ ํ๋ค.2 ํ์ง๋ง Attribution-NonCommercial 4.0 International ๋ผ์ด์ ์ค๋ก ์์ ์ ์ด์ฉ์ด ๋ถ๊ฐ๋ฅํ ๋ชจ๋ธ์ด๋ค.
์๊ฐ์ ๋ญ๋นํด๋ฒ๋ ธ๋ค.
Footnotes
-
ํ์ดํ๋ผ์ธ ๋คํธ์ํฌ๋ ์ ์ฒด ๋คํธ์ํฌ๋ฅผ ์ด๋ฃจ๋ ๋ถ๋ถ์ ์ธ ๋คํธ์ํฌ๋ค. โฉ
-
Minsoo Khang, Teakgyu Hong, ใTFLOP: Table Structure Recognition Framework with Layout Pointer Mechanismใ, ใProceedings of the Thirty-Third International Joint Conference on Artificial Intelligenceใ, 2024, p.953 โฉ
