1. End-to-End์˜ ๊ฐœ๋… ์ดํ•ด

1.1. ์ •์˜

  • End-to-End(์ดํ•˜ โ€˜E2Eโ€™๋ผ ํ•œ๋‹ค) ๋ž€ ์ธ๊ณต์ง€๋Šฅ(AI) ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹(ML)์—์„œ, ์‚ฌ๋žŒ์ด ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ฅผ ์ง์ ‘ ์„ค๊ณ„ํ•˜์ง€ ์•Š๊ณ (ํŒŒ์ดํ”„๋ผ์ธ ๋„คํŠธ์›Œํฌ ์—†์ด1), ๋ฐ์ดํ„ฐ์˜ ์ž…๋ ฅ๋ถ€ํ„ฐ ์ถœ๋ ฅ๊นŒ์ง€ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ํ•™์Šต ๋ฐ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์„ ์˜๋ฏธํ•œ๋‹ค.

  • ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ด๋ฏธ์ง€ โ†’ ํ…์ŠคํŠธโ€๋กœ ๋ฐ”๋กœ ์—ฐ๊ฒฐ๋˜๋Š” ๋ชจ๋ธ์€ ์ค‘๊ฐ„์˜ ์˜์—ญ ๊ฒ€์ถœ(Detection), ํ›„์ฒ˜๋ฆฌ(Postprocessing) ๋“ฑ์˜ ๋‹จ๊ณ„๋ฅผ ๋ณ„๋„ ๋ชจ๋“ˆ๋กœ ๋‘์ง€ ์•Š๊ณ , ํ•œ ๋ฒˆ์˜ ํ•™์Šต๊ณผ์ •์—์„œ ๋ชจ๋“  ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•œ๋‹ค.

  • ์ด๋Š” ์ „ํ†ต์  ๋ฐฉ์‹์˜ Pipleline ๋ชจ๋ธ๊ณผ ๊ตฌ๋ถ„๋œ๋‹ค.

์˜ˆ์‹œ: OCR & ๋ฒˆ์—ญ ์‹œ์Šคํ…œ

|600

  • ๊ธฐ์กด: Preprocessing โ†’ ํ…์ŠคํŠธ ํƒ์ง€ โ†’ ํ…์ŠคํŠธ ์ธ์‹ ๋ฐ ์ถ”์ถœ โ†’ ๋ฒˆ์—ญ โ†’ ๊ฒฐ๊ณผ
  • End-to-End: ์ด๋ฏธ์ง€ โ†’ ๋ฐ”๋กœ ๋ฒˆ์—ญ ๊ฒฐ๊ณผ ์ถœ๋ ฅ

1.2. ์žฅ์ 

  • ์˜ค๋ฅ˜ ๋ˆ„์ (Error Propagation) ์ตœ์†Œํ™”
  • ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ๋‹จ์ˆœํ™”
  • GPU ๊ฐ€์† ๋ฐ ๋ณ‘๋ ฌ ํ•™์Šต์— ์œ ๋ฆฌ

์˜ค๋ฅ˜ ๋ˆ„์ (error propagation) ํ˜„์ƒ


๐Ÿ‘† ์œ„์—์„œ ์˜ˆ๋กœ ๋“  ๊ธฐ์กด์˜ OCR ๋ฐ ๋ฒˆ์—ญ ๋ชจ๋ธ๋“ค์€ ๋Œ€๋ถ€๋ถ„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋กœ ๋˜์–ด ์žˆ๋‹ค.

Text Detection โ†’ Text Recognition โ†’ Translation

์ฆ‰,

  • ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜์˜ ๋ฌธ์„œ์—์„œ ํ…์ŠคํŠธ ์˜์—ญ์„ ํƒ์ง€ํ•˜๊ณ  (Text Detection)
  • ํ…์ŠคํŠธ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  (Text Recognition)
  • OCR๋กœ ์ธ์‹๋œ ํ…์ŠคํŠธ๋ฅผ ๋ฒˆ์—ญ (Translation)ํ•˜๋Š” ๊ตฌ์กฐ๋‹ค.

์ด๋Ÿฌํ•œ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๋‹จ์ ์€ ๋‹จ๊ณ„๊ฐ€ ๋งŽ์•„์„œ ๊ฐ ๋‹จ๊ณ„์˜ ์˜ค๋ฅ˜๊ฐ€ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์ „ํŒŒ๋˜๋Š”๋ฐ ์ด๋ฅผ ์˜ค๋ฅ˜ ๋ˆ„์  ํ˜„์ƒ์ด๋ผ๊ณ  ํ•œ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ์˜ OCR ๋‹จ๊ณ„์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ–ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

๋‹จ๊ณ„์˜ˆ์‹œ์„ค๋ช…
์›๋ฌธ ์ด๋ฏธ์ง€โ€๊ณ ์–‘์ด๋Š” ๊ท€์—ฌ์›Œ!โ€ํ•œ๊ตญ์–ด ๋ฌธ์„œ ์ด๋ฏธ์ง€
OCR ๊ฒฐ๊ณผโ€๊ณ ์•™์ด๋Š” ๊ท€์—ฌ์›Œ!โ€OCR์ด โ€˜์–‘โ€™์„ โ€˜์•™โ€™์œผ๋กœ ์ž˜๋ชป ์ธ์‹
๋ฒˆ์—ญ ๊ฒฐ๊ณผโ€Goang is cute!โ€๋ฒˆ์—ญ ๋‹จ๊ณ„์—์„œ๋„ ์˜ค๋ฅ˜๊ฐ€ ์ „ํŒŒ๋จ

OCR์˜ ์ž‘์€ ์˜คํƒ€ ํ•˜๋‚˜๊ฐ€ ๋‹ค์Œ ๋‹จ๊ณ„์ธ ๋ฒˆ์—ญ ๋‹จ๊ณ„์—์„œ๋„ ์ž˜๋ชป๋œ ๋‹จ์–ด๋ฅผ ๋ฒˆ์—ญํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•œ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ์˜ค๋ฅ˜ ๋ˆ„์ ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์˜ค๋ฅ˜ ๋ˆ„์  ํ˜„์ƒ์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ๊ณผ์ •์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์˜ End-to-End ๋ชจ๋ธ์ด ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค. (End-to-End๋ผ๋Š” ํ‘œํ˜„ ์ž์ฒด๊ฐ€ โ€œ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ฅผ ๋‹ค๋ฃจ์ง€ ์•Š๋Š”๋‹คโ€๋Š” ์˜๋ฏธ๋‹ค.)

E2E ๋ฐฉ์‹์€ ์™œ ์˜ค๋ฅ˜๊ฐ€ ์ค„์–ด๋“œ๋Š”๊ฐ€?

E2E ๋ชจ๋ธ์€ ์•„์˜ˆ OCR ๋‹จ๊ณ„ ์ž์ฒด๊ฐ€ ์—†๋‹ค. ์ฆ‰, ์•„๋ž˜์™€ ๊ฐ™์ด ์ž‘๋™ํ•œ๋‹ค. ๐Ÿ‘‡

์ด๋ฏธ์ง€ โ†’ [Vision-Language Transformer] โ†’ ๋ฒˆ์—ญ ํ…์ŠคํŠธ

๋‹ค์‹œ ๋งํ•ด โ€œ์ด๋ฏธ์ง€ ์†์˜ ๋‹จ์–ดโ€๋ฅผ ์ธ์‹ํ•ด์„œ ๋ฌธ์ž๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€ ์† ์‹œ๊ฐ์  ํŒจํ„ด(๋ฌธ์ž, ๋‹จ์–ด, ๋ฌธ๋งฅ)์„ ๋ณด๊ณ  ์˜๋ฏธ๋ฅผ ์ถ”๋ก ํ•ด์„œ ๋ฒˆ์—ญํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๊ตฌ๋ถ„๊ธฐ์กด ํŒŒ์ดํ”„๋ผ์ธ ๋ชจ๋ธE2E ๋ชจ๋ธ
์ฒ˜๋ฆฌ ๋‹จ๊ณ„OCR โ†’ ๋ฒˆ์—ญํ†ตํ•ฉ ๋ชจ๋ธ๋กœ ํ•˜๋‚˜๋กœ ์ฒ˜๋ฆฌ
์ค‘๊ฐ„ ์ •๋ณดํ…์ŠคํŠธ(๋ฌธ์ž์—ด)์ด๋ฏธ์ง€ ํ”ผ์ฒ˜(์˜๋ฏธ ๋‹จ์œ„)
์˜ค๋ฅ˜ ๋ฐœ์ƒ ์œ„์น˜OCR ์˜คํƒ€, ์ค„๋ฐ”๊ฟˆ ์˜ค๋ฅ˜ ๋“ฑํ†ตํ•ฉ ํ•™์Šต ๋‚ด ๋ณด์ • ๊ฐ€๋Šฅ
๋ฒˆ์—ญ ์ปจํ…์ŠคํŠธโ€๋ฌธ์ž ๋‹จ์œ„โ€๋กœ ๋ฒˆ์—ญโ€๋ฌธ๋งฅ ๋‹จ์œ„โ€๋กœ ๋ฒˆ์—ญ
๊ฒฐ๊ณผ๊ณ ์•™์ด โ†’ Goang(์˜ค๋ฅ˜ ์ „ํŒŒ)์ด๋ฏธ์ง€ ์ „์ฒด ๋ฌธ๋งฅ์„ ๋ณด๊ณ  โ€œcatโ€์œผ๋กœ ๋ฒˆ์—ญ

๋”ฐ๋ผ์„œ ๊ธฐ์กด ํŒŒ์ดํ”„๋ผ์ธ ๋ชจ๋ธ์ฒ˜๋Ÿผ OCR ๊ณผ์ •์— ์ฒ ์ž ํ•˜๋‚˜๊ฐ€ ํ‹€๋ฆฌ๊ฒŒ ๋˜๋ฉด ์ „์ฒด๊ฐ€ ์˜ค์—ผ๋˜๋Š” ๊ตฌ์กฐ๊ฐ€ ์•„๋‹Œ, ์‹œ๊ฐ์ ยท์˜๋ฏธ์  ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜คํƒ€๋ฅผ ์ž๋™ ๋ณด์ •ํ•˜๊ฑฐ๋‚˜ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ์ด๊ธฐ์— ์˜ค๋ฅ˜๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ์ ๋‹ค

1.3. ๋‹จ์ 

  • ํ•™์Šต ๋ฐ์ดํ„ฐ ์š”๊ตฌ๋Ÿ‰์ด ๋งค์šฐ ํผ
  • ์ค‘๊ฐ„ ๊ณผ์ •์ด โ€œ๋ธ”๋ž™๋ฐ•์Šคโ€ํ™”๋จ (๋””๋ฒ„๊น… ์–ด๋ ค์›€)
  • ํŒŒ์ดํ”„๋ผ์ธ ๋ชจ๋ธ์€ ์„ธ๋ถ€ ๋ชจ๋“ˆ๋ณ„ ํŒŒ์ธํŠœ๋‹์ด ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, E2E ๋ชจ๋ธ์€ ํ•ญ์ƒ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์žฌํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ๋งŒ ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ.

E2E ๋ชจ๋ธ์˜ ์ฃผ์š” ์—ฐ๊ตฌ ํ๋ฆ„

E2E Speech Recognition (E2E ์Œ์„ฑ ์ธ์‹)

  • ๋Œ€ํ‘œ ๋ชจ๋ธ: Deep Speech, LAS(Listen, Attend and Spell), Transformer Transducer
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด: ๊ธฐ์กด์—” โ€œ์Œํ–ฅ ๋ชจ๋ธ โ†’ ๋ฐœ์Œ ๋ชจ๋ธ โ†’ ์–ธ์–ด ๋ชจ๋ธโ€์ด ๋”ฐ๋กœ ์žˆ์—ˆ์ง€๋งŒ, E2E ๋ชจ๋ธ์€ ์Œ์„ฑํŒŒํ˜• ์ž…๋ ฅ โ†’ ํ…์ŠคํŠธ ์ถœ๋ ฅ ์ „์ฒด๋ฅผ ํ•˜๋‚˜๋กœ ํ•™์Šต

E2E Neural Machine Translation (E2E NMT)

  • ๋Œ€ํ‘œ ๋ชจ๋ธ: Sequence-to-Sequence, Transformer
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด: ๋ฌธ์žฅ ๋‹จ์œ„ ๋ฒˆ์—ญ์„ ์œ„ํ•œ ๋ณต์žกํ•œ ๊ทœ์น™ ๊ธฐ๋ฐ˜ / phrase ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ๊ฑฐํ•˜๊ณ , ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ ํ•˜๋‚˜๋กœ โ€œ์›๋ฌธ โ†’ ๋ฒˆ์—ญ๋ฌธโ€ ์ง์ ‘ ๋งตํ•‘

E2E Object Detection / OCR

  • ๋Œ€ํ‘œ ๋ชจ๋ธ: YOLO, CenterNet, CRAFT, Donut
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด: ๊ธฐ์กด์˜ โ€œ๊ฒ€์ถœ โ†’ ํ›„๋ณด ์˜์—ญ ์ƒ์„ฑ โ†’ ๋ถ„๋ฅ˜โ€ ๋‹จ๊ณ„๋ฅผ ํ•˜๋‚˜์˜ CNN์œผ๋กœ ํ†ตํ•ฉ. OCR์—์„œ๋„ โ€œํƒ์ง€ โ†’ ์ธ์‹โ€ ๊ณผ์ •์„ ๋‹จ์ผ ๋„คํŠธ์›Œํฌ๋กœ ์—ฐ๊ฒฐ

E2E Document Understanding / Table Recognition (๋ฌธ์„œ ์ดํ•ด)

  • ๋Œ€ํ‘œ ๋ชจ๋ธ: Donut, Pix2Struct, FormNet, TILT, Dolphin
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ์ธ์ฝ”๋”๊ฐ€ ์ดํ•ดํ•˜๊ณ , ๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ(HTML, Markdown, JSON ๋“ฑ)๋กœ ๋ฐ”๋กœ ๋””์ฝ”๋”ฉ ์ฆ‰, โ€œOCR โ†’ ๋ ˆ์ด์•„์›ƒ โ†’ ๊ตฌ์กฐ ํ•ด์„โ€ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ฉ.

E2E Vision-Language Models (E2E VLM)

  • ๋Œ€ํ‘œ ๋ชจ๋ธ: BLIP, Falmingo, PaLI, LLaVA, GPT-4V, Kosmos-2, Qwen-VL
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์ผํ•œ ํ‘œํ˜„ ๊ณต๊ฐ„(embedding space)์—์„œ ๋‹ค๋ฃจ๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ ํ•˜๋‚˜์˜ ํ”„๋กฌํ”„ํŠธ ์ž…๋ ฅ์œผ๋กœ ์ด๋ฏธ์ง€ ๋ถ„์„, OCR, ์„ค๋ช…, ์งˆ์˜์‘๋‹ต์„ ์ „๋ถ€ ์ˆ˜ํ–‰

ํ•œ๊ตญ์–ด ์ง€์› ๋ฐ ํ‘œ ๊ตฌ์กฐ ์ธ์‹ E2E ๋ชจ๋ธ

์ผ๋ถ€ ์ตœ์‹  ์—ฐ๊ตฌ์—์„œ๋Š” ํ•œ๊ตญ์–ด ํ‘œ์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•œ ๊ฒฝ์šฐ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์˜ˆ์ปจ๋Œ€ TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism ๋…ผ๋ฌธ์—์„œ๋Š” ํ•œ๊ตญ์–ด ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ํ‰๊ฐ€ํ–ˆ๊ณ , ์˜์–ด ๊ธฐ๋ฐ˜ ํ•™์Šต๋งŒ์œผ๋กœ๋„ ๊ฝค ๊ดœ์ฐฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, TableMaster์™€ GPT-4V ๋ชจ๋‘ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋‹ค๊ณ  ํ•œ๋‹ค.2 ํ•˜์ง€๋งŒ Attribution-NonCommercial 4.0 International ๋ผ์ด์„ ์Šค๋กœ ์ƒ์—…์  ์ด์šฉ์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์ด๋‹ค. ์‹œ๊ฐ„์„ ๋‚ญ๋น„ํ•ด๋ฒ„๋ ธ๋‹ค.

Footnotes

  1. ํŒŒ์ดํ”„๋ผ์ธ ๋„คํŠธ์›Œํฌ๋ž€ ์ „์ฒด ๋„คํŠธ์›Œํฌ๋ฅผ ์ด๋ฃจ๋Š” ๋ถ€๋ถ„์ ์ธ ๋„คํŠธ์›Œํฌ๋‹ค. โ†ฉ

  2. Minsoo Khang, Teakgyu Hong, ใ€ŒTFLOP: Table Structure Recognition Framework with Layout Pointer Mechanismใ€, ใ€ŽProceedings of the Thirty-Third International Joint Conference on Artificial Intelligenceใ€, 2024, p.953 โ†ฉ