1. End-to-End의 개념 이해

1.1. 정의

End-to-End(이하 ‘E2E’라 한다) 란 인공지능(AI) 및 머신러닝(ML)에서, 사람이 중간 단계를 직접 설계하지 않고(파이프라인 네트워크 없이¹), 데이터의 입력부터 출력까지 하나의 신경망으로 학습 및 처리하는 방식을 의미한다.
예를 들어, “이미지 → 텍스트”로 바로 연결되는 모델은 중간의 영역 검출(Detection), 후처리(Postprocessing) 등의 단계를 별도 모듈로 두지 않고, 한 번의 학습과정에서 모든 관계를 학습한다.
이는 전통적 방식의 Pipleline 모델과 구분된다.

예시: OCR & 번역 시스템

기존: Preprocessing → 텍스트 탐지 → 텍스트 인식 및 추출 → 번역 → 결과

End-to-End: 이미지 → 바로 번역 결과 출력

1.2. 장점

오류 누적(Error Propagation) 최소화
학습 파이프라인 단순화
GPU 가속 및 병렬 학습에 유리

오류 누적(error propagation) 현상
👆 위에서 예로 든 기존의 OCR 및 번역 모델들은 대부분 다음과 같은 구조로 되어 있다.
Text Detection → Text Recognition → Translation
즉,

이미지 기반의 문서에서 텍스트 영역을 탐지하고 (Text Detection)

텍스트를 예측하고 (Text Recognition)

OCR로 인식된 텍스트를 번역 (Translation)하는 구조다.

이러한 기존 모델의 단점은 단계가 많아서 각 단계의 오류가 다음 단계로 전파되는데 이를 오류 누적 현상이라고 한다. 기존 모델의 OCR 단계에서 다음과 같은 오류가 발생했다고 가정해보자.

단계 예시 설명
원문 이미지 ”고양이는 귀여워!” 한국어 문서 이미지
OCR 결과 ”고앙이는 귀여워!” OCR이 ‘양’을 ‘앙’으로 잘못 인식
번역 결과 ”Goang is cute!” 번역 단계에서도 오류가 전파됨

OCR의 작은 오타 하나가 다음 단계인 번역 단계에서도 잘못된 단어를 번역하게 하는 결과를 초래한다. 이것이 바로 오류 누적이다. 이러한 오류 누적 현상을 최소화하기 위해 모든 과정을 한 번에 처리하는 방식의 End-to-End 모델이 개발되었다. (End-to-End라는 표현 자체가 “중간 단계를 다루지 않는다”는 의미다.)
E2E 방식은 왜 오류가 줄어드는가?
E2E 모델은 아예 OCR 단계 자체가 없다. 즉, 아래와 같이 작동한다. 👇
이미지 → [Vision-Language Transformer] → 번역 텍스트
다시 말해 “이미지 속의 단어”를 인식해서 문자로 변환하는 것이 아니라 이미지 속 시각적 패턴(문자, 단어, 문맥)을 보고 의미를 추론해서 번역하는 것이다.

구분 기존 파이프라인 모델 E2E 모델
처리 단계 OCR → 번역 통합 모델로 하나로 처리
중간 정보 텍스트(문자열) 이미지 피처(의미 단위)
오류 발생 위치 OCR 오타, 줄바꿈 오류 등 통합 학습 내 보정 가능
번역 컨텍스트 ”문자 단위”로 번역 ”문맥 단위”로 번역
결과 고앙이 → Goang(오류 전파) 이미지 전체 문맥을 보고 “cat”으로 번역

따라서 기존 파이프라인 모델처럼 OCR 과정에 철자 하나가 틀리게 되면 전체가 오염되는 구조가 아닌, 시각적·의미적 문맥 기반으로 오타를 자동 보정하거나 무시할 수 있는 구조이기에 오류가 상대적으로 적다

단계	예시	설명
원문 이미지	”고양이는 귀여워!”	한국어 문서 이미지
OCR 결과	”고앙이는 귀여워!”	OCR이 ‘양’을 ‘앙’으로 잘못 인식
번역 결과	”Goang is cute!”	번역 단계에서도 오류가 전파됨

구분	기존 파이프라인 모델	E2E 모델
처리 단계	OCR → 번역	통합 모델로 하나로 처리
중간 정보	텍스트(문자열)	이미지 피처(의미 단위)
오류 발생 위치	OCR 오타, 줄바꿈 오류 등	통합 학습 내 보정 가능
번역 컨텍스트	”문자 단위”로 번역	”문맥 단위”로 번역
결과	고앙이 → Goang(오류 전파)	이미지 전체 문맥을 보고 “cat”으로 번역

1.3. 단점

학습 데이터 요구량이 매우 큼
중간 과정이 “블랙박스”화됨 (디버깅 어려움)
파이프라인 모델은 세부 모듈별 파인튜닝이 가능하지만, E2E 모델은 항상 모델 전체를 재학습하는 방식으로만 모델을 개선할 수 있음.

E2E 모델의 주요 연구 흐름

E2E Speech Recognition (E2E 음성 인식)

대표 모델: Deep Speech, LAS(Listen, Attend and Spell), Transformer Transducer
핵심 아이디어: 기존엔 “음향 모델 → 발음 모델 → 언어 모델”이 따로 있었지만, E2E 모델은 음성파형 입력 → 텍스트 출력 전체를 하나로 학습

E2E Neural Machine Translation (E2E NMT)

대표 모델: Sequence-to-Sequence, Transformer
핵심 아이디어: 문장 단위 번역을 위한 복잡한 규칙 기반 / phrase 기반 파이프라인을 제거하고, 인코더-디코더 구조 하나로 “원문 → 번역문” 직접 맵핑

E2E Object Detection / OCR

대표 모델: YOLO, CenterNet, CRAFT, Donut
핵심 아이디어: 기존의 “검출 → 후보 영역 생성 → 분류” 단계를 하나의 CNN으로 통합. OCR에서도 “탐지 → 인식” 과정을 단일 네트워크로 연결

E2E Document Understanding / Table Recognition (문서 이해)

대표 모델: Donut, Pix2Struct, FormNet, TILT, Dolphin
핵심 아이디어: 이미지 전체를 인코더가 이해하고, 구조화된 텍스트(HTML, Markdown, JSON 등)로 바로 디코딩 즉, “OCR → 레이아웃 → 구조 해석” 단계를 통합.

E2E Vision-Language Models (E2E VLM)

대표 모델: BLIP, Falmingo, PaLI, LLaVA, GPT-4V, Kosmos-2, Qwen-VL
핵심 아이디어: 이미지와 텍스트를 동일한 표현 공간(embedding space)에서 다루는 통합 모델 하나의 프롬프트 입력으로 이미지 분석, OCR, 설명, 질의응답을 전부 수행

한국어 지원 및 표 구조 인식 E2E 모델

일부 최신 연구에서는 한국어 표에 대해 평가한 경우가 존재한다. 예컨대 TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism 논문에서는 한국어 테이블 데이터를 사용해 평가했고, 영어 기반 학습만으로도 꽤 괜찮은 성능을 보였으며, TableMaster와 GPT-4V 모두 일관되게 능가하는 결과가 나왔다고 한다.² 하지만 Attribution-NonCommercial 4.0 International 라이선스로 상업적 이용이 불가능한 모델이다. ~~시간을 낭비해버렸다.~~

파이프라인 네트워크란 전체 네트워크를 이루는 부분적인 네트워크다. ↩
Minsoo Khang, Teakgyu Hong, 「TFLOP: Table Structure Recognition Framework with Layout Pointer Mechanism」, 『Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence』, 2024, p.953 ↩

🫠HanW001-S

탐색기

End-to-End Learning

1. End-to-End의 개념 이해

1.1. 정의

1.2. 장점

1.3. 단점

E2E 모델의 주요 연구 흐름

E2E Speech Recognition (E2E 음성 인식)

E2E Neural Machine Translation (E2E NMT)

E2E Object Detection / OCR

E2E Document Understanding / Table Recognition (문서 이해)

E2E Vision-Language Models (E2E VLM)

그래프 뷰

목차

🫠HanW001-S

탐색기

End-to-End Learning

1. End-to-End의 개념 이해

1.1. 정의

1.2. 장점

1.3. 단점

E2E 모델의 주요 연구 흐름

E2E Speech Recognition (E2E 음성 인식)

E2E Neural Machine Translation (E2E NMT)

E2E Object Detection / OCR

E2E Document Understanding / Table Recognition (문서 이해)

E2E Vision-Language Models (E2E VLM)

Footnotes

그래프 뷰

목차