728x90
반응형
https://arxiv.org/abs/2606.23050
https://github.com/baidu/Unlimited-OCR
2026.6.22
[Unlimited OCR Works]
이 문서는 대규모 언어 모델을 활용한 광학 문자 인식(OCR)의 고질적인 문제인 메모리 소비 급증과 속도 저하를 해결하기 위한 새로운 기술적 시도를 다루고 있습니다. 연구진은 인간의 작업 기억 방식을 모방한 참조 슬라이딩 윈도우 어텐션(R-SWA) 메커니즘을 도입하여, 출력 데이터가 길어져도 KV 캐시를 일정하게 유지함으로써 효율성을 극대화했습니다. 결과적으로 Unlimited OCR 모델은 방대한 분량의 문서를 단 한 번의 연산으로 처리할 수 있는 성능을 갖추었으며, 이 혁신적인 구조는 OCR을 넘어 음성 인식이나 번역 등 다양한 파싱 작업에도 광범위하게 적용될 수 있는 가능성을 제시합니다.















728x90
'07.AI > 4.AI 비용' 카테고리의 다른 글
| AI - 기술 스택 - LLM 추론 최적화 - DSpark: LLM 추론 가속 기술 (0) | 2026.07.03 |
|---|---|
| 비즈니스 - 토큰 경제 - Exponential View Report, AI 경제의 현황 (0) | 2026.07.01 |
| AI - 기술 스택 - OpenAI 모델, 폴 에르되시의 단위 거리 추측의 반례 (0) | 2026.07.01 |
| AI - 기술 스택 - LLM 추론 엔지니어링 가이드 (0) | 2026.07.01 |
| 비즈니스 - 토큰 경제 - Epoch AI, AI 슈퍼스타 연구자의 몸값 분석 (0) | 2026.06.24 |


