728x90
반응형

https://arxiv.org/abs/2606.23050

https://github.com/baidu/Unlimited-OCR

2026.6.22
[Unlimited OCR Works]

이 문서는 대규모 언어 모델을 활용한 광학 문자 인식(OCR)의 고질적인 문제인 메모리 소비 급증과 속도 저하를 해결하기 위한 새로운 기술적 시도를 다루고 있습니다. 연구진은 인간의 작업 기억 방식을 모방한 참조 슬라이딩 윈도우 어텐션(R-SWA) 메커니즘을 도입하여, 출력 데이터가 길어져도 KV 캐시를 일정하게 유지함으로써 효율성을 극대화했습니다. 결과적으로 Unlimited OCR 모델은 방대한 분량의 문서를 단 한 번의 연산으로 처리할 수 있는 성능을 갖추었으며, 이 혁신적인 구조는 OCR을 넘어 음성 인식이나 번역 등 다양한 파싱 작업에도 광범위하게 적용될 수 있는 가능성을 제시합니다.

 

 

728x90
Posted by Mr. Slumber
,