728x90
반응형
- GPT-4(V)로 웹 인터랙션을 자동화할 때 생기는 질문들
- LLM의 응답을 어떻게 웹 엘리먼트로 매핑할까?
- LLM의 작업 공간을 더 잘 이해하기 위해 페이지를 마크업하려면 어떻게 해야 할까?
- 텍스트 전용 LLM에 '스크린샷'을 제공하려면 어떻게 해야 하나?
- Tarsier는 멀티모달 웹 에이전트를 위한 비젼 유틸리티
- [1]과 같은 아이디를 통해 페이지의 상호작용 가능한 요소에 시각적으로 '태그'를 붙이는 방식으로 작동
- 이를 통해 GPT-4(V)가 작업을 수행할 수 있도록 요소와 ID 간의 매핑을 제공
- 상호작용 가능한 요소는 페이지에 표시되는 버튼, 링크 또는 입력 필드로 정의
- 페이지의 텍스트 표현을 제공할 수 있음
- 즉, 멀티 모달이 아닌 LLM에서도 더 심층적인 상호작용이 가능
- 이는 기존 비전 언어 모델의 성능 문제를 고려할 때 중요한 사항
- 또한 페이지 스크린샷을 비전 없는 LLM이 이해할 수 있는 공백 구조의 문자열로 변환하는 OCR 유틸리티를 제공
- 지원되는 OCR 서비스
- 현재는 Google Cloud Vision만 지원되며, Amazon Textract 와 Microsoft Azure Computer Vision 지원 예정
https://github.com/reworkd/tarsier
GitHub - reworkd/tarsier: Vision utilities for web interaction agents 👀
Vision utilities for web interaction agents 👀. Contribute to reworkd/tarsier development by creating an account on GitHub.
github.com
728x90
'12. 메일진' 카테고리의 다른 글
GN⁺: 구글, 사파리 검색 수익의 36%를 애플에 지급 (0) | 2023.11.16 |
---|---|
GN⁺: OpenAI, GPT-5를 비롯한 AI 개발 로드맵 및 펀딩계획 공개 (0) | 2023.11.16 |
sshx - 빠르고 협업가능한 웹 기반 터미널 (0) | 2023.11.16 |
SaaS Growth Cheat Sheet (0) | 2023.11.16 |
개인정보 - 인공지능 - 인공지능 시대 안전한 개인정보 활용 정책 (23.8) (0) | 2023.11.16 |