추천 시스템

평가 기법

모형을 평가하는 과정에서 가장 중요하게 고려돼야할 사항은 다음과 같습니다.
k-fold Cross-Validation과 같이 교차검증을 통하여 모형의 정확도를 일반화시키는게 바람직하며 오차를 평가하는 기준은 평균 제곱근 오차(RMSE)나 평균 절대 오차(MAE)가 주로 쓰입니다.
또한 정확도와 재현율 매트릭도 주로 쓰입니다.

(http://rstatistics.tistory.com/28?category=713124

추천 엔진의 이해

rstatistics.tistory.com

(http://hochul.net/blog/recommendation-daisy/

Recommendation : 추천 – 알고리즘 : Item-Based Filtering

추천 (Recommendation) 데이터 분석의 가장 좋은 활용은 추천이 아닐까 한다. 데이터 마이닝(Data Mining) 이란? 데이터 분석, 추천을 얘기하기 전에 우선, 데이터 마이닝(Data Mining)을 먼저 살펴보면, “대

hochul.net

협업 필터링(Collaborative Filtering, CF)은 페이스북처럼 좋아요/싫어요, 별점/평점을 비슷하게 매긴 사람들은 비슷한 성향을 가졌을 것이라고 생각하고 필터링하는 방법이다.

컨텐츠 기반 필터링(Contents Based Filtering, CB)은 컨텐츠 자체 내용을 인공지능이 분석해 갖고 있다가 유사 컨텐츠를 추천하는 기술이다. 두 방식의 결과물은 상당히 다른 편이다.

(https://byline.network/2018/04/04-3/

다음, 카카오 추천 엔진으로 '나만 볼 수 있는 공간' 자동으로 만든다 - 바이라인네트워크

카카오 추천 시스템은 카카오의 은근한 핵심 시스템이다. 은근한 이유는 눈에 띄지 않기 때문이다. 생각해보면 친구 추천, 추천 컨텐츠 등 여기저기에 적용돼 있다.

byline.network

콘텐츠 큐레이션 : 개인의 취향을 분석해 적절한 콘텐츠를 추천해주는 것

최적화된 콘텐츠를 노출하고 이를 추천하는 서비스

(https://medium.com/netflix-techblog/artwork-personalization-c589f074ad76

Artwork Personalization at Netflix

Artwork is the first instance of personalizing not just what we recommend but also how we recommend.

netflixtechblog.com

콘텐츠 큐레이션 시대

이미 넷플릭스가 사용자 취향을 고려한 영화 추천 서비스로 미디어계의 강자로 떠올랐고 쿼츠, 블렌들 등 큐레이션을 표방한 서비스들이 인기를 얻고 있다. 콘텐츠 큐레이션이 경천동지할 완전히 새로운 현상은 아니지만 최근 5~6년 사이 유독 각광 받는 이유는 미디어 환경의 급변과 맞물려 있다. 스마트폰이 콘텐츠 허브가 되면서 콘텐츠끼리 치열하게 경쟁을 하는 시대가 온 것이다.

큐레이션은 AI(인공지능)을 활용한 취향 분석이 기본이다. 사용자가 자주 보는 콘텐츠를 기반으로 비슷한 사용자들의 취향을 반영해 좋아할 만한 것들을 추천해주는 방식이다. 데이터베이스(DB)는 물론 취향을 반영하는 알고리즘 기술도 필수적

(http://www.dt.co.kr/contents.html?article_no=2018022702102251047001

http://www.dt.co.kr/contents.html?article_no=2018022702102251047001

www.dt.co.kr

메타데이터 기반 벡터 모델

벡터 공간 모델: 텍스트 문서를 단어 색인 등의 식별자로 구성된 벡터로 표현하는 대수적 모델

사례: TF-IDF 가중치

활용: 정보 검색, 정보 필터링 및 검색 엔진의 색인이나 연관도 순위

비교항목: 불린모델

관련모델: 단어식별, 랜덤 색인 등

협업 필터링

[개념] 데이터 이용, 사용자 선호도 수집, 사용자 관심분야 자동 예측 알고리즘

다양한 사용자의 선호도를 수집하여 사용자의 관심 분야를 자동으로 예측하도록 하는 방법

[특징] Big Data 기반 분석, 집단지성 활용, 수학적 계산 모델 이용, 신규 수익 창출

[모델] 피어슨 상관관계, 코사인 유사도, 타니모토, 유클리디안거리 수식

[유형] User-based, Item-based

가)User-based CF - 일반적으로 가장 많이 쓰임. Nearest Neighbor 알고리즘.

- 같은 패턴을 가진 사용자 검색 > 같은 유형의 사람들 패턴을 예측 정보 제공

나) Item-based CF - 아마존이 처음 사용. "Users who bought x also bought y"

- 아이템 매트릭스 작성 > 사용자 일치 데이터 검색 후, 매트릭스에 대입 > 현재 사용자 선호도 예측

Similarity_Cosine:

Manhattan Distance로 잘 알려진, 두 지점 간의 거리를 구하는 방법의 확장판으로,

두 지점간의 거리를 구할 때 2차원의 좌표값을 사용했다면, 여기서는 이를 3차원 벡터로 확장한 알고리즘이다.

Cosine Similarity에서는 각 문서간의 유사도를 평가할 때, 두 문서의 각도를 척도로 삼는 다는 점에서 이 벡터 표기법이

더 큰 의미를 갖게된다.

값의 범위: (-1~1), -1: 두 vector는 정확히 반대, 0: 두 vector는 독립, 1: 두 vector는 같다는 의미로 해석된다.

추천 시스템

[변화]

정적 Web 시스템내 유저-사이트간 커뮤니케이션 변화 정적인 경험 제공 -> 대화(커뮤니케이션) 기반 경험 제공

- 과거 구입 내역, 검색내역, 유저 행동 패턴 기반

[기술] 협업 필터링, 아이템 기반, 콘텐츠 기반

[유형]

1) 내용 기반: 아이템 속성,메타데이터 기반 벡터 모델통한 연관 아이템 (CBF) 2) 협업 필터링: item, contents, 사용자(거리측정,Z-score 평점)

3) 신뢰 기반: 단방향/양방향 소셜 신뢰관계

4) 모델 기반: 머신러닝, 나이브 베이지언, 뉴럴 네트워크

5) 메모리 기반: 가정, 관계(유사도) 통한 사용자, 아이템

[문제]

1) 신규이용자: 시스템을 새롭게 사용하는 사용자는 분석할 데이터가 충분하지 않으므로 정 교한 추천이 어려움

2) 신규아이템: 등록된 지 얼마 되지 않아 아직 이용한 사용자가 거의 없는 아이템은 추천이 거의 되지 않는 상황

3) 데이터 희소성: 협업 필터링, 사용자와 아이템의 수에 비해서 평점의 수가 극도로 적어, 사용자들의 취향을 정확하게 파악하기 힘든 상황

4) 우연한 발견: 사용자가 정말 좋아하지만 생각하지 못했던 아이템을 추천하는 것

5) cold-start: e-Commerce 등 평판, 추천 시스템에서 신규 유입자 및 새로운 사용자에 대한 자료 처리시 전체 성능 저하를 개선하는 것

[성공요인]

1) 추천 시스템 알고리즘 고도화

2) 데이터 증가

3) 컴퓨팅 파워 향상

[성능 측정지표] 유사도, 데이터 스케일별 가용성

문제2) 협업 필터링

[개념] 데이터 이용, 사용자 선호도 수집, 사용자 관심분야 자동 예측 알고리즘 [특징] Big Data 기반 분석, 집단지성 활용, 수학적 계산 모델 이용, 신규 수익 창출

[모델] 피어슨 상관관계, 코사인 유사도, 타니모토, 유클리디안거리 수식

[유형] User-based, Item-based

[구현] Memory-based, Model-based, Hybrid

[장점] 신규수익창출, DAU/ARPU 등 증가

[단점] Cold Start, Filter Bubble, 정확도 관련 문제

[동향] 1)구현방식:모델기반,메모리기반

2)서비스기반:정부3.0, 농업,엔터테인먼트,개인비서,금융

[고려] 정확도 개선, 데이터 분량 조절, Sbilling Attacks, Long Tail Rating

과도한 타킷마케팅, 사생활간섭/침해, Information 고립현상, 특정 기사들 추천 배제, 자유도 제공

1)협업 필터링: 다수의 사용자 행동모델 기반

그림 1.협업 필터링의 단순한 예

그림 2. 협업 필터링으로 사용되는 유사요소와 차이요소

[추천엔진 사용 알고리즘] 1) 협업필터링

2) 클러스터링 알고리즘: K-means, 퍼지 C-means, EM

3) 베이즈 신뢰도 넷(변수간 확률), 마코프 체인(순차적 예측)

4) 군집분석, 인공신경망, tf-idf(term frequencyinverse document frequency)

문제점)

1) 계산량이 비교적 많은 알고리즘이므로 사용자 수가 많은 경우 효율 적으로 추천할 수 없 는 단점이 있다. 앞서 간단하게 소개한 행렬분해의 경우, 사용자 수가 커짐에 따라 계산이 몇 시간에서 며칠까지 걸리는 경우가 종종 생긴다.

2)롱테일 문제: 비대칭적 정보 쏠림현상 (사용자들의 관심이 적은 다수의 항목은 추천을 위한 충분한 정보를 제공하지 못하는 경우)

2)컨텐츠 기반 필터링: 항목 분석 프로파일+사용자 선호도 추출 프로파일 = 유사성 계산

그림 3. 컨텐츠-베이스 필터링에서 차이랭킹(ranked differences)

문제점) 콜드 스타트 문제 해결가능 1) 다양한 형식의 항목 추천 어려움

[추천엔진 사용 알고리즘] 1) 협업필터링

2) 클러스터링 알고리즘: K-means, 퍼지 C-means, EM

3) 베이즈 신뢰도 넷(변수간 확률), 마코프 체인(순차적 예측)

4) 군집분석, 인공신경망, tf-idf(term frequencyinverse document frequency)

3) 모델기반 협력 필터링 (넷플릭스)

기존 항목 간 유사성을 단순하게 비교하는 것에서 벗어나 자료 안에 내재한 패턴 을 이용하 는 기법

[특징] 연관되는 자료의 크기를 동적으로 변화, 잠재 모델(사용자 특정 항목 선호추정)

[장점] 높은 정확도, 직관적 사용자 전달, 추천 신뢰성 [단점] 모델 생성시간 장기화

[개선] 내재 패턴 분석 위한 LDA(A(Latent Dirichlet Allocation), 베이지안 네트워크 (Bayesian Network) 알고리즘 사용

▲ 추천 프로그램을 설계하는 방법

추천(Referral) 프로그램은 "5달러를 주고 5달러를 받는" 형태로 많은 앱에서 볼 수 있으며, 최근 몇 년간 인기를 끌고 있음
사용자들이 제품 내에서 사용할 수 있도록 CAC(고객 획득 비용)를 사용자에게 제공함으로써, 구글이나 페이스북과 같은 유료 마케팅 채널보다 큰 이점을 가짐
특히 고객 획득 비용이 높은 틈새 시장을 대상으로 하는 제품에 유용하며, 추천 프로그램은 전체 고객 유입 경로의 20-30%를 차지할 수 있음
추천 프로그램이 만병통치약은 아니지만 다른 마케팅 활동을 보완하기 위해 추가할 가치가 있음

대상 설정(The Target)

추천 프로그램은 "새로운 사용자"가 친구를 추천하도록 초점을 맞추어야 함
- 초기 온보딩 흐름중에 사용자에게 메시지를 표시하고, 온보딩의 일부로 친구들의 이메일을 추가하도록 함
- 초대를 보내기 전에 먼저 제품을 경험하라고 하는 의견과 정반대인데, 이용하고 빠지기 전에 먼저 초대하는게 좋고, 그래서 더 많이 보내는게 성공확율이 더 높아짐
사용자의 가치에 따라 다른 추천 금액을 설정하는 것이 효율적일 수 있음
- 많은 마켓플레이스 회사들이 이렇게 하고 있음
- 뉴욕/샌프란 과 멤피스 라면 각 장소별 금액이 달라야 함

인센티브(The Incentive)

드롭박스의 경우 저장 공간을 인센티브로 제공했으며, 이는 내부적 보상과 외부적 보상 사이의 딜레마를 보여줌
- 내부적 보상은 비용 효율적이지만, 외부 사용자에게는 반응이 적을 수 있음(제품에 대해서 알지 못한다면 더더욱)
- 드롭박스의 스토리지는 구체적인 가치 형태이기 때문에 내부/외부 중간적 위치임
결과적으로 대부분의 추천 프로그램은 시간이 지남에 따라 달러로 향하는 경향이 있지만, 중요한 건 새로운 외부 사용자의 우선 순위를 정하고 인센티브를 최대한 구체적으로 만드는 방법에 대해 생각하는 것
인센티브 금액 설정은 CAC/LTV 계산을 기반으로 하며, 더 큰 금액을 제공하는 계층적 오퍼가 더 효과적일 수 있음
- 금액을 올리기 위해서는 "가입하면 $5" 보다 "가입하고 5개를 구매하면 $100" 같은 것도 가능
  - 가입 전환률과 재구매 전환률이 100x 까지 차이가 난다면, 인센티브를 20x 까지 안전하게 올릴 수 잇음
- “give $20, get $5” 와 “give $5, get $20.” 에서 일반적으로 초대자 중심의 금액이 더 잘 작동함. 즉 초대자가 이익이 더 많은 쪽

보상(The Payback)

추천 프로그램 전략을 추진하려면 일종의 ROI 지표가 필요하고, 이를 측정하기 위해 CAC/LTV 분석을 사용
캐니벌라이제이션(기존에 무료로 유입될 사용자가 추천 때문에 유료로 유입시키는 현상)을 고려해야 함
- 이를 위해서는 A/B 테스트를 통해서 "Cost Per Incremental Customer(증분 고객당 비용)" 같은 것을 측정해야함
- 또는 간단하게 단순히 On/Off 테스틀 통해서, 추천 프로그램을 껐을때 신규 사용자수가 크게 감소한다면 추천 프로그램이 동작하고 있는 것

AI - 법/규제 - 생성형 AI 정책 (2)	2024.01.16
프롬프트 엔지니어(Prompt Engineer) - 자동 최적화 (0)	2024.01.15
초거대 AI 모델 - 초거대 인공지능 프로세서 반도체 기술 개발 동향(2023.10) (0)	2024.01.08
생성형 AI - 마켓 플레이스 (1)	2024.01.08
생성형 AI - G7 히로시마 프로세스 (1)	2024.01.04

Char