본문 바로가기
Review/테크세미나 정리

[NFT Bank] 기술세미나 후기 - "대규모의 블록체인 데이터를 3000+개의 모델로 만드는 AIOps 여정" 정리

by sohyunwriter 2022. 4. 30.

NFT Bank

-3rd Mini Tech Seminar (22.04.30 2pm~4pm, Online)

-강연자: 송호연

-주제: Session 1. 대규모의 블록체인 데이터를 3000+개의 모델로 만드는 AIOps 여정

 


 

NFT Bank의 테크세미나를 듣고 정리한다.

사실 그동안 테크세미나를 잘 안 들었는데

요즘 내가 모델링 하는 방식이 맞나? 그게 최선인가? 하는 생각이 들었고 

다른 회사의 테크톡을 찾아봐야겠다는 생각이 들어서 하나둘씩 찾아보게 됐다.

 

이 회사/팀이 풀고자 하는 비즈니스 문제, 모델링 과정, AIOps 순으로 정리했다.

 

 

1. 비즈니스 문제

 

NFT Bank가 풀고자 하는 비즈니스 문제는,

"NFT 가치 추정 즉, NFT 가격 예측" 이다. 

 

Q. 내가 산 NFT가 지금 얼마지? 

-Floor Price (OpenSea)

-Estimated Price (NFTBank)

 

OpenSea가 Floor Price(최근 시장에서 거래된 가장 낮은 NFT 가격)을 제공한다면,

NFTBank는 Estimated Price를 제공한다.

 

Q. 내가 NFT를 통해 얼마를 벌었지?

 

그리고 이러한 NFT 관련 포트폴리오를 관리해주는 회사이다.

 

 

2. NFT 가격 예측 모델링 과정

4가지 데이터를 활용한다.

 

데이터 1: 거래내역

데이터 2: NFT 메타데이터 (categorical feature)

데이터 3: 블록체인 환율

데이터 4: Market Listing

-> 데이터 5: 모델이 예측한 가격

 

사실 위 4가지 데이터를 활용해 어떤 피처를 만들고,

어떻게 모델링을 하는지는 AIOps에 초점이 맞춰져 있어서인지 자세히 나오지는 않았다.

 

 

3. AIOps의 가치 = 생산성 & 품질

이 부분이 정말 신선했다!!

어떻게 대규모의 블록체인 데이터를 갖고 3000+개의 모델을 자동으로 찍어내는지에 대한 부분이었다. 

그리고 왜 그렇게 해야하는지, 즉 AIOps가 갖는 가치에 대해 말씀해주셨는데 인상적이었다.

 

우선, AIOps는 다음의 과정을 말한다.

 

AIOps

Data Validation

Modeling

Monitoring

Serving

...

 

그렇다면 AIOps는 무엇이고, AIOps가 만들어내는 가치는 무엇인가?

 

AIOps는 표준화와 자동화를 통해 모델링 작업 전반을 컴퓨터에게 위임하는 것이고,

이를 통해 생산성품질이라는 가치를 만들어낼 수 있다고 했다.

 

즉, 표준화자동화를 통해 비용도 줄이고, 품질도 좋은 예측 모델을 만들 수 있다는거다!

그리고 이 과정에서 Richard Sutton이 한 말을 인용하셨는데, 이것도 인상적이었다.

 

씁쓸한 교훈에서 배워야 할 한 가지는 범용적인 목적의 방법론, 즉 사용 가능한 컴퓨팅 자원이 많아짐에 따라 계속해서 확장되는 방법론의 위대한 힘이다. -Richard Sutton

 

e.x.

CNN 모델 어떻게 좋게 만들지 -> 시장 선도x
AutoML 같은 범용적인 기술 -> 시장 선도o

 

 

생각해보면 맞는 것 같기도 하다. 물론 하나의 모델을 어떻게 좋게 만들지에 대한 고민도 필요하겠지만, 어떤 임계치에 다다르면 그때부터는 어떻게 자원을 효율적으로 관리할 수 있는지, 일반화시킬 수 있는지가 중요한 것 같다!

 

4. 생산성 & 품질 높이는 방법

point 1. 생산성 높이기

피처 뽑아내고, 모델링하고 하이퍼파라미터 최적화하고, 만들어내는 예측값 서빙함
-> 표준화하고 자동화하면 사람이 없어도 모델링할 수 있다

 

point 2. 품질 높이기 - 데이터/모델/API 품질

1) 데이터 품질

-Data Freshness : 제 시간에 데이터가 들어오는가? (장애 알림 자동화 설정)
e.x. 2.62 hours, 14.62 hours

 

-[Airflow] Data Validation Task : Airflow DAG가 목표를 잘 수행했나?
e.x. api 크롤링하는 거면 json 스키마 validation 써서 우리가 예상한 형태로 계속 들어오고 있는지 확인

 

2) 모델 품질

-Train & Test Metric = Offline 성능

-> Online 성능 모니터링!!

 

-Online Metric 감소 트렌드

-MAPE 버킷 별 모델 갯수

 

3) API 품질

Q. 고객에게 예측값을 서빙하는 API가 정상적으로 작동 중인가?

-API Uptime
-Latency
-Error Monitoring

 

실시간 Q&A

-모델 성능 떨어졌을 때 자동화된 개선 방법 있는지?
반자동화된 개선방법이 있다

-feature들이 모든 데이터들을 필요로 하다보니 customized된 feature store를 만들어 쓴다

-원천 데이터는 이더리움의 모든 블록체인?이다

-가격 예측에서 새롭게 발견한 피처 = 영업기밀

-데이터 엔지니어 기술스택 = 파이썬, 에어플로우, 구글 빅쿼리, 파이스파크 등

-scalability와 online metric은 상충관계에 있진 않다. 두 가지 목표 같이 이뤄가야하는 상황. 모델 성능 어느 정도 업그레이드하다 보면 한계효용이 줄어드는 때가 있다

-대시보드 엄청 많다. Superset 등을 사용해 대시보드 생성

-모델 품질 설명하시면서 온라인 메트릭 줄이는 방향으로 개선

-?, optuna 등 튜닝 자동화**

-web3의 AIOps는 태생적으로 마이데이터, 블록체인의 데이터는 모두 오픈데이터다. 데이터의 수준이 차원이 다르다. NFT 시장이 대규모의 인공지능 모델을 만들 수 있는 playground고 데이터가 많다

-배치 위주로 많이 고려. 실제로 고객들이 들어오는 속도가 실시간성보다는, ? 

-data drift 보면 된다. online으로 들어오는 피처가 학습해서 들어오는 피처보다 얼마나 다른지 보면 된다

 

 

 

AIOps나 모델링 과정 자동화에 관심있다면 유익한 세미나인 것 같다!

https://www.youtube.com/channel/UCfLnh9wMs15OcSLt6VF2q-w/videos

 

NFTBank

 

www.youtube.com

위에 녹화본 영상이 추후 올라오는 듯 싶다.

 

 

*혹시 잘못된 내용이 있다면 댓글 피드백 남겨주세요!