다섯
Date : 2022.09.16 ~ 2022.09.18
[Worksmate] 워크샵 (09.17 토)
토요일이라 웍스메이트 대표님과 데이터 작업하는 부장님(?)만 참석하고 촬영을 했다.
- Coursera 강의 발표 : Recommendation 정리 및 용어 정리
- 현업 조사 NLP 부분 : 추천 시스템에서 사용되고 있는 자연어처리 기술 조사 및 적용 방안 모색
- 데이터 분석 (가다 데이터셋)
- 구현한 3-Layer ReLU recommender 소개
시간 관계상 논문 발표와 기타 자료들은 생략했다.
RS + NLP
- 텍스트 데이터를 자연어처리 기술을 통해 벡터화 & 키워드 추출 작업을 한다.
- 이 때 도메인에 맞는 추가 사전 작업이 필요할 수 있다. (웍스메이트의 경우 공정 별로)
- 데이터셋에 맞는 유사도 함수 찾기
- 원하는 추천에 맞는 가중 평점 조건 맞춰 계산식 작성하기
-> 해야하는 것 투성이~
흥미로웠던 부분
- Elastic Search에서 BM25 사용 중이라는 점
-
2021.09 기준 카카오 웹툰의 ‘비슷한 웹툰’ 추천에서 사용 중이라는 점
-> 실제 알고리즘이 어떻게 되는지 궁금하다! -
가다 데이터셋이 기존 추천 시스템 데이터와의 차이점, 그리고 데이팅 앱 데이터와의 유사점 등을 비교한 점
- 사실 합류한지 얼마 안돼서, 프로젝트를 제대로 파악하지 못했는데 오늘 설명을 들으며 전반적으로 이해할 수 있었다.
무엇보다 사용자 기준 추천과 기업 기준 추천 중 어디에 포인트를 둬야 하는지 모호하다고 느꼈는데,
사용자 기준으로 판결 땅땅땅!
[2022-CS-Study] OS
- 파일 관리가 주제인데, 이 부분은 시스템 엔지니어가 아니면 면접에서 물어보기엔 너무 로우한 지식이었다.
- 파일과 디렉터리 그리고 파일 시스템에 대한 내용으로, 용어만 정리해두면 충분할 듯 싶다.
[2022-ML-Study] Week1 - Chapter 1~3
- 피처 엔지니어링, 모델 평가, 그리고 클래식 알고리즘 이렇게 3개 챕터
- 그 중
피처 정규화
Word2Vec
코사인 거리 응용
세 개 키워드 담당
이제 나머지 14개 키워드 살펴보면 된다..
[Masterbot] TTS 영어 모델 학습
TTS 영어 모델 Fine-tuning 진행 확인.
- 3000 epoch 넘어가니 피치가 꽤 안정됐다.
- 마스터봇 데이터셋에 대해서는 테스트 데이터로도 결과가 좋은데, 일반 회화 데이터에 대해서는 발음이 뭉개지는 지점들이 있다.