Skip to content

Capstone-Chat-Sejong/Chatbot_Model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

50 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Chatbot_Model

2023 캡스톤 챗봇 모델

Pretrained model

CHATBOT

일상 대화 모델은 kogpt 모델로 개발 예정. GPT 모델이 질문에대한 답변을 generate 하기에 가장 알맞은 모델. 문장 생성에 최적화.

CLASSIFIER(or Keyword)

세종대 관련 정보와 일상대화를 나누는 기준을 명확하게 세우진 않았지만 classification을 진행할때 KoBERT 모델을 사용하게 되면 사용 예정 모델들. or Keyword를 Question에서 바로 가져와서 주제별로 바로 답변할 수 있도록 하는 방법도 고려. (BERT는 문장의 의미를 추출하는데 강점을 가진 모델. -> classificaiton)

Data Collection

  • 깃허브 chatbot dataset https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv (11823 pair)
  • 모두의 말뭉치 / AI-hub 온라인대화 일상대화 data (?로 끝나는 질문과 가까운 시간안에 대답하는 질문답변 pair - 고려중 // 일반 상식, 용도별 목적 대화, 주제별 텍스트 일상 대화)
  • Naver ClovaCall 110,000 pair qa dataset(요청함 - 우리 모델에 맞는 데이터인지는 확인해봐야 알듯?)
  • (+) 데이터가 너무 없으면 영어로된 챗봇 data는 많아서 번역api 돌려서 써도 괜찮을거 같음)

참고 https://github.com/songys/AwesomeKorean_Data

Data Preprocessing

+) 한국어 데이터들이 활용하기에 전처리해야될 부분들이 많이 보여 외국어 데이터 번역 후 학습에 사용하려했음. 번역 api가 생각보다 많은 문장을 번역하기에는 부족함.(확실히 바로 사용하기에 좋은 데이터들이 많이 있긴 함.) 결국에는 한국어 데이터를 사용해야함. question answering에서 문단 제거하고 질문-답변 쌍만 꺼내서 이용하는 방법도 생각해봐야 할듯. 아니면 번역기를 만드는건 좀 그런가? 외국인도 사용하는 방향으로?.....

++) 전에 사용되던 대화 데이터들 재검토 중이라 공개 안하는듯. 일단 ai-hub 일반상식, 한국어대화 데이터셋 전처리해서 학습 돌려봐야 할듯.!

Sejong Univ.

세종대 관련 주제 - 세분화

Scoring Methods

정량 / 정성 평가 지표

Other Model

ChatBot

kogpt2 model

이후 해야될 것들

  • chatbot model finetuning -> wandb sweep

Chatbot Structure

스크린샷 2023-03-27 214539

About

2023 캡스톤 챗봇 모델

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published