728x90
gpt2 활용 한국어 언어 생성 모델 (한국어 기반)
- 원하는 주제에 맞게 한국어 문장 생성 (by fine tuning)
이때 주제의 범주는 구체적으로 무엇?
- 학습 대상이 될 텍스트를 여러 개 입력 가능.
- 문제점: 데이터에 무조건 그 단어와 일치하는 단어가 포함되어야 함.
- 대강의 솔루션: 데이터 내 표현을 직접 임베딩해서 유사도 비슷한 것까지 유연하게 활용.
- 활용 라이브러리
1) 허깅페이스의 transformers 라이브러리
https://github.com/huggingface/transformers
- GPT2 모델 클래스인 TFGPT2LMHeadModel 등
2) gluonnlp의 SentencepieceTokenizer & nlp 모듈
3) SKT KoGPT2 모델 리소스 기반
- 난이도: keytotext < gpt2 < kgpt
- 출처: 텐서플로 2와 머신러닝으로 시작하는 자연어 처리
728x90
'AI > NLP' 카테고리의 다른 글
ChatGPT란? (0) | 2022.12.11 |
---|---|
[라이브러리] gpt-2-keyword-generation (1) | 2022.04.07 |