728x90

gpt2 활용 한국어 언어 생성 모델 (한국어 기반)

 

- 원하는 주제에 맞게 한국어 문장 생성 (by fine tuning)

    이때 주제의 범주는 구체적으로 무엇?

- 학습 대상이 될 텍스트를 여러 개 입력 가능.

- 문제점: 데이터에 무조건 그 단어와 일치하는 단어가 포함되어야 함.

- 대강의 솔루션: 데이터 내 표현을 직접 임베딩해서 유사도 비슷한 것까지 유연하게 활용. 

 

- 활용 라이브러리

1) 허깅페이스의 transformers 라이브러리

https://github.com/huggingface/transformers

- GPT2 모델 클래스인 TFGPT2LMHeadModel 등

2) gluonnlp의 SentencepieceTokenizer & nlp 모듈

https://nlp.gluon.ai/

3) SKT KoGPT2 모델 리소스 기반

 

- 난이도: keytotext < gpt2 < kgpt

 

- 출처: 텐서플로 2와 머신러닝으로 시작하는 자연어 처리

728x90

'AI > NLP' 카테고리의 다른 글

ChatGPT란?  (0) 2022.12.11
[라이브러리] gpt-2-keyword-generation  (1) 2022.04.07

+ Recent posts