본문 바로가기

NLP15

[NLP] BERT+ Fine-tuning, KoBERT - 실습 TPU 사용하기 위한 환경설정 참고 링크 : https://wikidocs.net/119990 18-01 코랩(Colab)에서 TPU 사용하기 지금까지는 GPU 사용만으로도 모델을 학습하는데 큰 무리가 없었지만, BERT의 경우 지금까지 사용한 모델보다 무거운 편입니다. 다시 말해 학습 속도가 상대적으로 느린 편입니다.… wikidocs.net # TPU 초기화 import tensorflow as tf import os resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='grpc://' + os.environ['COLAB_TPU_ADDR']) tf.config.experimental_connect_to_cluster(resolver) t.. 2023. 8. 23.
[NLP] Transformer, BERT - 실습 Transformer -> BERT/GPT pip install transformers import pandas as pd from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # Bert-base의 토크나이저 result = tokenizer.tokenize('Here is the sentence I want embeddings for.') print(result) #embeddings가 없는 단어라 #-> 기존 단어 집합을 기준으로 쪼개기 = 'em', '##bed', '##ding', '##s' print(tokenizer.vocab['here']) #2182 #이 단어는.. 2023. 8. 10.
[NLP] BERT BERT 링크: https://bard.google.com/ ‎Google의 AI 실험 버전인 Bard 사용해 보기 Bard는 창의적이고 유용한 파트너로서, 상상력을 마음껏 발휘하고 생산성을 높이며 아이디어를 실현하도록 도와줍니다. bard.google.com 1. 사전 훈련된 언어 모델 대규모 데이터로 사전에 이미 만들어두는 것 데이터가 조금 있다면 사전 훈련된 언어 모델을 사용해 모델의 성능을 금방 높일 수 있음. 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고 -> 파인튜닝 임베딩 층(Embedding layer)을 랜덤 초기화하여 처음부터 학습.. 2023. 8. 9.
[NLP] Seq2Seq - 실습 Seq2Seq + 문자 단위로 번역 seq2seq : 챗봇, 번역기, 내용 요약, 음성 -> 텍스트 or 이미지 => CNN => 상황 분류 seq2seq 참고: https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html A ten-minute introduction to sequence-to-sequence learning in Keras Fri 29 September 2017 By Francois Chollet In Tutorials. Note: this post is from 2017. See this tutorial for an up-to-date version of the code us.. 2023. 8. 8.