짧은 요약 :

정리를 위해 시작해보았습니다.

2021년 10월 21일

버트학습 -> 재무교과서 x(pdf 파일 제공 찾기 어려움) -> KIFRS 기준서 & 해설서 OR KGAAP 기준서 & 해설서

PDF 읽기 -> pdftotext

근데 pip install 이 안 됨..

https://pythonq.com/so/python/362057 사이트 참고

sudo apt-get update sudo apt-get install build-essential libpoppler-cpp-dev pkg-config python-dev

설치 후 install 됨.

사용법: import pdftotext filename = “.pdf” with open(filename, “rb”) as f: pdf = pdftotext.PDF(f)

for page in pdf: print(page)

KIFRS 기준서 다운로드.. 너무 많… bert 모델부터 볼까…

2021년 10월 22일

dataset, tokenizer, data loader 부분 보기

근데 pretrain 내용은 https://beomi.github.io/2020/02/26/Train-BERT-from-scratch-on-colab-TPU-Tensorflow-ver/ 이거 보고 하는 것이 좋은 듯..