https://smallpdf.com/kr/pdf-summarizer#r=summarize
AI PDF 요약 도구 | 긴 PDF를 무료로 요약
PDF나 이미지, Word 문서를 업로드하고 몇 초 안에 요약해보세요. 회원 가입이 필요하지 않습니다. 여러 문서를 한번에 업로드하고 스캔한 PDF 문서를 요약해보세요.
smallpdf.com
길이가 달라짐
처리를 할 수 있게 함
청킹
글자들이 실제 사용함에 따라 달라짐
Large Language Model (LLM)
- Text Processing & Fine-tune
예외적인 것
how to chunk 중요
1. 문장부호
나는 ph.d
안녕, 잘 지내?
안녕 / 잘 지내
2,
text processing
LLM 고려사항
총 4가지 고려사항
1. 길어 / 짧아
이해 하는 지, 해석 하는 지
2. 잘 생각해 보기
512 토큰
10k 넘어가는 거
모델 임베딩 하려면
사용자 쿼리 복잡성
길이에 따라서 분절 하기
LAG
중간에 있지
두괄식
최적 사이즈
임베딩
프리퀀시 주제를 원한다면
문맥의 의미 넓히기
free quency
normalization
토큰 의미 단위
정제하는 작업
코퍼스로부터 노이즈 데이터 제거
해 줘야한다
특성을 검사 하고 필터링 작업을 거침
자연어처리 작업 분석을 함에 있어서
한국어로 잘 안 됨
영어로 하기
정제 할 때 영어로 함
불용어 의미 없음
stop word
처리 제거를 한다
토큰들을 선별하는 과정
개관
불용어 처리의 목적은 다음과 같습니다:
1. **의미 있는 정보 추출**: 불용어는 문장에서 자주 등장하지만 의미를 부여하기 어려운 단어들로, 이를 제거함으로써 중요한 정보만을 추출할 수 있습니다.
2. **모델 성능 향상**: 불용어를 제거하면 데이터의 노이즈가 줄어들어 자연어 처리 모델의 학습과 예측 성능이 향상됩니다.
3. **데이터 효율성**: 불필요한 단어를 제거하여 데이터의 크기를 줄이고, 처리 속도를 개선하며, 자원 사용을 최적화할 수 있습니다.
태그, 특수문자 제거
해시태그, 골벵이
정규표현식
장피엠 파이썬
숫자 특수 기호
정규 표현식
대표적으로
클렌징 종류 3번째, 4번째
종류...
제거 해도 됨
ai developer
ai 관련 빈도가 많은 검색어 순으로 콘텐츠 생성
seo 최적화
정규화
강의력.. 어떻게 와닿게
Lean max
Standard
Lobostic (사용 잘 안 함)
수업
model 성능 향상
부추 정구지
뿌리 단어
am, are, is
일단 개념적인 내용 머리에 넣어놓고
다음에 다른 거 ㄱㄱ
줄이고 같은 거
대소문자 통합
소문자면 소문자
대문자 -> 소문자로 변경하면 좋음
시행 단락이나 문서를 표현하면 좋은데
인스타 이미지 사이즈
단위 사고
'개발' 카테고리의 다른 글
database, er-diagram (1) | 2024.12.04 |
---|