개발

언어지능의 이해 3강

journal9205 2024. 9. 26. 09:50

https://smallpdf.com/kr/pdf-summarizer#r=summarize

 

AI PDF 요약 도구 | 긴 PDF를 무료로 요약

PDF나 이미지, Word 문서를 업로드하고 몇 초 안에 요약해보세요. 회원 가입이 필요하지 않습니다. 여러 문서를 한번에 업로드하고 스캔한 PDF 문서를 요약해보세요.

smallpdf.com

 

길이가 달라짐

처리를 할 수 있게 함

청킹

 

글자들이 실제 사용함에 따라 달라짐

 

Large Language Model (LLM)
- Text Processing & Fine-tune

 

예외적인 것


how to chunk 중요

 

1. 문장부호

 

나는 ph.d

 

안녕, 잘 지내?

안녕 / 잘 지내

 

2, 

 

text processing

LLM 고려사항

총 4가지 고려사항 

 

1. 길어 / 짧아

이해 하는 지, 해석 하는 지

 

2. 잘 생각해 보기


512 토큰

10k 넘어가는 거

모델 임베딩 하려면

 

사용자 쿼리 복잡성

길이에 따라서 분절 하기

 

LAG
중간에 있지

 

두괄식

최적 사이즈


임베딩

프리퀀시 주제를 원한다면

문맥의 의미 넓히기

 

free quency

normalization

토큰 의미 단위

 

정제하는 작업

코퍼스로부터 노이즈 데이터 제거

 

해 줘야한다


특성을 검사 하고 필터링 작업을 거침

자연어처리 작업 분석을 함에 있어서

 

한국어로 잘 안 됨

영어로 하기

정제 할 때 영어로 함

 

불용어 의미 없음

stop word

 

처리 제거를 한다

토큰들을 선별하는 과정

 

개관


불용어 처리의 목적은 다음과 같습니다:

1. **의미 있는 정보 추출**: 불용어는 문장에서 자주 등장하지만 의미를 부여하기 어려운 단어들로, 이를 제거함으로써 중요한 정보만을 추출할 수 있습니다.
2. **모델 성능 향상**: 불용어를 제거하면 데이터의 노이즈가 줄어들어 자연어 처리 모델의 학습과 예측 성능이 향상됩니다.
3. **데이터 효율성**: 불필요한 단어를 제거하여 데이터의 크기를 줄이고, 처리 속도를 개선하며, 자원 사용을 최적화할 수 있습니다.

 


태그, 특수문자 제거

해시태그, 골벵이

 

정규표현식

장피엠 파이썬

 

숫자 특수 기호

정규 표현식

 

대표적으로 

클렌징 종류 3번째, 4번째

종류... 


제거 해도 됨

ai developer

 

ai 관련 빈도가 많은 검색어 순으로 콘텐츠 생성

seo 최적화

 

정규화

강의력.. 어떻게 와닿게 

 

Lean max

Standard

Lobostic (사용 잘 안 함)

 


수업 

model 성능 향상

 

부추 정구지

뿌리 단어

 

am, are, is

일단 개념적인 내용 머리에 넣어놓고

다음에 다른 거 ㄱㄱ

 

줄이고 같은 거 

대소문자 통합

소문자면 소문자

 

대문자 -> 소문자로 변경하면 좋음

 

 

시행 단락이나 문서를 표현하면 좋은데


인스타 이미지 사이즈

단위 사고

 

'개발' 카테고리의 다른 글

database, er-diagram  (1) 2024.12.04