반응형 PYTHON15 이론) Transformer 차근차근 이해하기(2) - Input Embedding ▼ 이전글 보기2024.12.18 - [IT/Transformer 공부] - 이론) Transformer 차근차근 이해하기 (1) - 구조 익히기 이론) Transformer 차근차근 이해하기 (1) - 구조 익히기Transformer를 안다 라고 자신있게 얘기 할 수 있도록Transformer의 모든 단계를 이해하고싶어서 각 단계를 차근차근 살펴보고 왜 이런 작업을 하는지, 어떤 계산을 하는지 알아볼 것이다. 깊게 들어dongdu-blog.tistory.com위 글에서 대략적인 구조를 확인 할 수 있다. 1. Transformer의 구조이번 게시글에서는 이 그림에서 첫번째 단계인 Input Embedding에 대해서 설명하도록 하겠다. 2. Embedding이란사람이 쓰는 단어, 이미지 등을 기계.. 2024. 12. 23. 이론) Transformer 차근차근 이해하기 (1) - 구조 익히기 Transformer를 안다 라고 자신있게 얘기 할 수 있도록Transformer의 모든 단계를 이해하고싶어서 각 단계를 차근차근 살펴보고 왜 이런 작업을 하는지, 어떤 계산을 하는지 알아볼 것이다. 깊게 들어가기 앞서서 이번 게시글에는 정말 간단하게 초보자의 시선에서 본Transformer의 구조를 살펴볼 것이다. 1. Transformer의 구조 제일 쉽게 볼 수 있는 Transformer 구조도이다.자세한건 모르더라도 화살표를 통해 간단하게 파악해보자. 왼쪽 부분에서는 Input데이터를 받아 각종 단계를 거쳐 오른쪽으로 넘겨준다오른쪽 부분에서는 Output데이터와 왼쪽으로부터 받은 데이터를 가지고각종 단계를 거쳐 최종 확률을 만들어낸다고 해석할 수 있겠다. 위 과정을 데이터 용어로 치환해보면 입력.. 2024. 12. 18. [데이터 전처리] 크기가 큰 csv파일 One hot encoding 시 메모리 부족 회피하는법 크기가 큰 csv를 처리하다가 자꾸 메모리가 터져서이거 문제 해결에만 약 3주를 버렸다.뭘 해도 터지는데 인터넷에 따로 해결 방법이 안나와서진짜 멘탈 다터지고 그냥 사람아닌 짐승 상태로 지냈었다... 지금은 일정부분 해결해서.. 이 방법을 공유하고자 한다.1차원적으로 접근해서 어려운 방법은 아니지만 좀 번거로울 수 있는 방법이다.. 1. 데이터 설명내 데이터는 약 20GB의 데이터, 1억건 이상의 row와 20개 이상의 컬럼을 가지고있는 데이터이다.코드 값을 가지고있어 one hot encoding을 해줘야 한다. (컬럼 증가 가능성 有) 2. 문제 상황one hot encoding이 필요한 컬럼은 2개이다.2개의 컬럼에 대해서 encoding을 진행하니 컬럼이 12개가 되었다. 10개가 증가했.. 2024. 11. 29. [기상 데이터] LCC 투영법 (1) - LCC 투영법 기반 격자 데이터에서 위경도 구하기 (LCC 격자 <-> 위경도 변환) 업무를 하다가 LCC 투영법을 적용한 격자 데이터를 접하게 됐는데데이터가 제대로 잘 들어가있는지? 시각화를 해 볼 필요가 있었다. 근데 지도처럼 그리려면 보통 위경도 데이터가 있어야하는데LCC 기반 데이터는 인덱스나 컬럼명에 1부터 차례대로 숫자가 들어가 있는 격자 데이터이다. 따라서 LCC 기반 데이터는 데이터만 있다고 해서 시각화 할 수 없다.데이터의 포맷 정보가 필요하다. 1. 데이터 포맷 정보 예를 들면 위와 같다.데이터를 제공하는 곳에서 기본적으로 기준 위경도와 기준 격자점 정보가 있어야LCC 격자를 위경도로 변환할 수 있다. 단순 격자에서 어느지점을 기준으로 격자화 했는지 파악 후해당 지점을 기준으로 위경도 좌표화를 진행할 수 있다. 위 데이터는 기상청 API허브에서 제공해주는 포맷 정보다... 2024. 11. 20. [전처리] MaskedArray + np.where (np.ma.where) 좌표 데이터를 다루는 도중에 이해가 잘 안가는 부분을 발견해서 정리하려고한다.NetCDF 파일을 열어 데이터를 가져와서 nan 처리하다가 생각과는 다른 결과가 나왔던 코드이다. 1. 상황netCDF의 특정 값만 가지고 와서 np.where로 결측치 처리를 일괄로 수행하려고 했으나 오류 발생(나는 3차원 데이터였지만 차원이랑 전혀 상관없음) 2. 코드import netCDF4 import Datasetimport numpy as npdata = Dataset(yourFilePath)#특정 값만 사용data_value = data[yourValue][:]# 값 변경 전에 print (2차원이면 data_value[0,0])print(data_value[0,0,0])#결측 값으로 표시해둔 것들을(-9990.. 2024. 11. 12. 이전 1 2 3 다음 반응형