개요 Linux상에서 활용되는 파일 전송 방법들에 대해서 다뤄보겠습니다. 개념 FTP 인터넷에서 파일 전송을 위해 가장 일반적으로 사용되는 프로토콜 중 하나입니다. FTP는 파일 전송을 위해 TCP/IP 프로토콜을 사용하며, 전송 중에 데이터를 암호화하지 않습니다. SFTP SSH에서 동작하는 FTP라고 이해하면 안되고 국제 인터넷 표준화 기구(IETF) SECSH 워킹 그룹에 의해 처음부터 설계된 새로운 프로토콜이다. SSH를 기반으로하며, 데이터 전송 중에 암호화를 사용하여 보안성을 향상시킵니다. 또한 SFTP는 공개키 및 대칭키 암호화를 사용하여 사용자 인증 및 데이터 보호를 제공하고 SCP에 비해 포괄적으로 파일 전송 및 관리가 가능하다. SCP SSH를 기반으로하며, 데이터 전송 중에 암호화를 ..
이번 시간에는 네이버 클라우드 플랫폼인 NCP에서 TensorFlow 서버를 생성하는 방법을 알아보려고 한다. 이를 통해 클라우드 환경에서 프로젝트에서 활용했던 예측모델을 구현해보려고 한다. 서버 생성 먼저 아래 링크를 통해 NCP로 이동해 콘솔을 클릭해 줍니다(회원가입이 안되어 있을경우 진행해 줍니다) https://www.ncloud.com/ 리전을 한국(본인의 지역)으로 설정합니다. Platform을 VPC로 설정합니다(기존 고객의 데이터센터 네트워크와 유사한 구현이 가능하므로 선택했습니다) Services > Compute > Server를 선택합니다. 서버 생성을 클릭합니다. 본인의 사용 목적에 따라 디스크 크기, 서버타입을 선택하고 나머지는 표시된대로 설정합니다. 서버 설정을 진행해 줍니다. ..
이번 시간에는 Spark의 정형화 API에 대해 다루어보고 그 과정에서 여러가지 문법들도 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 03장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 사용환경 Google Cola..
이번 시간에는 Google Colab상에서 Spark를 실행하는 방법을 알아보려고 한다. 교재구매 블로그 내용은 해당 교재의 내용을 기반으로 한다. 사용될 데이터셋은 해당 교재의 깃허브 저장소에서 다운 받는다. 이번 시간에는 chapter 02장을 살펴볼 것이다. https://github.com/databricks/LearningSparkV2 https://www.yes24.com/Product/Goods/21667835 러닝 스파크 - 예스24 창시자와 커미터가 직접 저술한 스파크 입문서로 스파크를 만든 사람들이 쓴 이 책은 데이터 과학자들이나 엔지니어들이 곧바로 스파크를 쓸 수 있게 해 줄 것이다. 이 책을 통해 병렬 작업들을 www.yes24.com 구글 드라이브 연동 먼저 구글 드라이브를 연동해..
저번 글에서 정규성과 등분산성의 불만족으로 통계분석 파트에서는 종속변수를 범주형 데이터로 분할하여 로지스틱 회귀분석을 진행하기로 결론을 내렸다. 이번 글에서는 로지스틱 회귀 분석을 진행하며 겪었던 고찰과정을 적어보려고 한다. Data leakage 정의 및 방지책 학습 데이터와 테스트 데이터를 나누어 모델을 학습시킬 때 데이터가 유출되어 학습 데이터 외의 정보로 모델이 학습되는 것을 Data leakage라고 합니다. 이로 인해 모델의 성능지표가 왜곡되어 나타나고 모델의 일반화가 저하되어 실제 현장에서 사용될 때 문제가 생길 수 있습니다. 이러한 오류를 방지하기 위해서는 학습 데이터에 모델을 활용하여 예측할 시점에 해당 정보를 사용할 수 있는지 점검한 상태에서 1번과 2번 방법을 통해 Data leaka..
이번 글에서는 VS Code로 AWS의 EC2에 접속하는 방법을 작성해보겠습니다. 본문에서 언급하는 계정과 IP주소는 AWS에서의 계정과 IP주소를 의미합니다. Remote SSH 왼쪽 사이드바의 Extensions에서 Remote - SSH 검색한 뒤 설치해줍니다. 왼쪽 사이드바의 Remote Explorer를 클릭하면 아래와 같이 되고, +를 클릭한 뒤 SSH에 연결할 호스트를 입력해 줍니다. ssh [계정]@[ip주소] Open SSH Config File을 클릭한 뒤 맨위의 /.ssh/config로 끝나는 경로를 선택한다. 설정 config 파일에서 아래의 요소들을 본인의 상황에 맞게 수정한 뒤 alt+S로 저장 후 VS Code를 재실행 해준다. Host : 주소이름, 변경 가능 HostName..
이번 글에서는 아마존 AWS 서버에 접속하고 가상환경을 통해 코드를 실행하는 방법을 작성해보겠습니다. 1. AWS 서버 실행 먼저 아래의 링크로 접속해 로그인을 해줍니다. 이를 위한 AWS계정은 미리 구비되어 있어야 합니다. https://console.aws.amazon.com/console/home 로그인 후에 우측 상단의 지역정보를 오사카로 변경해줍니다. 변경 후, 검색창에 EC2를 검색하여 클릭해 줍니다. 그 후 화면 중앙에 보이는 인스턴스를 클릭하여 이동해 줍니다. 실행시키길 원하는 서버를 마우스 우클릭하고, 인스턴스 시작을 해줍니다. 최종확인을 위해 우측 상단의 새로고침을 클릭하여 인스턴스 상태가 실행중인지 확인합니다. 2. 서버 접속 원격으로 서버에 접속하기 위해 PuTTY를 활용하겠습니다...
이번 시간에는 마케팅에서 주로 활용되는 코호트 분석과 RFM을 SQL을 통해 알아보려고 한다. 교재 구매 아래 교재내용을 토대로 진행하겠습니다. 기본 DB설정은 교재의 내용을 참고하시기 바랍니다. https://www.yes24.com/Product/Goods/86544423 SQL로 맛보는 데이터 전처리 분석 - 예스24 SQL을 이용하여 현업에서 자주 사용되는 KPI 지표를 직접 추출해본다데이터 분석을 하기 위해서는 데이터베이스에 존재하는 데이터를 직접 추출할 수 있어야 한다. SQL은 우리가 데이터베이스에 www.yes24.com 코호트 분석 코호트 분석이란 사용자를 공통된 특성을 가진 그룹으로 나누고 시간 흐름에 따른 사용자 행동을 수치화해 분석하는 기법을 말한다. 이때 주로 리텐션, 구매 패턴,..