본문 바로가기

DATA SCIENCE/Study

(21)
linux 환경 하, 여러 deb package 설치 방법 PYTHON의 경우, 아래의 코드를 통해 여러 패키지들을 설치 가능하다. pip install -r requirements.txt 물론 requirements.txt를 채워놔야 하며, 줄띄우기로 각 패키지를 분리&구분한다. 그 세부내용은 다음과 같다. 간단히 말해 pip install 이후에 나오는 내용을 정리해서 적어놓으면 되는 것으로 제일 아래와 같이 버전 지정 후 한 번에 설치가 가능하다. 일반적으로 가상 환경을 구성한 후, 프로젝트 진행 및 종료 이후 pip freeze를 통해 사용한 패키지와 버전을 한 번에 관리&출력해 사용하곤 한다. 이렇게 파이썬 패키지들을 한 번에 설치, 관리할 수는 있었지만 linux 환경에서는 어떻게 설치할 수 있을까? 실제로 여러 데비안 패키지들을 설치해야 하는 경우가..
Node.js 특정 버전 설치 & Node-RED 설치(WSL2, Ubuntu-20.04) Node-RED를 설치하는 와중 WSL2, Ubuntu-20.04 환경에서 제대로 설치가 되지 않는 문제가 발생했다. 정확히는 다음과 같은 코드가 출력되며 한참을 멈춰있고, --verbose 옵션을 통해 진행상황을 살펴봐도 오랜 시간이 걸리다가 결국 에러를 내며 종료된다. idealtree:lib: sill idealtree builddeps in most cases you are behind a proxy or have bad network settings 마치 네트워크 문제나 proxy 문제라 생각되어 해당 부분을 건드리거나 체크해봤고(proxy 설정), 그 외에도 다음과 같은 방법으로 registry를 설정하기도 해봤으나 정상작동하지 않았다. 다만 추후 다른 에러를 방지하기 위해 필요하니 레지스트리..
error executing command, exiting sudo curl -sL | sudo -E bash - 진행하고자 했던 작업은 nodejs의 특정 버전, 정확히는 홈페이지에서 recommended되어 있는 nodejs 14.x 버전을 설치하고자 위의 작업을 수행하던 중 아래와 같은 에러가 발생했다 the repository 'http://developer.download.nvidia.com/compute/machine-learning/repos//x86_64 release' does not have a release file. error executing command, exiting 처음에는 경로가 잘못 지정되어 있어(위의 저 주소로 가면 404 not found가 나온다) 내 문제가 아닌가 싶기도 했었지만(실제로 과거 이와 유사한 문제는 자체적으로..
docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? docker를 처음 시작하는 단계에서 발생할 수 있는 문제다. 위와 같은 에러가 발생한 이유는 docker가 실행 중이지 않은 상태이기 때문인데, 아래의 두 가지 방법 중 하나로 해결할 수 있다. $ sudo systemctl status docker $ sudo systemctl start docker $ sudo systemctl enable docker $ sudo dockerd 이후 다른 터미널을 켜서 docker 실행 나의 경우엔 첫 번째 방법으로 해결하지 못했으나, 두 번째 방법을 통해 하나의 ubuntu에서 위의 코드를 통해 docker를 켜놓고 다른 ubuntu를 통해 작동시킬 수 있었다.
Error: failed to download version index Windows11, WSL2, Ubuntu-20.04 환경에서 Node-RED를 설치하던 중 다음과 같은 에러를 만났다. Error: failed to download version index 라는 에러인데, 구글링을 통해 확인해보니 여러 Ubuntu 버전에서 발생하는 문제이고, 명확한 해결방법은 없는 것처럼 보였지...만! 생각보다 해결방법은 어렵지 않았다. wsl 자체를 껐다키기를 반복하며 캐시를 지우는 등 일련의 과정을 반복하면 조금씩 진행되는 것을 확인했다. 아직 명확한 해결책이 나오지는 않은 상태인 것 같으나, 이 방법으로 생각보다 쉽게 해결되어 공유.
윈도우11 WSL2 default setting - 1(linux 버전 확인) 최근 윈도우11 환경 하에서 WSL2를 이용해 여러 작업을 진행하고 있습니다. 다만 아무래도 Linux나 Ubuntu 등을 사용해오지 않아 여러모로 어색한 점이 많고, 윈도우11 환경과 WSL2라는 툴이 최근에 나와서인지 구글링 등으로도 답을 찾기 쉽지 않아 차차 작성해나갈 생각입니다. 오늘은 윈도우11과 WSL2, 그리고 Microsoft Store에서 Ubuntu 등을 설치해서 진행했다는 가정 하에 기본적인 WSL2 조작법을 배워보고자 합니다. 배워볼 것은 다음과 같습니다. 1. WSL2에 설치된 linux 버전 등 확인 2. WSL2에 설치된 linux default setting 변경(기본값 변경) 3. WSL2에 설치되 linux 버전 해제 4. WSL2 단축키 5. WSL2 완전종료(중요!) ..
자체 Study RoadMap # 배경 최근의 이직과 관련해 추가적인 학습 등이 필요하다는 것을 파악하였음. 구체적으로 컴퓨터 공학적인 부분, 수학통계적 능력, 알고리즘 이해도가 있었음. 비전공자이기에 최대한 많은 것들을 접하고, 얕게라도 건드려 보고자 하였던 기존의 전략은 나쁘지 않았으나, 이제는 좀 더 하나씩 주제를 바꿔가며 깊이를 더해갈때라고 판단. # 기존의 노력(주 평균 15h 이상) 1. 매달 최소 1~2권의 관련 도서를 읽고, 소화해내고자 하였고 2. 알고리즘 스터디를 위해 매주 월요일 코딩 테스트 문제를 풀었으며 3. 페이퍼 소화 능력을 위해 자체적인 프로젝트를 기획, 구현하거나 관련 강의를 수강(Yolo 모델 구현) 4. 연 최소 한 개 이상의 관련 자격증 취득 및 공부 5. 반기별 한 개 이상의 공모전 취득
Apache Spark 시작하기 01. 배경 : 데이터를 수집해서 처리하는 과정에서 수십만 단위 이상의 작업을 반복적으로 처리하는 과정에서 기존의 로컬 환경 하에서 작업 속도가 지연되거나, 아예 실행되지 않는 문제 발생. 또한 데이터 사이언티스트로서의 장기적인 성장을 위해 클라우드 환경 및 Hadoop, Spark를 이용한 데이터 작업이 필수적이라 판단. 02. 과정 1. 처음부터 환경설정 및 세팅에 시간이 소요되면, 무언가를 배우는데 가장 필수적인 '재미' 요소를 쉽게 잃을 수 있기에 기본적인 환경설정이 되어있는 colab 환경과 무료 강의를 통해 시작. 강의는 바로 이것. 2. 이후에는 신간 중 가장 목적에 부합해보이는 '스파크를 이용한 자연어처리' 책을 구입해 따라해보기 시작. 하지만 굳이 책을 사지 않더라도 해당 역자의 깃허브(..
빅분기 실기 시험 리뷰 [ 요약 ] 1. 어렵진 않았음 2. 알든 모르든 그리 오래 걸리진 않을듯 3. 작업유형1은 실질적으로 pandas 이용한 데이터 조작 및 통계 문제 4. 작업유형2(머신러닝 문제)는 Random forest랑 xgb만 알고 앙상블 충분할듯 - 요청시 관련 코드 업로드 [주관식 답] (순서 무관, 정답 아닐 수 있음, 제가 쓴 답) 1. 이상치 2. 부스팅 3. ROC 곡선 4. GBM(GRADIENT BOOSTING MACHINE) 5. 하이퍼파라미터 6. 후진제거법 7. 단순대치법 8. 비지도학습 9. 과적합(과대적합) 10. 인공신경망 해석 문제로 최종 노드값과 가중치, 편향을 수치로 주어주고 푸는 문제 -1이라고 쓴 거 같음. 네이버 카페에서 리뷰 이벤트로 받은 예문사 2021 빅데이터 분석기사 ..
머신러닝 관련 기초지식 : epoch / batch_size / iteration / dataset # 머신러닝 관련 batch_size/iteration/epoch와의 관계 1,000개의 데이터로 이루어진 데이터셋이 있다고 했을 때 이를 100개의 batch_size로 묶는다면 10번의 iteration이 일어나야 한 번의 epoch가 가능. 사전적으로 epoch는 모든 데이터셋이 학습에 사용되었는지를 따지는 것이고, iteration은 하나의 epoch 안에서 지정된 batch_size별로 한 번의 데이터셋이 몇 번의 사이클을 통해 완성되었는지를 따지게 된다. 따라서 1 epoch : iteration * batch_size = Amounts of Data 라고 할 수 있으며, 만약 배치 사이즈를 1,000개의 데이터와 같은 숫자인 1,000으로 지정한다면, iteration과 epoch는 같아지게..