본문 바로가기

데이터분석/크롤링9

파이썬 퀀트투자(7): 재무제표 크롤링, 적재 주가와 더불어 재무제표와 가치지표 역시 투자에 있어 핵심이 되는 데이터입니다. 이번에는 가치지표를 계산하기 위한 재무제표를 데이터를 크롤링해보겠습니다. 전편: 파이썬 퀀트투자(6): 네이버금융 수정주가 크롤링, 적재 재무제표 데이터는 여러 웹사이트에서 구할 수 있으며, 국내 데이터 제공업체인 FnGuide에서 운영하는 Company Guide 웹사이트에서 손쉽게 구할 수 있습니다.http://comp.fnguide.com/  재무제표 다운로드사이트를 접속해보면, URL이 아래와 같은 걸 알 수 있습니다. 여기서 A005930 뒤에있는 부분은 제거해도 되는 부분입니다. http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A005930&cID=&Me.. 2024. 10. 12.
파이썬 퀀트투자(6): 네이버금융 수정주가 크롤링, 적재 주가 데이터는 투자를 함에 있어 반드시 필요한 데이터입니다. 인터넷에서 주가를 수집할 수 있는 방법은 매우 많지만, 퀀트 투자를 위한 백테스트나 종목선정을 위해서는 수정주가가 필요합니다. 그래서 이 글에서는 일반적인 주가가 아닌 수정주가 크롤링 방법을 알아보겠습니다. 전편: 파이썬 퀀트투자(5): WICS 기준 섹터정보 크롤링, 적재 수정주가가 필요한 이유를 알아보기 위해 실제 사례를 살펴보겠습니다. 삼성전자는 2018년 5월 기존의 1주를 50주로 나누는 액면분할을 실시했고, 265만 원이던 주가는 다음날 50분의 1인 5만 3000원으로 거래되었습니다. 이러한 이벤트를 고려하지 않고 주가만 살펴본다면 마치 -98% 수익률을 기록한 것 같지만, 투자자 입장에서는 1주이던 주식이 50주로 늘어났기 때문에.. 2024. 10. 12.
파이썬 퀀트투자(5): WICS 기준 섹터정보 크롤링, 적재 일반적으로 주식의 섹터를 나누는 기준은 MSCI와 S&P가 개발한 GICS를 가장 많이 사용합니다. 국내 종목의 GICS 기준 정보 역시 한국거래소에서 제공하고 있으나, 이는 독점적 지적재산으로 명시했기에 사용하는데 무리가 있습니다. 그러나 지수제공업체인 FnGuide Index에서는 GICS와 비슷한 WICS 산업분류를 발표하고 있습니다. 그래서 WICS를 크롤링하여 필요한 정보를 수집해보겠습니다. 전편: 파이썬 퀀트투자(4): 한국거래소 데이터 Mysql에 적재 1. wiseindex 사이트에서 섹터 정보 크롤링http://www.wiseindex.com/Index 먼저 웹페이지에 접속해 왼쪽에서 [WISE SECTOR INDEX → WICS → 에너지]를 클릭합니다. 그 후 [Components] .. 2024. 10. 12.
파이썬 퀀트투자(3): 한국거래소 개별종목 지표 크롤링 앞서 한국거래소의 업종 분류 현황을 크롤링하는 방법에 대해서 알아보았습니다. 이번에는 한국거래소의 개별종목 지표 크롤링하는 방법에 대해서 알아보겠습니다.KRX 정보데이터시스템 http://data.krx.co.kr/ 에서 [기본통계 → 주식 → 세부안내] 부분[12021] PER/PBR/배당수익률(개별종목): http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020502 개별종목 데이터를 크롤링하는 방법은 앞서 살펴본 방법과 매우 유사하며, 요청하는 쿼리 값에만 차이가 있습니다.    이번에도 역시 사이트에서 CSV파일을 다운로드 받은 후, generate.cmd를 클릭하여 Payload를 확인합니다.  여기서 'tboxis.. 2024. 10. 9.
파이썬 퀀트투자(2): 한국거래소 업종 분류 현황 크롤링 주식 관련 데이터를 구하기 위해 가장 먼저 해야할 일은 어떤 종목들이 해당 국가 거래소에 상장되어있는가에 대한 정보를 구하는 것입니다. 우리나의 경우, 한국거래소에서 제공하는 업종분류 형황과 개별종목 지표 데이터를 이용하면, 매우 간단하게 해당 정보를 수집할 수 있습니다. 전편: 파이썬 퀀트투자(1): 최근 영업일 기준 데이터 크롤링 여기서는 먼저 업종분류 현황 데이터를 수집하는 방법을 다뤄보겠습니다. KRX 정보데이터시스템 http://data.krx.co.kr/ 에서 [기본통계 → 주식 → 세부안내] 부분[12025] 업종분류 현황: http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020506먼저 사이트에 접속한 뒤, .. 2024. 10. 9.
파이썬 퀀트투자(1): 최근 영업일 기준 데이터 크롤링 파이썬 퀀트투자 시리즈는 '헨리의 퀀트대학' 유튜브 및 깃허브를 운영하는 이현열 작가님의 코딩과 그리고 '할 수 있다! 알고 투자' 유튜브 채널을 운영하는 강환국 작가님의 (한국)성장 가치, 소형주 전략을 합쳐서 제작하게 된 시리즈입니다.  (한국)성장 가치, 소형주 전략은 아래와 같은 비중으로 투자하는 전략입니다. 미국 주식의 경우 켄 피셔 대형주 전략을 쓰지 않고, S&P500에만 투자해도 백테스트 결과 크게 차이가 없는걸로 나타났습니다. 그래서 여기서는 (미국)켄 피셔 대형주 전략은 제외할 예정입니다.   이 전략으로 한달에 한 번씩 한국의 성장 가치, 소형주 종목을 20개 선정하고, 매달 비율에 맞춰서 리벨런싱 하는 과정까지 진행해보겠습니다. 최근 영업일 기준 데이터 크롤링네이버 금융의 [국내증시.. 2024. 10. 9.
BeautifulSoup을 이용한 정적 크롤링 개념 정리 및 실습 해당 글에서는 BeautifulSoup을 사용해서 정적 크롤링을 하는 방법에 대해서 알아본다. 크롤링 실습을 하기 전에 기본적인 웹 동작 원리에 대해서 알아야 하기 때문에 이론 적인 부분 먼저 설명한다. 대표적인 get과 post 방식 크롤링을 실습한다. 웹 동작 원리 크롤링은 웹사이트의 정보를 수집하는 과정이다. 따라서 웹이 어떻게 동작하는지 이해할 필요가 있다. 클라이언트란 데스크톱이나 휴대폰과 같은 장치이다. 혹은 크롬이나 파이어폭스와 같은 소프트웨어를 의미한다. 서버는 웹사이트와 앱을 저장하는 컴퓨터를 의미한다. 클라이언트가 특정 정보를 요구하는 과정을 요청(Request)이라고 하며, 서버가 해당 정보를 제공하는 과정을 응답(Response)이라고 한다. 클라이언트와 서버가 연결되어있지 않다면 .. 2024. 3. 15.
파이썬 웹 크롤링 환경세팅(VScode, miniconda, selenium) 및 예시코드 이 글에서는 크롤링을 위한 VScode, miniconda 환경 세팅부터 Selenium, ChromDriver 자동관리 라이브러리 설치 방법까지 알아볼 것이다. 또한, 실습이 가능하도록 실제로 구글 스토어 댓글을 크롤링하는 코드를 제공한다. 파이썬 코딩을 할 때, 흔히 사용하는 Colab은 크롤링이 실제로 동작하는지 볼 수 없다. 반면 VScode에서는 이를 확인할 수 있다.다만 VScode에서는 .ipynb파일을 실행하려면 파이썬 에디터인 Jupyter Notebook이 필요하다. miniconda는 Jupyter Notebook과 파이썬에서 필요한 최소한의 라이브버리들, 그리고 가상환경을 관리할 수 있게 만들어진 툴이다. 따라서 환경세팅을 위해 VScode와 miniconda를 먼저 다운로드 받아야.. 2023. 12. 10.
Selenium 모듈 설치 및 크롤링 환경세팅 Selenium 모듈 설치(feat. Visual Studio Code)1. Visual Studio Code 최신버전 설치 후, 실행2. Open Folser 클릭 -> C드라이브에서 본이만의 폴더 생성3. 왼쪽 Extantion 메뉴에서 "Python" 검색 후, 확장팩 설치4. 다시 Explorer로 돌아와 New File 클릭해서 파일 생성후, .py 파일로 변환5. 상단 Workspace에서 Show and Run Commands 클릭 후, Python: Select Interpreter 선택6. .py 파일 왼쪽 클릭 후, Open in integrated terminal 클릭7. pip install selenium 입력하여, 모듈 설치8. "chrome://settings/help" 를 입.. 2023. 4. 19.