Python

    [Selenium]셀레니움 크롤링 기본 사용법 최신버전 - python

    셀레니움 셀레니움은 python의 크롤링 패키지로써 동적 웹 크롤링을 하기 위한 훌륭한 라이브러리이다. 셀레니움은 파이어폭스, 인터넷 익스플로어, 크롬등과 같은 브라우저를 컨트롤 할 수 있게 해준다. 현재 파이썬 3.5 이상부터 지원되며 3.6 이상 버전부터 pip 표준 라이브러리로 사용 할 수 있다. 셀레니움 공식문서 https://www.selenium.dev/selenium/docs/api/py/webdriver_remote/selenium.webdriver.remote.webelement.html 라이브러리 설치 pip install selenium 드라이버 버전확인 및 설치- driver 셀레니움으로 웹페이지를 open하려면 해당 웹 드라이버 설치가 필요하다. 먼저 본인의 크롬 버전을 확인하고 ..

    [Python] 데코레이터 제대로 알고 사용하기

    파이썬은 데코레이터(decorator)라는 기능을 제공한다. 데코레이터는 장식하다, 꾸미다라는 뜻의 decorate에 er(or)을 붙인 말인데 장식하는 도구 정도로 설명할 수 있다. 파이썬에서 데코레이터는 함수를 받아 명령을 추가한 뒤 이를 다시 함수의 형태로 반환하는 함수이다. 함수의 내부를 수정하지 않고 기능에 변화를 주고 싶을 때 사용한다. 데코레이터를 이용해, 반복을 줄이고 메소드나 함수의 책임을 확장한다. 자바, 파이썬 객체지향형 언어의 클래스에서 메서드를 만들 때 @staticmethod, @classmethod, @abstractmethod 등을 붙였는데, 이렇게 @로 시작하는 것들이 데코레이터이다. @데코레이터 사용하기 데코레이터 사용을 위한 예제코드 def Hello(): print('..

    [colab] 코랩에서 pandas로 데이터 불러오기(csv,json)

    pandas로 데이터 불러오기 코랩으로 데이터분석이나 인공지능을 하기 위해서는 데이터 불러오는 것이 제일 먼저해야하는 작업이다. 이번 글에는 csv,json파일을 불러오는 방법에 대해서 소개한다. 파이썬을 통해 데이터 분석이나 인공지능을 작업할 때 pandas를 빼놓고 이야기할 수 없다. 코랩에서 pandas를 통해 데이터를 불러오는 방법을 알아보자 데이터 예시데이터는 코랩에 내장되어있는 데이터를 활용한다. 코랩 sample폴더에 json, csv파일이 들어있다. 경로 : content/sample 1. csv 파일 불러오기(read_csv) data_path : /content/sample_data/california_housing_test.csv import pandas as pd df_csv = p..

    pandas기초 _ 데이터 전처리(합치기(concat, merge), Groupby)

    ◎ pandas로 데이터 합치기 우리가 효과적인 데이터 분석을 하기 위해서는 여러개의 파일을 하나로 합치는 것이 필요하다. pd.concat() -> concatenate pd.merge -> Merge ▷ Concat(concatenate) concat은 '더한다' 혹은 '붙인다'라는 의미로 생각하면 이해가 편하다. 예를 들어, 2개의 문자열을 + 연산자를 이용해 "붙일" 수 있다. data.frame도 열이나 행을 기준으로 더할 수 있습니다. 간단한 예시를 보자. 인덱스가 같은경우 열방향의 병합이 default(행방향으로 하려면 axis=1 옵션추가 import pandas as pd df1 = pd.DataFrame([['A', 'B'], ['C', 'D'],columns=list('1','2'))..

    pandas기초 _ Feature Engineering(String replace, Apply 사용법)

    ◎ Feature Engineering이란 Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것이다. 위 그림처럼 2개의 feature를 가진 데이터가 있다면, 해당 feature를 조합하여 (+) 새로운 feature를 만들어 낸 다음, 이를 분석에 사용 할 수 있을 것이다. 통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지 대부분의 분석은 데이터에 있는 패턴을 인식하고, 해당 패턴들을 바탕으로 예측을 하기 때문에, 더 좋은 성능을 위하여 더 새롭고, 더 의미있는 패턴을 제공하는 것이 궁극적인 Feature engineering의 목적이다. - 데이터 불러오기 import pandas as pd df =..

    pandas기초 _ 데이터 전처리(EDA란, Data Preprocessing)

    ◎ Pandas로 데이터 셋을 불러오기 - Description을 통해 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는지 ("데이터 이름"이 있는지?) 결측 데이터 (Missing data)가 있는지 확인 원본의 형태를 확인하기 : 우리가 기대하던 형태가 아닐 수도 있다. 데이터셋을 확인하는 방법. (Colab 에서 read_csv) import pandas as pd # ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' # pandas라이브러리의 read_csv로 csv파일 변수에 저장 df = pd.read_csv(ktng_data_url) df.head() 칼럼 추..