반응형
WEB
Get & Post
- Get
- URL에 데이터가 포함됨 -> 데이터가 노출됨
- URL 길이제한에 제약을 받음
- Post
- Request Body에 데이터 포함함 -> 데이터 숨겨짐
HTTP Status Code
* 서버와 클라이언트가 데이터를 주고 받으면서 결과를 상태 코드로 확인 할 수 있다
- 2XX - 클라이언트의 요청이 성공적으로 처리된 경우
- 200 OK, 201 Created(주로 POST와 함께 사용), 204 No Content(주로 DELETE와 함께 사용)
- 3XX - 클라이언트가 추가 조치를 취해야 할 때 사용
- 301 Moved Permanently, 302 Found (또는 303 See Other), 304 Not Modified
- 4XX - 클라이언트의 요청에 오류가 있거나 유효하지 않은 경우
- 400 Bad Request, 401 Unauthorized, 403 Forbidden, 404 Not Found
- 5XX - 서버에서 요청을 처리하는 동안 오류가 발생한 경우
- 500 Internal Server Error, 502 Bad GateWay, 503 Service Unavailable
WEB Crawling
웹페이지 종류
- 정적 페이지
- 서버에 저장되어 있는 파일을 전달하는 웹페이지
- 화면이 로드되면 이벤트에 따른 화면 변경이 없음
- 동적 페이지
- 서버에 있는 데이터를 스크립트에 의해 가공처리하여 전달하는 웹페이지
- 이벤트가 발생하면 서버에서 데이터를 가져와서 화면 변경하는 페이지
Selnium
브라우저를 직접 열어서 데이터를 수집하는 방식
웹 페이지 검사 자동화를 위해 만들어졌으며, request 방식보다 느림
pc 웹 페이지가 복잡하면 mobile 웹페이지에서 수집하는것이 수월함
크롤링 방벱에 따른 속도
requests json > requests html > selenium
HTML
HTML(Hyper Text Markup Language) : 웹 문서를 작성하는 마크업 언어
구성요소
Document : 한페이지를 나타내는 단위
Element : 하나의 레이아웃을 나타내는 단위 (서로 계층적 구조를 가질 수 있음)
Tag : Element의 종류를 정의
Attribute : 시작태그에서 태그의 특정 기능을 하는 값
Text : 시작태그와 끝태그 사이에 있는 문자열
HTML 구조
<!-- HTML 웹문서의 기본적인 구조 -->
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8">
<title></title>
</head>
<body>
</body>
</html>
HTML 태그
- head : title을 나타낼 때 사용, 숫자가 커질 수록 문자의 크기가 줄어듦(h1~h6)
- p : 한줄의 문자열을 출력하기 위한 테그
- span : 한블럭의 문자열을 표현하기 위한 테그
- pre : 줄바굼이나 띄어쓰기가 적용되는 테그
- code : 코드를 작성하는 테그. 들여쓰기나 두칸 이상의 공백은 적용이 되지 않음
- div : 레이아웃을 나타냄
- table : 로우와 컬럼이 있는 테이블 모양을 나타낼때 사용함
- ul/ li : 리스트를 나타내냄
- a : 링크를 나타냄 (href 속성에 url을 넣으며, url/상대경로 모두 사용 가능함.)
- image : 이미지를 나타내는 테그
- iframe : 외부url 링크 페이지를 보여주기 위한 엘리먼트
반응형
'Review > KT Aivle School' 카테고리의 다른 글
[4기 에이쁠 기자단] 시각지능 딥러닝(1) (1) | 2023.09.26 |
---|---|
[4기 에이쁠 기자단] 미니프로젝트 2차 (0) | 2023.09.25 |
[4기 에이쁠 기자단] 딥러닝 (0) | 2023.09.25 |
[4기 에이쁠 기자단] [3주] 미니프로젝트 1차 (1) | 2023.08.28 |
AI 트랙 합격, 준비 후기 (0) | 2023.08.25 |