
HTTP 완벽 가이드를 읽고 정리한 글입니다.
HTTP: 웹의 기초
HTTP (Hypertext Transfer Protocol)
웹 브라우저, 서버, 웹 어플리케이션은 모두 HTTP를 통해 서로 대화한다. HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에 신뢰성 있는 전송을 보장한다.
웹 클라이언트와 서버
웹 콘텐츠는 웹 서버에 존재하며 웹 서버는 인터넷의 데이터를 저장하고, HTTP 클라이언트가 요청한 데이터를 제공한다. HTTP 클라이언트와 HTTP 서버는 월드 와이드 웹의 기본 요소다.
리소스
웹 서버는 웹 리소스를 관리하고 제공한다. 리소스는 요청에 따라 정적 파일, 동적 콘텐츠 등 어떤 콘텐츠 소스도 리소스가 될 수 있다.
미디어 타입
인터넷은 수천 가지 데이터 타입을 다루기 때문에, HTTP는 웹에서 전송되는 객체 각각에 MIME 타입이라는 데이터 포맷 라벨을 붙인다. 웹 서버는 모든 HTTP 객체 데이터에 MIME 타입을 붙인다. 웹 브라우저는 서버로부터 객체를 돌려받을 때, 다룰 수 있는 객체인지 MIME 타입을 통해 확인한다. MIME 타입은 사선(/)으로 주어진 주 타입과 부 타입으로 이루어진 문자열 라벨이다.
- HTML로 작성된 텍스트 문서는 text/html 라벨이 붙는다.
URI (Uniform Resource Identifier) - 통합 자원 식별자
웹 서버 리소스는 각자 이름을 갖고 있기 때문에, 클라이언트는 관심 있는 리소스를 지목할 수 있다. 서버 리소스 이름은 자원 식별자(Uniform Resource Identifier, URI) 로 불린다. 예) 내 블로그 프로필 사진의 리소스에 대한 URI https://imb96.github.io/static/c4278664dc5c5c57593256802fd3d0f9/b5014/profile-image.webp
URI에는 URL과 URN이 있다.
URL (Uniform Resource Loactor) - 통합 자원 지시자
URL은 리소스 식별자의 가장 흔한 형태다. https://www.naver.com/index.html 네이버 홈페이지의 URL
대부분의 URL은 세 부분으로 이루어진 표준 포맷을 따른다. URL 첫 번째 부분은 스킴(scheme). 리소스에 접근하기 위해 사용되는 프로토콜을 서술. (ex: https://) 두 번째 부분은 서버의 인터넷 주소를 제공. (ex: www.naver.com) 마지막은 웹 서버의 리소스를 가리킴(ex: /images/logo.gif)
오늘날 대부분의 URI는 URL이다.
URN (Uniform Resource Name) - 통합 자원 이름
URN은 리소스에 대해 리소스의 위치에 영향 받지 않는 유일무이한 이름 역할을 한다. URN은 실험중인 상태고 아직 널리 채택되지 않았다.
통상적으로 URI와 URL은 같은 의미로 쓰인다.
트랜잭션
HTTP 트랜잭션은 요청 명령과 응답 결과로 구성되어 있다. 이 상호작용은 HTTP 메시지라고 불리는 정형화된 데이터 덩어리를 이용해 이루어진다. HTTP 요청 메시지는 명령과 URI를 포함하며 응답 메시지는 트랜잭션의 결과를 포함한다.
메서드
HTTP는 HTTP 메서드라고 불리는 여러 가지 종류의 요청 명령을 지원한다. 모든 HTTP 요청 메시지는 한 개의 메서드를 갖는다. 메서드는 서버에게 어떤 동작이 취해져야 하는지 말해준다.
자주 쓰이는 HTTP 메서드
HTTP 메서드 | 설명 |
---|---|
GET | 서버에서 클라이언트로 지정한 리소스를 보내라. |
PUT | 클라이언트에서 서버로 보낸 데이터를 지정한 이름의 리소스로 저장하라. |
DELETE | 지정한 리소스를 서버에서 삭제하라. |
POST | 클라이언트 데이터를 서버 게이트웨이 애플리케이션으로 보내라. |
HEAD | 지정한 리소스에 대한 응답에서 HTTP 헤더 부분만 보내라. |
상태 코드
HTTP 응답 메시지는 상태 코드와 함꼐 반환된다.
흔히 쓰이는 HTTP 상태 코드
HTTP 상태 코드 | 설명 |
---|---|
200 | 문서가 올바르게 반환됨 |
302 | 다시 보내라. 다른 곳에 가서 리소스를 가져가라. |
404 | 리소스를 찾을 수 없음. |
HTTP는 각 상태 코드에 텍스트로 된 사유구절(reason phrase)도 함께 보낸다. | |
이 구문은 단지 설명을 위해서 포함된 것일 뿐 실제 응답 처리에는 숫자로 된 코드가 사용된다. |
웹페이지는 여러 객체로 이루어질 수 있다.
애플리케이션은 보통 하나의 작업을 수행하기 위해 여러 HTTP 트랜잭션을 수행한다. 웹페이지는 하나의 리소스가 아닌 리소스의 모음이다. 웹페이지는 첨부된 리소스들에 대해 각각의 HTTP 트랜잭션을 필요로 한다.
메시지
웹 클라이언트에서 웹 서버로 보낸 HTTP 메시지를 요청 메시지라고 부른다. 서버에서 클라이언트로 가는 메시지는 응답 메시지라고 부른다. HTTP 메시지는 단순한 줄 단위 텍스트 구조를 갖고 있으며 세 부분으로 나누어진다.
시작줄
메시지의 첫 줄은 시작줄로, 요청이라면 무엇을 해야 하는지 응답이라면 무슨 일이 일어났는지 나타낸다.
헤더
시작줄 다음에는 0개 이상의 헤더 필드가 이어진다. 각 헤더 필드는 :으로 구분된 이름과 값으로 구성된다. 헤더 필드를 추가하려면 한 줄을 더하기만 하면 되고 헤더는 빈 줄로 끝난다.
본문
빈 줄 다음에는 어떤 종류의 데이터든 들어갈 수 있는 메시지 본문이 필요에 따라 올 수 있다. 요청의 본문은 서버로 데이터를 실어 보내며, 응답의 본문은 클라이언트로 데이터를 반환한다. 문자열이며 구조적인 시작줄이나 헤더와 달리, 본문은 임의의 이진 데이터를 포함할 수 있다.(이미지,비디오,오디오,텍스트 등)
TCP 커넥션
TCP/IP (Transmission Control Protocol, 전송 제어 프로토콜) / (Internet Protocol, 인터넷 프로토콜)
HTTP는 애플리케이션 계층 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부사항에 대해서 신경 쓰지 않는다. 대신 대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP에게 맡긴다. TCP는 다음을 제공한다.
- 오류 없는 데이터 전송
- 순서에 맞는 전달 (데이터는 보낸 순서대로 도착)
- 조각나지 않는 데이터 스트림(언제든 어떤 크기로든 보낼 수 있다)
인터넷 자체가 전 세계의 컴퓨터와 네트워크 장치들 사이에서 대중적으로 사용되는 TCP/IP에 기초하고 있다. TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크 프로토콜의 집합이다. TCP/IP는 각 네트워크와 하드웨어의 특성을 숨기고, 서로 신뢰성 있는 의사소통을 하게 해 준다. TCP 커넥션이 맺어지면 클라이언트와 서버 컴퓨터 간에 교환되는 메시지가 없어지거나 손상되거나 순서가 뒤바뀌는 일은 결코 없다. 네트워크 개념상, HTTP 프로토콜은 TCP위의 계층이다. HTTP는 자신의 메시지 데이터를 전송하기 위해 TCP를 사용한다.
HTTP 네트워크 프로토콜 스택
Column 1 | Column 2 |
---|---|
HTTP | 애플리케이션 계층 |
TCP | 전송 계층 |
IP | 네트워크 계층 |
네트워크를 위한 링크 인터페이스 | 데이터 링크 계층 |
물리적인 네트워크 하드웨어 | 물리 계층 |
접속, IP 주소 그리고 포트번호
HTTP 클라이언트가 서버에 메시지를 전송할 수 있게 되기 전에, IP주소와 포트번호를 사용해 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야 한다. TCP에서는 서버 컴퓨터에 대한 IP 주소와 서버에서 실행 중인 프로그램이 사용중인 포트번호가 필요하다. IP 주소와 포트번호를 이용해 클라이언트는 TCP/IP로 쉽게 통신할 수 있다.
웹브라우저 연결의 기본적인 절차.
- 웹브라우저는 서버의 URL에서 호스트 명을 추출한다.
- 웹브라우저는 서버의 호스트 명을 IP로 변환한다.
- 웹브라우저는 URL에서 포트번호(있다면)를 추출한다.
- 웹브라우저는 웹 서버와 TCP 커넥션을 맺는다.
- 웹브라우저는 서버에 HTTP 요청을 보낸다.
- 서버는 웹브라우저에 HTTP 응답을 돌려준다.
- 커넥션이 닫히면, 웹브라우저는 문서를 보여준다.
프로토콜 버전
HTTP/0.9 심각한 디자인 결함이 다수 있고 구식 클라이언트하고만 같이 사용할 수 있다. 금방 HTTP/1.0으로 대체되었다.
HTTP/1.0 처음으로 널리 쓰이기 시작한 버전
HTTP/1.0+ 많은 기능이 공식적이진 않지만 사실상의 표준으로 HTTP에 추가되었다.
HTTP/1.1 현재의 HTTP 버전
HTTP/2.0 HTTP/1.1 성능 문제를 개선하기 위해 구글의 SPDY 프로토콜을 기반으로 설계가 진행 중.
웹의 구성요소
프락시: 클라이언트와 서버 사이에 위치한 HTTP 중개자. 캐시: 많이 찾는 웹페이지를 클라이언트 가까이에 보관하는 HTTP 창고. 게이트웨이: 다른 애플리케이션과 연결된 웹 서버. 터널: 단순히 HTTP 통신을 전달하기만 하는 프락시. 에이전트: 자동화된 HTTP 요청을 만드는 준지능적 웹클라이언트.
프락시
클라이언트의 모든 HTTP 요청을 받아 서버에 전달한다. 이 애플리케이션은 사용자를 위한 프락시로 동작하며 사용자를 대신해서 서버에 접근한다. 프락시는 주로 보안을 위해 사용되며 요청과 응답을 필터링한다.
캐시
웹캐시와 캐시 프락시는 성능 향상을 위해 자신을 거쳐 가는 문서들 중 자주 찾는 것의 사본을 저장해 두는 HTTP 프락시 서버다. 다음번에 클라이언트가 같은 문서를 요청하면 그 캐시가 갖고 있는 사본을 받을 수 있다. HTTP는 캐시를 효율적으로 동작하게 하고 캐시된 콘텐츠를 최신버전으로 유지하면서 동시에 프라이버시도 보호하기 위한 많은 기능을 정의한다.
게이트웨이
다른 서버들의 중개자로 동작하는 서버. 주로 HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용된다.
터널
두 커넥션 사이에서 날(raw) 데이터를 열어보지 않고 그대로 전달해주는 HTTP 애플리케이션. HTTP 터널은 주로 비 HTTP 데이터를 하나 이상의 HTTP 연결을 통해 그대로 전송해주기 위해 사용된다.
에이전트
사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램이다. 웹 요청을 만드는 애플리케이션은 HTTP 에이전트다.