네이버 뉴스 크롤링

앱 만들거에요~!

의존성

yml파일

server:
  port: 8080
  servlet:
    context-path:  /
    encoding:
      charset:  UTF-8
      enabled: true
      force: true
      
spring:
  datasource:
    driver-class-name: com.mysql.cj.jdbc.Driver
    url: jdbc:mysql://localhost:3306/security?serverTimezone=Asia/Seoul
    username: cos
    password: cos1234
      
  jpa:
    hibernate:
      ddl-auto: create #create update non
      naming:
        physical-strategy: org.hibernate.boot.model.naming.PhysicalNamingStrategyStandardImpl #파스칼 표기법으로설정
    show-sql: true #sql문 보기

네이버 뉴스 크롤링 할 거에요

스프링으로 안하고 자바 메인문으로만 크롤링 할 수 는 있는데

크롤링한 데이터를 내 서버 디비에 넣을 거라서 스프링으로 만들어 본다.

header 공부하려면

os4계층이랑 3계층 공부하면 TCP IP 공부하게 되고

나중에 회사가서 네트워크 공부

책 추천!

컴퓨터 네트워킹 하향식 접근 제 7판

모든게 다나온다 함

cdma

알면 더 쉬운 도커 쿠버네티스

위키북스 - 번역 도서더라

앱만들기

IOS Android

화면에서 꺼도 노래 계속 나오면 저작권

kpop top 10

kpop

bottomnavigationview

recyclerview
header

새로운 window
(z index 한칸 위)

크롤링 잘 안함
네이버에서 부하가 심해서 막음
요새는 API로 다주더라
구글도 유투브데이터 API다줌 그럼 JSON으로 다 받아서
쓸 수 있도록 다 제공해줘요

서로 좋아요

간단하게 html url요청부터 해서 해보

몇번까지가

네이버 뉴스

DB서버에 데이터 넣을 예정

유튜브 크롤링해서 실행하면 광고 안나옴

서비스로 실행하면 저작권 위반

페이스북 광고가 비쌈

크롤링 잘 안하는 이유는 API로 다주고, 페이지마다 크롤링하면 과부하가 심해서

원리

특정페이지를 호출해서 JAVA 오브젝트로 바꾸고 해당 DOM을 찾아서 내 데이터를 구축함

어려운거

다운로드할때 URL이 너무 많은데 그 패턴을 분석해야함

for문 돌리면서 URL 바꿔치기 해가면서 긁을 수 있음

요즘 막는법

1. iframe으로 막음

2. 연속적인 request를 막음 (새벽)

3. referer (A->B 허용, B 바로 접근 거부)

파이썬

- BeautifulSoup

- 셀레니움(라이브러리 쓰면 )

->셀리니움 없이 하려면 http의 header를 공부하면 되는데 OSI 4계층을 공부하면 된다.

그러면 자연스럽게 됨.

기본기가 다 나오는책?

컴퓨터 네트워킹 하향식 접근 7판 - 36000원 퍼스트북

알면 더 쉬운 도커 쿠버네티스? 핫한데 사긴 좀 그런데

주소에 대한 분석이 필요함

주소의 변화를 보는것
1. 주소의 파싱만 잘하자

https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=001

속보
https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=001&oid=009&aid=0004635338
정치
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=025&aid=0003025932
경제
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=374&aid=0000218299

sid1은 카테고리이다.
oid??

oid는 신문사
각각 눌러서 찾아봐야함

aid는 넘버링

넘버링은 보다보면 삭제된글이 있을수 있어서 이것을 예외처리 해줘야한다.

articleTitle를 DB화 시킴

Tensorflower?보고 키워드 분석시켜서 핫키워드

----
for문을 어떻게 돌릴건지

news.naver.com/main/read.nhn?&sid1=100~105

->노가다로 빈값(삭제된글 같은거)를 예외처리해줘야하는데
이때 예외처리 조건값을 for문에 count로 돌려서 계산하는게 빠르다.

oid 번호를 돌려가면서 각 신문사를 조사해야한다.
sid1=100~105까지 -> 내가 필요한 카테고리를 선택해도 됨

Hash Map으로 oid 번호와 신문사 이름을 저장해두고

크롤링 시초 버스 앱

고등학생이 만듬

실시간 크롤링이라서 서버부하가 많음

API의 탄생

네이버 뉴스

DB서버에 데이터 넣을 예정

유튜브 크롤링해서 실행하면 광고 안나옴

서비스로 실행하면 저작권 위반

페이스북 광고가 비쌈

크롤링 잘 안하는 이유는 API로 다주고, 페이지마다 크롤링하면 과부하가 심해서

원리

특정페이지를 호출해서 JAVA 오브젝트로 바꾸고 해당 DOM을 찾아서 내 데이터를 구축함

어려운거

다운로드할때 URL이 너무 많은데 그 패턴을 분석해야함

for문 돌리면서 URL 바꿔치기 해가면서 긁을 수 있음

요즘 막는법

1. iframe으로 막음

2. 연속적인 request를 막음 (새벽)

3. referer (A->B 허용, B 바로 접근 거부)

파이썬

- BeautifulSoup

- 셀레니움(라이브러리 쓰면 )

->셀리니움 없이 하려면 http의 header를 공부하면 되는데 OSI 4계층을 공부하면 된다.

그러면 자연스럽게 됨.

기본기가 다 나오는책?

컴퓨터 네트워킹 하향식 접근 7판 - 36000원 퍼스트북

알면 더 쉬운 도커 쿠버네티스? 핫한데 사긴 좀 그런데

주소에 대한 분석이 필요함

주소의 변화를 보는것
1. 주소의 파싱만 잘하자

크롤링 시초 버스 앱

고등학생이 만듬

실시간 크롤링이라서 서버부하가 많음

API의 탄생

'Spring Boot' 카테고리의 다른 글

라이브리 livere (댓글 공유) (0)	2020.08.18
Sentry Log / google 애널리틱스 (0)	2020.08.17
스프링에서 구글 FCM push 메세지 구현 (0)	2020.08.13
AOP (0)	2020.08.11
@Valid (0)	2020.08.11

Linda

네이버 뉴스 크롤링

'Spring Boot' 카테고리의 다른 글

티스토리툴바

네이버 뉴스 크롤링

'Spring Boot' 카테고리의 다른 글

'Spring Boot' Related Articles

티스토리툴바