앱 만들거에요~!
의존성
yml파일
server:
port: 8080
servlet:
context-path: /
encoding:
charset: UTF-8
enabled: true
force: true
spring:
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/security?serverTimezone=Asia/Seoul
username: cos
password: cos1234
jpa:
hibernate:
ddl-auto: create #create update non
naming:
physical-strategy: org.hibernate.boot.model.naming.PhysicalNamingStrategyStandardImpl #파스칼 표기법으로설정
show-sql: true #sql문 보기
네이버 뉴스 크롤링 할 거에요
스프링으로 안하고 자바 메인문으로만 크롤링 할 수 는 있는데
크롤링한 데이터를 내 서버 디비에 넣을 거라서 스프링으로 만들어 본다.
header 공부하려면
os4계층이랑 3계층 공부하면 TCP IP 공부하게 되고
나중에 회사가서 네트워크 공부
책 추천!
컴퓨터 네트워킹 하향식 접근 제 7판
모든게 다나온다 함
cdma
알면 더 쉬운 도커 쿠버네티스
위키북스 - 번역 도서더라
앱만들기
IOS Android
화면에서 꺼도 노래 계속 나오면 저작권
kpop top 10
kpop
bottomnavigationview
recyclerview
header
새로운 window
(z index 한칸 위)
크롤링 잘 안함
네이버에서 부하가 심해서 막음
요새는 API로 다주더라
구글도 유투브데이터 API다줌 그럼 JSON으로 다 받아서
쓸 수 있도록 다 제공해줘요
서로 좋아요
간단하게 html url요청부터 해서 해보
몇번까지가
네이버 뉴스
DB서버에 데이터 넣을 예정
유튜브 크롤링해서 실행하면 광고 안나옴
서비스로 실행하면 저작권 위반
페이스북 광고가 비쌈
크롤링 잘 안하는 이유는 API로 다주고, 페이지마다 크롤링하면 과부하가 심해서
원리
특정페이지를 호출해서 JAVA 오브젝트로 바꾸고 해당 DOM을 찾아서 내 데이터를 구축함
어려운거
다운로드할때 URL이 너무 많은데 그 패턴을 분석해야함
for문 돌리면서 URL 바꿔치기 해가면서 긁을 수 있음
요즘 막는법
1. iframe으로 막음
2. 연속적인 request를 막음 (새벽)
3. referer (A->B 허용, B 바로 접근 거부)
파이썬
- BeautifulSoup
- 셀레니움(라이브러리 쓰면 )
->셀리니움 없이 하려면 http의 header를 공부하면 되는데 OSI 4계층을 공부하면 된다.
그러면 자연스럽게 됨.
기본기가 다 나오는책?
컴퓨터 네트워킹 하향식 접근 7판 - 36000원 퍼스트북
알면 더 쉬운 도커 쿠버네티스? 핫한데 사긴 좀 그런데
주소에 대한 분석이 필요함
주소의 변화를 보는것
1. 주소의 파싱만 잘하자
https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=001
속보
https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=001&oid=009&aid=0004635338
정치
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=025&aid=0003025932
경제
https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=101
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=374&aid=0000218299
sid1은 카테고리이다.
oid??
oid는 신문사
각각 눌러서 찾아봐야함
aid는 넘버링
넘버링은 보다보면 삭제된글이 있을수 있어서 이것을 예외처리 해줘야한다.
articleTitle를 DB화 시킴
Tensorflower?보고 키워드 분석시켜서 핫키워드
----
for문을 어떻게 돌릴건지
news.naver.com/main/read.nhn?&sid1=100~105
->노가다로 빈값(삭제된글 같은거)를 예외처리해줘야하는데
이때 예외처리 조건값을 for문에 count로 돌려서 계산하는게 빠르다.
oid 번호를 돌려가면서 각 신문사를 조사해야한다.
sid1=100~105까지 -> 내가 필요한 카테고리를 선택해도 됨
Hash Map으로 oid 번호와 신문사 이름을 저장해두고
크롤링 시초 버스 앱
고등학생이 만듬
실시간 크롤링이라서 서버부하가 많음
API의 탄생
네이버 뉴스
DB서버에 데이터 넣을 예정
유튜브 크롤링해서 실행하면 광고 안나옴
서비스로 실행하면 저작권 위반
페이스북 광고가 비쌈
크롤링 잘 안하는 이유는 API로 다주고, 페이지마다 크롤링하면 과부하가 심해서
원리
특정페이지를 호출해서 JAVA 오브젝트로 바꾸고 해당 DOM을 찾아서 내 데이터를 구축함
어려운거
다운로드할때 URL이 너무 많은데 그 패턴을 분석해야함
for문 돌리면서 URL 바꿔치기 해가면서 긁을 수 있음
요즘 막는법
1. iframe으로 막음
2. 연속적인 request를 막음 (새벽)
3. referer (A->B 허용, B 바로 접근 거부)
파이썬
- BeautifulSoup
- 셀레니움(라이브러리 쓰면 )
->셀리니움 없이 하려면 http의 header를 공부하면 되는데 OSI 4계층을 공부하면 된다.
그러면 자연스럽게 됨.
기본기가 다 나오는책?
컴퓨터 네트워킹 하향식 접근 7판 - 36000원 퍼스트북
알면 더 쉬운 도커 쿠버네티스? 핫한데 사긴 좀 그런데
주소에 대한 분석이 필요함
주소의 변화를 보는것
1. 주소의 파싱만 잘하자
sid1은 카테고리이다.
oid??
oid는 신문사
각각 눌러서 찾아봐야함
aid는 넘버링
넘버링은 보다보면 삭제된글이 있을수 있어서 이것을 예외처리 해줘야한다.
articleTitle를 DB화 시킴
Tensorflower?보고 키워드 분석시켜서 핫키워드
----
for문을 어떻게 돌릴건지
news.naver.com/main/read.nhn?&sid1=100~105
->노가다로 빈값(삭제된글 같은거)를 예외처리해줘야하는데
이때 예외처리 조건값을 for문에 count로 돌려서 계산하는게 빠르다.
oid 번호를 돌려가면서 각 신문사를 조사해야한다.
sid1=100~105까지 -> 내가 필요한 카테고리를 선택해도 됨
Hash Map으로 oid 번호와 신문사 이름을 저장해두고
크롤링 시초 버스 앱
고등학생이 만듬
실시간 크롤링이라서 서버부하가 많음
API의 탄생
'Spring Boot' 카테고리의 다른 글
라이브리 livere (댓글 공유) (0) | 2020.08.18 |
---|---|
Sentry Log / google 애널리틱스 (0) | 2020.08.17 |
스프링에서 구글 FCM push 메세지 구현 (0) | 2020.08.13 |
AOP (0) | 2020.08.11 |
@Valid (0) | 2020.08.11 |