조회 수 169 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 게시글 수정 내역 댓글로 가기 인쇄



from bs4 import BeautifulSoup
from urllib import request
import requests
import re 
 
def get_content(url):
    files = {} # 파일명과 파일경로가 저장될 사전을 정의함
    title = "" # 문서명을 정의함
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
    req = requests.get(url, headers=headers)
    content = req.content
 
    soup = BeautifulSoup(content, 'html.parser')
    temp = soup.select_one('#content > div.boxMid > div > div.container > div.article > div')
    title = soup.select_one('#content > div.boxMid > div > div.titleWrap > h2 > a')
    title = title.text
    lyrics = temp.text

    # 스샷 이미지 추출
    findImgTag = temp.find_all('img')
    for x in findImgTag:
        if 'filename' in x.attrs:  # 내부에 있는 항목들을 리스트로 가져옵니다
            imgUrl = x.attrs['src']
            imgName = x.attrs['filename']
            files[imgName] = imgUrl # files 사전에 추가함.

    # 파워 포인트 파일 추출
    findFileTag = temp.find_all("a")
    for x in findFileTag:
        if 'cfile' in x.attrs['href']: 
            filesUrl = x.attrs['href']
            filesName = x.text
            files[filesName] = filesUrl # files 사전에 추가함.

    return title, lyrics, files


url = 'https://*********.tistory.com/11173'
title, lyrics, files = get_content(url)

lyrics = lyrics.split('\n')[0]
print(title)
print("")
print(lyrics.split('\n'))
print("")
print(files)

for file_name, file_url in files.items():
    request.urlretrieve(file_url, file_name)
    print("{name}을 저장하였습니다.".format(name=file_name))

 

티스토리의 본문 이미지와 첨부파일을 일괄 다운로드 하는 파이썬 소스입니다.

티스토리의 스킨에 따라서 BeautifulSoup CSS 선택자가 달라집니다.

 

조금만 파이썬 공부를 하셔도 수정 및 응용이 가능한 소스이니 공부에 참고하시기 바랍니다.




List of Articles
번호 분류 제목 날짜 조회 수 글쓴이
공지 공지 구글 무제한 드라이브 이용자 공지사항 5 2017.10.30 2877 운영자
공지 공지 구글 드라이브 무제한 클라우드 G-Suite 가입하실 분 모집합니다. 13 file 2017.10.30 4456 운영자
14428 질문글 자료다운로드에 관하여 2019.10.08 103 철학소년
14427 가입인사 가입했어요 2019.10.08 18 철학소년
14426 정보&강의 Youtube 계정 폐쇄 혹은 삭제 되었을 경우 항소하는 방법 2019.10.08 107 운영자
14425 자유글 부산 커피샵자리 구합니다 2019.10.07 36 아난다
14424 정보&강의 시놀로지에 광고차단 서버 만들기 DMS 6.X 기준 Pi-hole 설치 및 운영 광고차단 서버 만들기.(DSM 6.2 NAS에서 Pi-hole 설치 방법 알아보기.) 나스를 운영한다면 다양한 프로그램을 설치해서 사용하는데 주 사용이 파일보관, 공유, 동... file 2019.10.05 340 운영자
14423 정보&강의 초보자를 위한 헤놀로지 Xpenology 6.2.2 설치법 요청하신 분이 계셔서, 초보자를 위해 헤놀로지 설치법 공유합니다. 일단 아래 링크에 접속하여 파일 3개를 다운 받으세요. https://drive.google.com/drive/fold... file 2019.10.05 5678 운영자
14422 알뜰구매 옥스퍼드 칼리스 매인아이디어 주석 판매합니다. 주석류 판매합니다. 옥스퍼드 원어성경대전 - 신약 전권(30권) 카리스종합주석 - 이사야, 잠언, 전도서~아가 매인아이디어 - 전권(15권) 일괄 50만원입니다. 옥스... file 2019.10.02 138 하늘
14421 정보&강의 4채널 HDMI 방송 시스템을 위한 하드웨어 및 소프트웨어 구성에 대하여 소규모 4CH FHD 방송 시스템을 위한 구성안입니다. 컴퓨터 HDMI 멀티 모니터 구성이 가능한 시스템 (최소 듀얼이상, 트리플 권장) 소프트웨어 송출 프로그램 : OB... file 2019.09.30 193 운영자
14420 정보&강의 파이썬 매일성경 오늘의 묵상 파싱 소스 from bs4 import BeautifulSoup from urllib import request import requests def get_content(url): result = [] # 파일명과 파일경로가 저장될 리스트를 정의함... file 2019.09.29 291 운영자
» 정보&강의 티스토리 이미지 및 첨부파일 다운로드 파이썬 소스 2019.09.27 169 운영자
14418 질문글 성경DB컨버터 이용중 문의드립니다. 1 2019.09.27 109 원선생
14417 기타 영수증이 가능할까요? 2 2019.09.27 60 허브민트
14416 정보&강의 애드센스 광고 애드온 팝업창으로 띄우기 2019.09.26 113 운영자
14415 정보&강의 파이썬으로 만든 Youtube 다운로드 프로그램 # -*- conding: utf-8 -*- import os import subprocess import pytube if not os.path.exists("download"): os.mkdir("download") url = input("다운받을 유튜브... file 2019.09.25 2111 운영자
14414 질문글 새찬송가 와이드 ppt 구입하고 싶은데 어떻게 해야할까요? 1 2019.09.25 107 허브민트
14413 정보&강의 파이썬 모듈 한번에 업데이트 하는 방법 파이썬 모듈을 한번에 업데이트 해야할 때가 있다. 보통은 리눅에서 할 수 있는 방법만 공유되고 있으니, 이 방법은 윈도우에서도 쉽게 사용이 가능하다. pip fre... file 2019.09.25 127 운영자
14412 정보&강의 파이썬 로또 분석기 소스 2019.09.22 217 운영자
14411 정보&강의 스케치북5 게시판에 카카오톡 링크 붙이기 2019.09.20 46 운영자
14410 정보&강의 휴대폰과 통신사 무제한 문자로 그룹문자 보내는 파이썬 코드 핸드폰의 무료 문자를 이용해서 단체문자를 쉽게 보낼 수 있는 파이썬 프로그램입니다. 먼저, 핸드폰에 AirMore라는 앱을 설치합니다. Install AirMore App and D... 1 file 2019.09.15 1685 운영자
14409 정보&강의 mysql 필드값을 기준으로 가장 최근 값 select 하는 방법 2019.09.05 77 운영자
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 727 Next
/ 727