西西软件园多重安全检测下载网站、值得信赖的软件下载站!
西西首页 常用软件 软件下载 安卓软件 游戏下载 安卓游戏 MAC应用 驱动下载 安卓电视
系统工具网络工具媒体工具图形图像聊天工具应用软件编程开发手机软件安卓应用电脑安全字体素材

python爬取百度贴吧源码

  • python爬取百度贴吧源码
  • 软件大小:4.4M
  • 更新时间:2019-07-19 10:59
  • 软件语言:中文
  • 软件厂商:
  • 软件类别:国产软件 / 免费软件 / 源码相关
  • 软件等级:3级
  • 应用平台:WinXP, Win7, win8
  • 官方网站:暂无
好评:50%
坏评:50%

本类精品

装机必备软件

软件介绍

python爬取百度贴吧源码,由吾爱大神原创制作,通过python爬虫程序来实现对百度贴吧的回复爬取,可以自动生成excel文件,让你能更加清晰地查看贴吧的回复与帖子信息。本次放出python爬取百度贴吧源码数据资源下载,并提供webdriver加载程序,安装后可以让源码加载到谷歌浏览器上运行,有相关百度贴吧爬取需求的朋友们不妨试试吧!

python爬取百度贴吧源码

python爬取百度贴吧源码说明:

webdriver

BeautifulSoup

xlwt

time(自带)

需要 chromedriver.exe 并配置环境变量,可能需要对应版本,百度可解决

当前适用于 Chrome版本 74.0.3729.131(正式版本)(32 位)

主函数中配置登录账号(line 91)

在提示“请输入任意内容确认你已经登录:“

必须是你已经登录账号,

出现验证码请手动处理。(line 92)

(ilne 93) 输入你要打开回复的第几页

最后一个数字是页数,不写为第一页

生成的 excel 超链接没有样式

excel样式需要自己添加(后续版本改进)

python爬取百度贴吧源码一览:

# http://tieba.baidu.com/i/i/my_reply

from selenium import webdriver

import time

from bs4 import BeautifulSoup

import xlwt

 

def login(name, passwd):

    # 1.打开浏览器

    driver = webdriver.Chrome()

    # 2.设置地址

    url = "https://www.baidu.com/"

    # 3.访问网址

    driver.get(url)

    # 4.分析网页,找到登录元素

    # login = driver.find_elements_by_id('u1').find_elements_by_class_name('lb')[0]   #方法一

    login = driver.find_elements_by_css_selector('div[id=u1] a[class=lb]')[0]   #方法二

    #5.点击登录按钮

    login.click()

    time.sleep(2)

    changeusename=driver.find_element_by_id("TANGRAM__PSP_10__footerULoginBtn")

    changeusename.click()

    #点击之后要加等待时间

    time.sleep(2)

    #8.找到 输入 用户名 和密码框,并且设置内容

    #<input id="TANGRAM__PSP_10__userName">

    username = driver.find_element_by_id('TANGRAM__PSP_10__userName')

    #输入账号名

    username.send_keys(name)

    time.sleep(1)

    #<input id="TANGRAM__PSP_10__password">

    password = driver.find_element_by_id('TANGRAM__PSP_10__password')

    #输入密码

    password.send_keys(passwd)

    time.sleep(2)

    #<input id="TANGRAM__PSP_10__submit">

    submit = driver.find_element_by_id('TANGRAM__PSP_10__submit')

    submit.click()

    return driver

 

def opentieba(browser, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1'):

    browser.get(url)

    context=browser.page_source

    soup = BeautifulSoup(context, 'html.parser')

    context=browser.find_element_by_css_selector(".simple_block_container")

    print(context.text)

    cont=soup.find_all(class_='b_right_up')

    return  cont

 

def writeXls(cont):

    i = 0 # 从第几行开始写

    # 1、导入模块      

    # 2、创建workbook(其实就是excel,后来保存一下就行)

   # workbook = xlwt.Workbook(encoding='ascii')

    workbook = xlwt.Workbook(encoding = 'utf-8')

    # 3、创建表

    worksheet = workbook.add_sheet('sheet1')

    for link in cont:

        print(link)

        item = BeautifulSoup(str(link), 'html.parser')

        reply_context=item.find(class_="for_reply_context")

        thread_title=item.find(class_="thread_title")

        href = str(thread_title)[31:54]

        href = 'http://tieba.baidu.com/' + href

        print(reply_context.text)

        worksheet.write(i, 0, label=reply_context.text)

        print(thread_title.text)

        worksheet.write(i, 1,xlwt.Formula('HYPERLINK("'+href+'"," '+thread_title.text+'")'))

        print(href)

        i = i + 1

        time.sleep(1)

 

    # 5、保存

    date = time.strftime("%Y%m%d%H%M%S", time.localtime())+ '_'

    workbook.save('Excel_'+date+str(i)+'.xls')

    i = 0

    return "successful"

 

def writedata(data):

    #1、导入模块      

    #2、创建workbook(其实就是excel,后来保存一下就行)

    workbook = xlwt.Workbook(encoding='ascii')

   # 3、创建表

    worksheet = workbook.add_sheet('sheet1')

    #4、往单元格内写入内容

    worksheet.write(0, 0, label=data)

   # 5、保存

    workbook.save('Excel_Workbook.xls')

 

def main():

    driver = login("美食拍客136822", "*****")

    str = input("请输入任意内容确认你已经登录:")

    xlscontext = opentieba(driver, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1')

    res = writeXls(xlscontext)

    print(res)

 

 

 

if __name__ == '__main__':

    main()

python爬取相关视频:

PC官方
安卓官方手机版
IOS官方手机版

软件截图

python爬取百度贴吧源码
    Python经典案例
    (6)Python经典案例关键词
    Python经典案例是一套非常简单好用的Python计算机编程语言实战基础,它针对那些学弱们进行强化训练,让渣渣们可以通过手把手的代码敲打来进行快速入门巩固,欢迎有需要的同学下载使用。关于Python:1、主要是开发快,更多>>

    其他版本下载

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)

    下载帮助下载帮助西西破解版软件均来自互联网, 如有侵犯您的版权, 请与我们联系。

    TOP
    软件下载