技术资料
Mysql
Windows下安装mysql 5.6
Python
Python3.5.2 安装(windows环境)
图片爬取和写入
gevent队列任务
selenium模拟浏览器操作
pandas表格和数据应用
OS文件创建
excel格式转换:csv转xls
email自动发送
excel读取指定多行数据
cookie登录后爬取内容
单页文字图片爬取保存到word
学习实践:知网疾病知识
学习实践:知网指南
字典生成树形目录
docx文本图片存入word
-
+
首页
docx文本图片存入word
```python from pyquery import PyQuery as pq import requests as rs from docx import Document from docx.shared import RGBColor html = 'https://zhs.moo0.com/software/AudioTypeConverter/pad.xml' def get_info(address):#爬取网页上的信息 add = rs.get(address) res = pq(add.content, parser='html') name = res('Program_Name').text() versize = '软件版本:' + res('Program_Version').text() + ' \t' + '软件大小:' + res('File_Size_MB').text() introduce = '软件介绍:' + '\r' + res('ChineseSimplified').find('Char_Desc_45').text() + '\r' + res( 'ChineseSimplified').find('Char_Desc_2000').text() photourl = res('Application_Screenshot_URL').text() download = res('Primary_Download_URL').text() return [name,versize,introduce,photourl,download] def get_pic(pic_url):#docx无法直接插入网络图片,因此在这里先将网络图片下载到本地 pic = rs.get(pic_url) with open('pic_tmp.png', "wb")as f: f.write(pic.content) def insert_doc(n,res): #将爬取的内容导入document。 name = str(n)+'、'+ res[0] document.add_heading(name) document.add_paragraph(res[1]) document.add_paragraph(res[2]) document.add_picture('pic_tmp.png') p = document.add_paragraph() run = p.add_run('下载地址:\n') run = p.add_run(res[4]) run.italic = True run.underline = True run.font.color.rgb = RGBColor(31,77,225) def main(): n = 0 for address in html.split(): n += 1 print(n) respon = get_info(address) get_pic(respon[3]) insert_doc(n, respon) if __name__== '__main__': document = Document() main() document.save('001.docx') ```
大诚
2022年8月3日 10:43
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码