最近我用它做了一个小站。目的很简单。我想更新小说并尽快出版。本来想用机车解决的,但是没有模块流氓。插入了wordpress 文章采集wordpress 文章采集,但是表格有点麻烦,遥控器有点慢。想到的主要思想就是不要重新发明轮子,所以在pypi里找了,主要功能就不说了。详情请参考官网:
目前模块已经更新到 2.2 版本,但我使用的是 1.5 版本。懒惰的同学可以这样安装。
Wget --no-check-
tar zxf ---1.5.tar.gz
cd ---1.5
setup.py
模块就介绍到这里wordpress做网站,其他功能参考官网介绍。说说方案思路吧。
1、使用记事本记录已爬取的网址。

2、再去爬取这个页面,得到这个页面上所有文章的url。
3、用于检查此页面的完整 URL 是否为 TXT 格式。
4、如果不存在,抓取该URL的标题和内容发送到,并将URL写入txt
5、最后,使用自动任务,每天定时运行。
代码如下:(为了防止部分同学白拿东西,用图片代替代码,红色部分是URL、账号、密码、保存URL地址的txt)
@ >
当然,代码有一个小问题就是没有定义类别。其实定义发布分类也是可以的,只是我比较懒wordpress网站建设,写了默认文章分类并在后台设置目录。
然后设置为每小时更新一次。不会设置的自我提升。

原创内容:
蜗牛博客提供的源码():
f = open('daily_posted.txt','r') #需要先建立posted.txt文件。
urls = f.read()
def update_dayly():
#news_url是要采集的网址。

for news_url in urls:
if news_url not in urls:
mylog.write_log('开始采集{}的数据'.format(news_url))
open('daily_posted.txt','a+',encoding='utf-8').write(news_url+'\n')
# scape_url(news_url)
result = get_details(news_url)
if result:
title = result[0]

post_content = result[1]
keyword_list = text2list(category+".txt")
title_keyword = random.sample(keyword_list,1)
if len(title) < 10:
title = "["+title_keyword[0] + "]"+ title
mylog.write_log("文章标题:" + title)
mylog.write_log("文章内容" + post_content)

mylog.write_log("正在发布第{}篇文章".format(n))
post_wordpress(title,post_content,category,title_keyword[0])
mylog.write_log("已经完成第{}篇文章的发布..........".format(n))
mylog.write_log("*"*20)
else:
mylog.write_log('当前文章之前已经发布过,略过......')
mylog.write_log('-'*70)
文章来自互联网,侵权请联系删除,文章阐述观点来自文章出处,并不代表本站观点。
www.8001717.cn