爬虫模块

class moear_package_mobi.spiders.mobi.MobiSpider(data, spider, *args, **kwargs)[源代码]

基类:scrapy.spiders.Spider

打包爬虫,主要工作为将文章内容中的图片进行本地化、压缩、灰度,最终基于 KindleGen 工具,打包输出为 mobi 格式的电子书

parse(response)[源代码]

从 self.data 中将文章信息格式化为 MoearPackageMobiItem

static filter_images_urls(image_urls, image_filter, common_image_filter=None)[源代码]

图片链接过滤器,根据传入的过滤器规则,对图片链接列表进行过滤并返回结果列表

参数:
  • image_urls (list(str)) – 图片链接字串列表
  • image_filter (list(str)) – 过滤器字串列表
  • common_image_filter (list(str)) – 可选,通用的基础过滤器, 会在定制过滤器前对传入图片应用
返回:

过滤后的结果链接列表,以及被过滤掉的链接列表

返回类型:

list(str), list(str)

引发:
generate_mobi_file()[源代码]

使用 subprocess 模块调用 KindleGen 工具, 将已准备好的书籍源文件编译生成 mobi 文件

closed(reason)[源代码]

异步爬取本地化处理完成后,使用结果数据,进行输出文件的渲染,渲染完毕, 调用 MobiSpider.generate_mobi_file() 方法,生成目标 mobi 文件