本文介绍如何使用URL2io提供的正文提取API来对网页进行正文提取。
工具/原料
URL2io
www.url2io.com
方法/步骤
1、首先URL2io官网(http://www.url2io.com),选择正文提取服务URL2Article如下图所示:
2、从产品介绍页可以看到URL2io提供的正文提取服务支持以下特性,包括网页正文提取、标题提取、发布日期提取、下一页链接提取、惰性图片解析等。
3、URL2io提供了详细的文档来帮助我们了解如何使用。在文档页可以看到UR雉搽妤粲L2io提供了许多语言的使用示例,包括Python、Curl、NodeJS斤舻浑趸、PHP、Ruby等。通过这些示例可以快速上手如何通过调用URL2io提供RESTfulAPI来对网页进行正文提取。
4、为了方便开发者的使用,曷决仙喁URL2io也提供了一些语言的SDK。还提供了一些基于URL2io提供的服务开发的用于学习的应用和教程,比如Pageless(如下图所示)弋讥孜求使用URL2Article服务来提取网页正文,并自动将被分成多页的文章合并成一页。相关代码都可以在GitHub(https://github.com/url2io)获得。