当HTML结构未知时,如何控制Nutch解析和Solr索引URL的方式?

pdolor 发布于 2019-03-09 apache 最后更新 2019-03-09 14:35 3 浏览

我正在尝试抓取一些网站的HTML结构维护不佳,我无法控制它来改变它。当我查看由Solr索引的nutch爬行数据时,字段'标题'看起来没问题,因为'content'字段包含大量垃圾,因为它从下拉菜单中抓取了html横幅中的所有文本,左侧菜单,导航,页脚等 在我的情况下,我只想把在HTML页面上定义的“描述:”信息抓到'内容'字段中。 例如:(原始HTML):

 <p><strong>Description:</strong> Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. 
我如何过滤“内容”字段中的垃圾,并只收集我感兴趣的信息?
已邀请:

lquia

赞同来自:

您可以使用下面的插件根据XPath查询提取内容。 如果您的内容位于特定div中,则可以使用此插件从该特定部分中提取所需内容。 Filter xpath