HTML-结构化数据引擎

首页

入门

引擎

工具

应用

通过 HTML 直接得到结构化数据的访问技术

HTML-结构化数据引擎项目，是一个利用正则技术对HTML进行分析提取数据的开源项目。通过一组配置规则，本引擎可以自动跟踪链接，获取html源代码，分析html源代码，提取结构化数据。

本项目包含以下特点：

1）可进行功能强大的逻辑定义和配置

通过配置，可以定义需要提取的字段内容；可以跟踪链接；可以在一个页面提取多条记录；也可以在多个页面提取数据并组成一条记录。

2）使用灵活

HTML 结构化数据引擎，可以嵌入项目内部或者作为单独的服务运行。当嵌入项目内部时，本引擎可作为一个轻量级的“HTML to 结构化数据”远程调用接口。当做为单独服务使用时，可以计划进行抓取，将数据存储作为后续使用。

在当前信息化时代，对数据的分析和提取非常重要和实用。当前比较普遍的数据抓取技术，只能做到对html源代码的跟踪和提取。对于精确数据的分析是一个难点。很难将“功能强大”且“使用灵活”兼顾。由于需要在页面中找到所需的精确数据，因此任何项目都无法完全采用自动方式进行。

本站研究正则表达式多年，对正则表达式的理解和运用有比较丰富的经验。本项目核心技术采用正则表达式的原理来进行既“强大”又“灵活”的数据提取。

本开源项目授权方式为 GPL 授权。如果需要用于商业用途，请参见技术服务。

本项目采用 Google Code 管理代码。可通过压缩包下载稳定版源代码，也可以通过 svn 下载开发版本。

[ 下载说明] - 下载相关说明。

本站提供收费技术支持服务。可提供开源代码之外的增强功能，可以获得完整的技术文档，增强功能源代码（包括注释），技术培训，故障问题解决等支持。项目组可完整掌握技术代码实现细节，并方便开展后续的扩展开发工作，一次性投入成本较低。

[ 技术服务] - 技术服务说明。