|
HTML-结构化数据引擎
通过 HTML 直接得到结构化数据的访问技术
1. 项目介绍
HTML-结构化数据引擎项目,是一个利用正则技术对HTML进行分析提取数据的开源项目。通过一组配置规则,本引擎可以自动跟踪链接,获取html源代码,分析html源代码,提取结构化数据。
本项目包含以下特点:
1) 可进行功能强大的逻辑定义和配置
通过配置,可以定义需要提取的字段内容;可以跟踪链接;可以在一个页面提取多条记录;也可以在多个页面提取数据并组成一条记录。
2) 使用灵活
HTML
结构化数据引擎,可以嵌入项目内部或者作为单独的服务运行。 当嵌入项目内部时,本引擎可作为一个轻量级的“HTML
to 结构化数据”远程调用接口。当做为单独服务使用时,可以计划进行抓取,将数据存储作为后续使用。
2. 背景介绍
在当前信息化时代,对数据的分析和提取非常重要和实用。当前比较普遍的数据抓取技术,只能做到对html源代码的跟踪和提取。
对于精确数据的分析是一个难点。 很难将“功能强大”且“使用灵活”兼顾。
由于需要在页面中找到所需的精确数据,因此任何项目都无法完全采用自动方式进行。
本站研究正则表达式多年,对正则表达式的理解和运用有比较丰富的经验。
本项目核心技术采用正则表达式的原理来进行既“强大”又“灵活”的数据提取。
本开源项目授权方式为
GPL 授权。如果需要用于商业用途,请参见
技术服务。
3. 下载说明
本项目采用 Google Code
管理代码。可通过压缩包下载稳定版源代码,也可以通过 svn 下载开发版本。
[
下载说明] - 下载相关说明。
4. 技术服务
本站提供收费技术支持服务。 可提供开源代码之外的增强功能,可以获得完整的技术文档,增强功能源代码(包括注释),技术培训,故障问题解决等支持。 项目组可完整掌握技术代码实现细节,并方便开展后续的扩展开发工作,一次性投入成本较低。
[
技术服务] - 技术服务说明。
5. 相关赞助商链接
|
|
|