数聚®万网智能平台
DataCVG® Web Intelligence Platform
数聚®万网智能平台是通过在多个实际项目的投入使用,积累了丰富的信息采集经验,爬虫核心技术为业界领先水平。
数聚®万网智能平台通过对指定网站的雷达扫描,为用户提供所需要的最新信息;通过对全网的监控,提供给用户所关注的更全面的信息。可以监测新闻,论坛,博客以及微博等不同类型网站的最新发布信息,准确提取正文内容并自动排除重复文章,自动识别和记录信息的发布来源、发布时间等关键信息,从而将互联网上的非结构化数据转化成可用的结构化数据;抓取效率高,安全易用。
![]() |
采集实时性强,效率高
|
![]() |
信息提取准确 a、自动辨别信息发布时间、发布来源等信息,并据此进行抓取信息的排列和分类 b、能准确提取网页中的标题、正文、发表时间、来源等信息项,对重复文章进行排重,并对具有分页的网页内容进行自动合并 |
![]() |
兼容性强 a、加入自动识别网页编码功能,确保采集网页信息准确、流畅 b、支持简体、繁体中文网站监测,自动转换编码格式并统一保存采集文本,方便多平台展示 |
![]() |
稳定、安全 a、经过多次的升级和多项目的实践,采集程序运行稳定性好,采集速度快,占用资源少 b、采用多线程多任务并发执行实现模块7*24小时不间断安全运行 |
![]() |
操作简单 操作简单,自定义的选择配置操作,无需专业IT人员,不懂html语言的人都可以通过简单培训即可轻松掌握 |
![]() |
支持采集流程 模拟人的操作思维模式,可以登陆,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程 |
![]() |
支持图文识别 内置可扩展的OCR接口,支持解析图片中的文字,可将图片上的文字提取出来 |
![]() |
支持定时自动采集 采集任务自动运行,可以按照指定的周期自动采集 |