WebSpider蓝蜘蛛采集系统主要实现网页采集、互联网采集、网站采集、蜘蛛采集、网页抓取、定向采集、全网采集、垂直采集、新闻采集、博客采集、微博采集、论坛采集、元搜索、定向搜索、垂直搜索等业务应用。
WebSpider蓝蜘蛛采集系统又可以进一步细分为WebSpider蓝蜘蛛互联网定向采集系统、WebSpider蓝蜘蛛互联网全网采集系统。
- WebSpider蓝蜘蛛互联网定向采集系统
WebSpider蓝蜘蛛互联网定向采集系统可以采集指定网站上指定范围内的页面数据,然后通过正则表达式解析出页面上的任意数据项。定向采集的采集目标可以是各种类型的网站,比如新闻网站、博客网站、微博网站、论坛网站等,比如行业网站、服务型网站、内网等。系统可以根据您的需求精确地解析出网页上的各个数据项,比如标题、作者、来源、时间、正文、电话、产品、价格、评论、公司名、联系人等等,只要我们配置好被采集网站的入口URL以及解析模版。该系统的特点是精准。
- WebSpider蓝蜘蛛互联网全网采集系统
WebSpider蓝蜘蛛互联网全网采集系统不需要配置网站的入口URL,系统会自动根据用户输入的关键字通过主流搜索门户在整个互联网上进行元搜索,然后将搜索结果页面采集下来。在采集的过程中,根据预设模版对内容、标题或者您感兴趣的信息项进行自动解析或过滤性提取。该系统的特点是覆盖面广。
- WebTranslation网页自动翻译器
WebTranslation网页自动翻译器支持对中英、中日、泰英、日英等多国语言的网页进行机器翻译、机器互译,系统适合对批量的网页数据进行自动翻译,翻译速度快,可以满足快速翻译的要求。WebTranslation网页自动翻译器可以集成于WebSpider蓝蜘蛛互联网采集系统中,满足用户边采集边翻译的需求。
- WebTaskCenter任务管理调度中心
WebTaskCenter任务管理调度中心可以同时管理很多分布式采集服务器,是狼群式采集服务器的管理调度总中心,不同的采集任务被分配给不同的采集服务器。WebTaskCenter任务管理调度中心对多台采集服务器上的采集任务、url、网站、频道、栏目、分类、地区、标签等进行集中统一管理。