信息采集
强大异构资源整合搜索,企业级的信息搜索应用:easyDig搜索引擎不但能搜索网页内容,而且能搜索各种文本、HTML、RTF、OFFICE文档、PDF等文件系统,以及散布在企业各个角落的邮件、图片等非结构化数据, 从而提供更加全面的企业信息搜索应用。
采用并发搜索技术和集群服务技术,提供高效搜索:easyDig全文搜索引擎采用多线程并发搜索技术,智能分配线程数目,实现多线程并发搜索,大大提高信息采集速度。同时,结合分布式技术和Cache缓冲技术,从而提高信息采集效率,缩短信息采集时间。
个性化的配置,满足个性化的需求:系统支持用户进行个性化的配置,包括:采集任务调度(任务开始时间,监控周期等)、采集资源类型配置(HTML文件,XML文件,图片文件,各种格式化文档或者各种多媒体文件)、采集范围设置(限定的URL和限定的域)、采集的数量配置等,从而满足用户个性化的需求。
智能索引
自动内码转换和垃圾信息过滤:系统提供对于不同内码的自动转换,并进行统一存储和管理,也可以方便的对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,获取需要的精确内容信息。
智能化分词技术:采用智能中文切词技术,避免中文检索的歧义与多义现象,同时采用相关性算法对网页进行排序,保证检索相关性最高的页面放在最前面。
智能化的分类技术:系统具有灵活准确的自动分类模块,不仅能够根据关键字、布尔逻辑,以及来源等多种信息属性进行自动分类,更采用了先进的KNN和SVM算法的自然语义智能自动分类。既能提高分类的准确度,使用起来也更加方便灵活。
全文检索
强大的非结构化数据管理功能:系统支持包括文本、HTML、XML、RTF、OFFICE文档、PDF等多种格式文件的存储、索引和检索。支持多媒体数据的存储管理。支持多语种、多编码管理。
采用先进的中文自然语言处理技术,提高查全率和查准率:系统采用智能分词技术,信息关联技术,搜索频度技术和相关算法,大大提高了信息搜索的查全率和查准率,实现智能化的精确检索。
全面的检索功能:系统具有搜索引擎的优秀检索功能和性能,为用户提供强大丰富的检索功能。如完全支持布尔逻辑检索、支持n阶渐进检索、支持同义词检索、支持自定义用户词典,拼音检索,模糊检索,相关检索等,并可以由系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。