信息采集
强大异构资源整合搜索,企业级的信息搜索应用:网支持文件格式有:文本、HTML、Xml、RTF、OFFICE文档(Doc、PPT、Xls等)、PDF等文件系统,以及散布在各个角落的邮件、图片、视频等非结构化数据。
采用并发采集技术和集群服务技术,提供高效搜索:采用多级并发技术,实现智能分配线程数目,实现多线程并发搜索。结合分布式技术和Cache缓冲技术,提高信息采集效率,缩短信息采集时间。
个性化的配置,满足个性化的需求:系统支持用户进行个性化的配置:采集任务调度、采集资源类型配置、采集范围设置、采集的数量配置等。
智能数据处理
智能内码转换:系统提供对于不同内码的自动转换,形成统一格式,进行统一存储和管理,默认支持的内码有:GB2312、GB18030、BIG5、UTF8、ISO-8859-1。系统支持中文、英文、日文、韩文、藏文等多种语种的存储、索引和检索。
智能垃圾信息过滤:采用智能方式实现对网页内容的分析和过滤,精准获取文章的标题和正文,自动去除广告、版权、栏目等噪音信息。系统使用机器学习技术,以及信息理论技术实现了网页的内容分析和过滤,以达到删除广告、栏目等信息。
文档智能排重:系统使用基于文档语义的技术实现文档自动排重,“相同”的文档在索引过程中仅被索引一次,解决大量相同文档的搜索问题,提高索引效率,帮助用户快速找到搜索结果。
关键词提取技术:系统能够依据文档的内容,智能的提取能够表示该文档的关键词,经过合理有效的组织后,方便用户检索。
智能摘要技术:系统能够在对文档的自然语言理解的基础上,能够对各类主题、文档,实现自动提取出摘要、自动抽取关键词,使用户在检索时能够快速的了解文章的内容,做出合适的判断,减少用户在检索上的时间消耗。
智能检索
采用先进的中文自然语言处理技术,实现100%查全率和查准率:系统采用智能分词技术和语义索引技术,信息关联技术,搜索频度技术和相关算法,大大提高了信息搜索的查全率和查准率,实现智能化的精确检索。
灵活的检索功能:系统具有搜索引擎的优秀检索功能和性能,为用户提供强大丰富的检索功能。支持检索表达式,如完全支持布尔逻辑检索、支持n阶渐进检索、支持同义词检索、支持自定义用户词典,拼音检索,模糊检索,相关检索,栏目检索、文档类型检索、信息来源检索等,并可以由系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。