【友盟+】开发者社区

灵玖软件:NLPIR全文精准检索文本数据

数据人生 发表于 2017-12-20 15:54:03 | |阅读模式

数据人生
数据人生 发表于 2017-12-20 15:54:03 | 显示全部楼层 |阅读模式
  互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。在针对大数据的搜索中,普通的检索技术能在一定程度上满足对大数据的搜索需求,但结果可能会包含大量无关、冗余的信息,信息粒度偏大。用户需要提炼自己的需求,并以适当的关键词表达出来,但这对没有检索经验的普通用户来说有一定难度。
  在检索系统中,结果合并要占用很多时间。如果切分的粒度过小,在结果合并的时候就要花费更多的时间。对于基于字切分的检索系统来说,在查询表达式比较长且二字词较少的情况下,检索效率要比基于词切分的检索系统低很多。
  信息检索涉及信息检索、信息过滤、文本分类、自动文摘等相关技术,它是在信息检索基础上的细化;新信息检测具有时序性,即对于内容相同或相近的句子,最新出现的应被检出(先前出现的相似内容属过时信息)。
  信息检测是一个复杂的问题,它涵盖了浅层语言分析、文档检索、句子检索、新信息检测等四个过程,且每个环节都存在着多种变化因素。各种各样的因素都会直接或者间接地影响着新信息检测的最终性能,甚至说某个技术环节的小技巧都很可能提高或者降低最终性能。
  语言模型是一种基于概率的检索模型,它认为每个文档对应一个统计语言模型(称为文档语言模型),描述了该文档中各个单词的统计分布特征,而每个文档看作是由其语言模型抽样产生的一个样本。语言模型对文本检索的准确率有至关重要的作用。
  NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
  NLPIR全文精准检索系统内核是经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。
  同时,全文精准检索可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
  其主要特色在于:
 1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;
 2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;
 3、实现的是多线程搜索服务;
 4、每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。
 5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。
  目前常用的互联网搜索引擎系统,考虑到应用的需求,没有对数据库的内容有效管理和储存。而许多网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。NLPIR全文精准检索系统考虑到实际应用需要,除了具备搜索引擎系统具备的采集功能外,还实现信息数据分类精准,极大的提高了数据挖掘的效率。




上一篇:UnknownHostException "stats.umsns.com"
下一篇:极速赛车冠军定位+精准选号群444370

您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

发表主题

精彩推荐

如何使用智能短链?
如何使用智能短链?使用场景:线下扫码、官网扫码、邮件推广、资源互换等,这些非广告平台的定向推广模式,
大数据商圈分析:消费者只看不买,怎么办?
以前,商场坐落在市中心的繁华地段,就引进高档轻奢品牌;在写字楼林立的商务区,就定位快时尚;在高档小区
区分搜索引擎关键字效果,拒绝推广费打水漂
区分搜索引擎关键字效果,拒绝推广费打水漂 当您通过搜索引擎推广时,通常会选大量的目标关键词,但却无法

关注我们

新浪微博
微信

欢迎关注友盟官方微博微信!

在线客服
返回顶部 返回列表