【友盟+】开发者社区

智能挖掘:NLPIR大数据语义挖掘文本数据

数据人生 发表于 2017-11-21 15:28:45 | |阅读模式

数据人生
数据人生 发表于 2017-11-21 15:28:45 | 显示全部楼层 |阅读模式
  大数据应用有两个场景,人工智能与 商业智能。两者都是通对数据的感知、理解、挖掘,然后形成决策支持,最终反馈到“行动”中去;只不过AI对行动的“影响”是自动化的。
  “大量”、“多源、异质、复杂”、“动态”、“价值高但价值密度低”的数据特征决定了当前的数据挖掘技术具有如下技术特征:
  (1)“大量的”与并行分布式数据挖掘算法研究
  数据的“大”通常是指PB级以上的。这一特征需要更高性能的计算平台支持,考虑大规模数据的分布式、并行处理,对数据挖掘技术带来的挑战是I/O交换、数据移动的代价高,还需要在不同站点间分析数据挖掘模型间的关系。虽然以往已有并行分布式数据挖掘算法的相关研究,但是,大数据环境下,需要新的云计算基础架构支撑。
  (2)“多源的”与不确定数据挖掘算法研究
  大数据时代,收集和获取各种数据倍受关注,更多方式、更多类型、更多领域的数据被收集。不同数据源的数据由于数据获取的方式不同、收集数据的设备不同,大数据下,挖掘的数据对象常常具有不确定、不完整的特点,这要求大数据挖掘技术能够处理不确定、不完整的数据集,并且考虑多源数据挖掘模型和决策融合。
  数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而,大数据环境下,数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪音难以避免,更值得注意的是,数据获取的目标也与以前不同,并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。
  (3)“复杂的”与非结构化、超高维、稀疏数据挖掘算法研究
  大数据下,来自网络文本(用户评论文本数据)、图像、视频的数据挖掘应用更加广泛,非结构化数据给数据挖掘技术带来了新的要求,特征抽取是非结构化数据挖掘的重要步骤,大数据挖掘算法设计要考虑超高维特征和稀疏性。也需要新型非关系型数据库技术的支持,通常表现为关系型数据库和非关系型数据库互为补充。
  超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用,发现数据中的规律。大数据环境下,深度学习与大数据的结合,也将成为寻找大数据其中规律的重要支撑技术之一。
  (4)“动态的、演变的”与实时、增量数据挖掘算法研究
  时序数据挖掘是数据挖掘领域的一个研究主题。然而,大数据环境下,数据的获取更加高速,关键是处理数据的需求在实时性方面的要求更高。早期的数据挖掘总是能容忍分钟级别,甚至更长时延的响应。现在,许多领域已经使用数据挖掘技术分析本领域数据,各个领域对数据挖掘结果响应需求存在差异,不少领域需要有更到的响应度,例如实时在线精准广告投放、证券市场高频交易等。
  (5)“高价值低密度”与聚类、不平衡分类、异常挖掘算法研究
  大数据环境下,产生了新的数据挖掘任务。其中,特异群组是一类低密度高价值的数据,特异群组是指在众多行为对象中,少数对象群体具有一定数量的相同或相似的行为模式,表现出相异于大多数对象而形成异常的组群。特异群组挖掘问题既不是异常点挖掘问题也不是聚类问题,是一类全新的问题。
  NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
  NLPIR文本搜索与挖掘系统充分融合了自然语言理解、信息检索等方面多年的技术积累,具有智能、高效、自学习三大特点:
  智能主要体现在专家启发式知识与机器学习的有机融合;
  高效体现在本系统在保证准确率的情况下,可以单机每秒处理10MB的文本数据;
  自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变。




上一篇:想问一下,如果一次发超级多的用户alias,是怎么推的?
下一篇:UmengRegistrar引用不到

您需要登录后才可以发帖 登录 | 立即注册

本版积分规则

发表主题

精彩推荐

【友盟+】首创SDK自动化测试框架,解决SDK测试痛点
作者:【友盟+】高级无线开发工程师 吴玉强、王飞 为了确保 SDK 线上运行的稳定性,我们需要在开发后进行
写文档写一半是什么意思
http://dev.umeng.com/sdk_integate/android_sdk/android_push_doc#4_4这个文档里友盟推送 使用小米弹窗功
java.lang.NoClassDefFoundError
按照推送3.0的来弄,demo也可以推送,为什么用了PushSDK,一注册就挂掉了找不到某一个类? 新手求解

关注我们

新浪微博
微信

欢迎关注友盟官方微博微信!

在线客服
返回顶部 返回列表