华晨宇爸爸华福雄
近日, 2018国际知识发现与数据挖掘大会(KDD)公布了今年论文收录情况,360搜索实验室共有4篇论文(2篇长报告论文,2篇短报告论文)从近千篇中脱颖而出,被KDD 2018收录(长文录取率约10%)。360搜索实验室致力于人工智能、数据挖掘、深度学习等前沿技术并将先进技术进行产品化落地,一直非常重视学术和工业界技术交流,已经在IJCAI、AAAI、 、 ICDM等国际顶会以及TKDE、 TPAMI、 TIST、TAC等国际期刊均有论文发布。
KDD,全称Knowledge Discoveryand Data Mining,即知识发现与数据挖掘,是由美国计算机协会(ACM)下的数据挖掘分会举办的国际数据挖掘盛会,每年吸引了世界数以万计人工智能科研人才和应用人才参与。据了解, KDD 2018共计收到有效论文983篇,收录181篇(107篇长报告论文,74篇短报告论文),其中不乏国际知名院校和互联网企业尖端人才参与。今年8月19日-23日,KDD 2018将在伦敦召开,被收录论文的作者会进行现场宣讲。
本次收录论文主题围绕360搜索产品,在用户建模与个性化推荐,Web语义挖掘,社交挖掘,深度学习与对抗神经网络GAN,图像检索和编辑等科学问题上进行深入探索。论文主要涉及领域及概要如下:
“投资者通常会利用搜索引擎寻找相关价值信息帮助其最终决策,而这些决策过程大部分是依靠人的分析判断以及经验。事实上,互联网中的股票评论包含了丰富且有价值的信息,能够帮助投资者理解市场走势以及股票动态。已有的股评分析方法通常仅仅聚焦在捕获股评的情感极性,从而理解股评对于市场走势的宏观作用。然而,互联网中的股评往往包含了大量的噪声如水军以及个人主观倾向从众心理等,从而严重地影响投资者的判断。因此如何利用人工智能技术自动地为股民和股票分析师从海量信息中精选优质股票是一个亟待解决的挑战。
为了解决这一难题,本研究提出了一个对股评进行可靠性建模的解决方案。该方法是一个统一的框架,融合了多种异构信息源,例如股票价格时序、股评文本内容以及发表股评的股票分析师的历史行为。首先,通过分析历史股评发现股票分析师的情态模式。其次,从多源时序数据中提取关键特征。基于这些特征,本研究提出了一个集成学习框架来度量股评的权威性,从而最终实现优质股票的精准推荐。最后,通过一年的实验模拟仿真以及真实股票市场实际操作验证了该方法的有效性。”
“随着社交和电子商务平台的流行,网络用户在各大平台上产生了大规模的用户行为信息(比如用户交易记录和产品评论数据)。用户产生的数据流有以下几个特点:时序、连续性和高速度。这些特征给现有的推荐技术带来了巨大的挑战。尽管当前已经有一些基于递归神经网络的时序推荐方法被提出,但仅仅能够应用于基于session的推荐场景,从而很难捕捉用户的短期用户兴趣以及保留长期兴趣。
本研究提出了一个基于神经内存网络(Neural Memory Networks)的流推荐模型,此模型拥有一个外部的大容量内存,同时有特殊设计的读写操作,因此能够很好地以一种统一的方式捕捉用户的短期兴趣和识别并保留长期兴趣。同时进一步提出了一个基于对抗神经网络(GAN)的负样本采样框架用于优化上述模型,从而能够有效地克服传统采样方式中存在的诸多问题。最后,在两个大规模数据集上的一系列的实验表明提出的模型能够有效应对流数据的推荐场景。”
“搜索从传统网页连接逐渐更多元的内容连接,而传统的同构网页网络也逐渐演变成复杂的异构网络。异构网络作为新的特征对搜索相关性将发挥作用。而通常异构信息网络嵌入是为了将异构的信息网络表示在低维度的空间里,其中每个网络顶点被表示成一组低维向量,同时,这些低维向量保留了全局和局部的网络结构。然而,大多数现有异构网络嵌入学习方法采用了向量内积来衡量低维空间中网络节点的相邻性,因此这种方式只能保留网络节点间的一阶相似性,而不能保留网络的全局结构。相对于同质网络,异构网络中包含了多种不同类型的边(节点之间不同种类的关系)。同时,这些不同边的数量分布是极其的不平衡的。
为了解决以上具有挑战性的问题,本研究提出了一种创新的基于度量学习的异构网络嵌入方法(PME)来联合捕捉网络节点之间的一阶相邻性和二阶相邻性。为了减轻现有基于度量学习的方法所存在的几何非灵活性问题,我们提出将顶点和边分别建模在不同的低维空间而不是在同一个空间里。然后,我们通过将顶点投影到特定的指定边空间里来计算顶点间距离,从而学习到需要的嵌入表示。此外,为了解决边数量分布的高度不平衡性,以及避免在特定边上的过度采样和欠采样问题,本研究提出了一种创新的损失自适应采样方法来优化模型。在大规模的异构网络数据上的大量的实验验证了提出的PME模型在预测准确性和大规模扩展性上的空前表现。”
“许多重要的数据挖掘问题可以被建模为学习两个数据域之间的(双向)映射。基于生成对抗网络(GANs),特别是条件GAN,跨域联合分布匹配是一种日益流行的解决此类问题的方法。虽然取得了重大进展,但现有方法仍有两个主要缺点,即需要大量的配对训练样本和众所周知的模型不稳定性。
为了解决这些问题,本研究提出一个多视图的对抗推理学习(ALI)模型,简称MALI。与学习直接域映射的一般做法不同,该模型依赖于两个域的共享隐含表示,并可以生成任意数量的配对伪造样本,从通常很少的配对样本(以及充足的未配对样本)中就足以学习到好的域映射。在图像翻译、图像到属性的生成(多标签分类)、基于属性的图像生成等任务的实验表明,本研究提出的半监督学习框架带来了显著的性能提升。跨模态检索的结果表明,与在高维数据空间计算相似性的方法相比,我们基于低维隐含空间的方法能够以更快的计算速度实现性能相当的相似性搜索。”
以上4篇论文,就研究领域中具有挑战性的问题,如网络股票评论中大量噪音的存在、流数据场景下的用户推荐精准性不足、异构网络嵌入学习方法的局限性和跨域联合分布匹配方法的缺点,给出具有建设性的创新模型解决方案。同时,这些模型也对多个搜索应用领域,如股票信息智能搜索、“千人千面”信息流推荐、文献搜索以及跨模态检索有着独到的应用想象空间。
360搜索作为中国第二大搜索引擎,为4亿用户提供智能、安全、可信赖的搜索服务,在不断趋向智能化的时代中,持续创新,在信息推荐算法、机器改写、智能摘要等领域都有着突出成绩,极大提高用户获取信息,以及搜索引擎推荐信息的准确率。此外,360搜索还扎根人工智能技术的钻研,成立360搜索实验室攻坚最前沿人工智能科技。
近一年多以来,360搜索实验室出品了“拍图写诗”“涂鸦”等AI产品,用户已能切身感受到人工智能应用于搜索带来的趣味体验。与此同时,360搜索实验室也十分重视通过KDD这样的国际性平台,积极与学术界交流。360搜索实验室自成立以来,一直“吸引和培养国内外一流人工智能技术人才,研发新一代高效智能算法提升用户搜索体验”的,希望打通研究壁垒,为工业界和学术界互相促进做出应有的贡献。
本文由来源于325棋牌 325游戏中心唯一官方网站
网友评论 ()条 查看