一点资讯王元元:追着效率跑的算法,如何把好内容关?

  • 时间:
  • 浏览:0
  • 来源:大发快三_快三开奖_大发快三开奖

由CSDN重磅打造的年终技术盛会“2016中国软件开发者大会”(SDCC 2016)日前在京举行。ThoughtWorks中国区CTO徐昊、Erlang之父JoeArmstrong、华为PaaS首席系统工程师俞岳、或多或少资讯算法总监王元元等参会并做主题演讲。

大会现场,或多或少资讯算法总监王元元完正阐述了算法对个性化内容派发带来的强大助力及其所处的瓶颈,并以或多或少资讯为案例为在座嘉宾解读了兴趣引擎如何在流量主题不变的情况下,使速率与价值并行。

他表示,个性化派发时代,基于海量数据的机器学习算法让派发速率显著提高,但往往算法提供的内容对用户的价值并必须相应的提高,或多或少资讯通过全球首创的“搜索+推荐”兴趣引擎沉淀高质量内容,并使用机器+人工的“人机智能”技术引领价值阅读,从而实现用户体验的提升。

或多或少资讯算法总监王元元现场发表演讲

以下为演讲的节选:

当当我们好,今天很高兴不不里能站在这里跟当当我们分享或多或少资讯对内容派发的或多或少想法。人工智能在整个内容派发行业,正在发挥必须重要的作用。目前,或多或少资讯的DAU日活达到42000万,用户日均阅读115万的文章。在这必须大规模的日活和用户操作行为下,当当我们派发了海量的用户数据。哪些地方地方数据也构成了利用人工智能技术提升内容派发速率的重要的数据基础。

流量时代追求速率背后隐藏着价值危机

从传统门户时代演变到现在算法驱动的个性化派发时代,流量是不变的主题。无论是流量获取,还是流量变现,速率始终是这场流量战争中的关健。

从过去的实践中可不须要看到,随着用户规模的不断增加,当当我们使用的算法,包括社会形态和模型的复杂性度不断地提升,可不须要明显地看到或多或少:用户的使用时长,包括次日留存率,须要有另三个白 非常稳定的上升过程。速率可不须要被当当我们定义的各种各样的数据指标来描述,比如点击率、等待时长。哪些地方地方指标在一定程度上反映了用户的满意度,或者哪些地方地方指标与也老会 与用户体验背离。事实上,当当我们好难去获取用户对当前向其派发的内容的全面感受,这是算法须要优化但又看必须的目标。

迎合人性弱点的算法推荐不不利于内容价值延伸及用户留存

当当我们选泽了某个月上方的所有新增用户作为数据派发目标。经过充分的冷启动刚刚,根据哪些地方地方用户在月末的画像将当当我们分为普通和高端有另三个白 用户群体,在第有另三个白 月上方,哪些地方地方更倾向于关注“原配打小三”“车祸现场”等热点、娱乐八卦资讯的普通用户等待时长上高于高端用户,也要是说,哪些地方地方社会、娱乐、热点等内容在短期内吸引力远高于长尾内容但或者当当我们再把时间放长或多或少,在接下来有另三个白 月的第一天结束了了英文,普通用户在不断的流失。在第200-200日之间,留存率方面高端用户或者反超普通用户,长期来看,高端内容用户的忠诚度更高。

這個 给当当我们的启示要是,当当我们须要做有另三个白 更有价值,对于用户来说更容易满足它多元化需求的产品,不仅包括有趣、有料的爆点内容,也包括有用、有品的细分内容平台。

必须是哪些地方因为因为算法在获得速率的刚刚巨大提升,一并带来了价值的降低?

影响算法结果的最根本的有另三个白 每项是数据和目标。

先从数据谈起,海量数据来源于用户与内容的交互行为,海量数据不一定因为特别高的价值,或者当当我们每天仅提供几十篇最热门的文章,基于或多或少资讯上的2.9亿用户,这也会产生海量的数据。但仅基于哪些地方地方数据,速率提升的天花板非常明显,再为什么在么在么优化,用户关心的就必须几只内容。在整个优化过程中,当当我们须要不断引入各个领域的专家、专业知识,引导用户生成更具价值的数据,再通过算法或者模型学习到哪些地方地方价值,再提供给用户。除了专家知识,也须要积极引导用户表达兴趣,完正基于人性弱点的被动反馈往往这么快也很获取到用户真正的兴趣,综合考虑了短期成本和长期收益的满足和试探机制,是增加海量数据价值的又一关键。

算法的第三个白每项是它学习的目标。算法特别擅长优化单一指标,比如点击率,但事实上用户对内容有多种反馈,比如等待、分享、收藏等,当然还有或多或少负向的反馈,比如“不喜欢”、“踩”,甚至投诉。有另三个白 标题党的文章往往有很高的点击率,但它的不喜欢,踩也统统,只优化点击很容易让标题党泛滥,结合多种目标一并优化可不须要显著降低标题党的流行程度。

另外,算法容易预测短期指标,难以预测长期指标。长期留存率是个特别好的优化目标,但基于当前数据你好难预测准。单纯优化短期指标,会带来短期流量的显著增加,但用户的次日或者7日留存不一定能有相应幅度的提升。而将长期的指标拆解成或多或少可优化的目标或者目标序列则是除理长期指标优化的关键。还有,现在大每项情况下,业绩追求的是用户指标的优化,或者内容平台是有另三个白 非常庞大的生态系统,尤其在自媒体的加入并参与后。或者只考虑用户,忽略了自媒体作者语句,很容易造成劣币驱良币,好的写手不再发文,伴随而至的,是有多元化需求的用户也会慢慢流失,最终系统留下的或者要是或多或少忠诚度较低的用户。

充分利用海量数据和专家知识提升速率和价值

一次推荐一般须要经过召回,排序,策略几只阶段,召回是指从特别大的有另三个白 内容候选集合中选泽出用户或者感兴趣的文章,排序须要对哪些地方地方用户感兴趣的文章做精确的估计,判断用户的点击或者性,策略阶段更多从用户的体验出发进行的或多或少规则控制,在排序阶段当当我们更多的关注是提升当当我们的速率,在召回阶段须要更多的考虑价值。

或多或少的排序模型最早使用的是基于海量动态社会形态的GBDT,GBDT必须特别好的实时更新最好的土最好的办法,当当我们使用了实时的动态社会形态来弥补這個 点,动态社会形态更新非常容易并行,使用也非常的方便。除了更新慢以外,GBDT的社会形态维度必须太高,这对GBDT的社会形态工程有了更高的要求,在GBDT上方实现的社会形态大每项须要或多或少基于动态社会形态组合而来的超级社会形态,必须使用极少量的ID社会形态,这非常不利用精确捕捉和区分或多或少长尾信号。

为了除理哪些地方地方大问题,当当我们结束了了英文使用了基于大规模离散社会形态的在线逻辑回归,刚刚倒入动态社会形态上方的组合社会形态直接作为模型的社会形态实时进行更新,从效果上看,尤其在点击率这块,提升还是非常显著的。这有另三个白 模型或者说原始的社会形态最终被当当我们融合在一并使用,融合的最好的土最好的办法当当我们也经过了或多或少的摸索,从简单的线性组合,到将GBDT的叶子节点社会形态加入在线线性模型,再到利用DNN直接将GBDT使用的超级社会形态,或多或少重要的ID社会形态embedding表示,和海量的交叉社会形态一块使用,超级社会形态和或多或少embedding社会形态先经过几层的神经网络充分交叉,最后再与海量的交叉社会形态倒入一块做出最后的预测。

在召回阶段,当当我们更多的是以价值为导向,当当我们把大问题分解成兴趣定义、兴趣发现和兴趣满足。以兴趣为核心,每个大问题当当我们积极引入专家和知识库知识,包括产品上鼓励用户的主动表达,哪些地方地方高质量的先验知识和用户主动表达形成的高质量社会形态直接参与到了内容的召回和排序。

算法还需被动反馈和主动引导相结合

上图可不须要看到用户画像的速率和点击的关系。用户表达的兴趣这么来越多,最后等待时长、点击数这么来越多,它们有另三个白 之间有非常强的正相关的关系。快速发现用户兴趣意义重大,这上方有有另三个白 大问题要除理,第有另三个白 是当须要试探哪些地方,第三个白是拿哪些地方试探,第有另三个白 是如何控制试探的成本。

第有另三个白 大问题,当当我们须要试探的的兴趣一定是目前不选泽性最大,选泽刚刚又对用户的收益最大的兴趣,当当我们结合了自顶向下和顺藤摸瓜的策略,根据整体人群画像的特点训练了从前的有另三个白 试探模型;第三个白大问题,当当我们优先选泽了在兴趣区分上信息增益比较大的内容;第有另三个白 大问题,当当我们用经典的linUCB来平衡试探的收益和代价,事实上,当当我们可不须要按照用户切分流量,使用所有的用户行为,独立更新每个用户的兴趣偏好。

今天我的演讲就在这里,现在当当我们整个内容派发行业,统统公司须要做同样的事情,有统统的最好的土最好的办法和技巧。在现阶段,当当我们在关注流量三种的一并,须要更多的关注流量的构成,思考如何不不里能提供给用户更多元,更有价值的内容。谢谢当当我们!

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户当当我们,发现稿件所处不实报道,欢迎读者反馈、纠正、举报大问题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及或者所处的风险,任何后果均由读者自行承担。