内容分析和用户标签是推荐系统的两大基石。内 容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、 来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上 通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。
当然最简单的用户标签是浏 览过的内容 标签。但 这里涉及到一些数据处理策略。主要包括:一、过滤噪声。通过停留时间短的点击,过滤标题党。二、热点惩罚。对用户在一些热门文章(如前段时间PGOne的新闻)上的动作做降权处理。理论上, 传 播范围较大的内容,置信度会下降。三、时间衰减。用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特 征权重会更大。四、惩罚展现。如 果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相 关的关闭和dislike信号等。
用户标签挖 掘总体比较简单,主要还是刚刚提到的工程挑战。头条用户标签第一版是批量计算框架,流程比较简单,每天抽取昨天的日活用户过去两个月的动作数据,在Hadoop集群上批量计算结果。
但问题在于,随着用户高速增 长,兴趣模型种类和其他批量处理任务都在增加,涉及 到的计算量 太大。2 014 年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的 压力也 开始增大,并且用户兴趣标签更新延迟越来越高。
面对这些挑战。20 14年底今日头条上线了 用户标签St orm集群流式计算系统。改成流式 之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的C PU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用户的兴 趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。
当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地 点这些信息,不需要实时重复计算,就仍然保 留daily更新。事实上 ,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的优化等等,不一一举 例。评估 的意义就在于,很多优化最 终可能是负向效果,并不是优化上线后效果就会改进。
全面的评估推荐系统,需要完备的评估 体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会 深入讨论后决定。
很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。一个良好的评估体系建立需要遵循几个原则,首先是兼顾短期指标与长期指标。我在之前公司负责电商 方向的时候观察到,很多策略调整短期内用户觉得新鲜,但是长期看其实没有任何助益。
其次,要兼顾用户指标和生态指标。今日头条作为内容 分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和 平衡的过程。另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。
强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高 管理效率。这能帮助公司降 低分析成本,加快算法迭代效应,使整个系统的算法优化工作能够快速往前推进。这是头条A/BTest实验系统的基本原理。首先我们会做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。
实验 过程中用户动作会被搜集, 基本上是准实时,每小时都可以看到。但因为小时数 据有波动,通常是以天为时间节 点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。在这个系统下工程 师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组ID。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结 以及实验优化建议。
当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和 用户体验存在差异,很多指标 不 能完全量 化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。最后要介绍今日头条在内容安全上的一些举措。头条现在已经 是国内最大的内容创作与分发凭条,必须越 来越重 视社会责 任和行业领导者的责任 。如果1%的推荐内容出现问题,就会产生较大的影响 。
因此头条从创立伊始就把内容安全放在公司最高优先级队列。成立之初,已经专门设有审核团队负责内容安全。当时研发所有客户端、后端、算法的同学一共才不到40人,头 条非常重视内容审核。现在,今日头条 的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审 核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直 接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用最高的标准要求自己。
分享内容识 别技术主要鉴黄模型,谩骂模型以及低 俗模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召 回率,准确率甚至可以牺牲一些。谩骂模型的样本库同 样超过百万,召回率高达95%+,准确率80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。
泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等, 这 部分内容由机器理解是非 常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高 ,还需要结合人工复审,将阈值提高。目前最终的召回已达到95%,这部分其实还有非常多的工 作可以做。头条人工智能实验室李航老师目前也在和密
很 多站长在网站 上线前和 网站 上线后不知道做什 么,对于seo处在懵懂的阶 段,下面来为大家 介绍一下。对 于我们人来讲 ,和别人相处的第一印 象非常重 要, 如果第一次给人留 下好的印象 ,以后别人就会认可你、喜欢你,同样,搜索引擎 对于 网站也是如此,尤其是新 站 ,给搜 索引擎 留下好的第一印象非常重要 。 网 站上线 的时候,要尽量填充 好高质量的内容,这样蜘蛛第一次抓取的 时候,印象会比较好。在网站前三个月考 察期内,要把 网站建设做得 合 理。网站更新好内容上线之后,可以边更新边发高质量的外链,接 下来可以在做这两件事的同时交换一些友情链接 ,所有的操作循序渐进,把握好尺度。新 站如果一下子交换很多的友情链接 ,显然不是 十分 的合理,尤其是高权重的 单向链接就更不 合理 了,搜索引擎有可能会因 此降低对于网站的信任 度,认为该 网站有作弊的嫌疑。因此,在做好1-2周的高质 量 内容和外链后,适当交换友链比较合适,切 记 不要再买卖 链接,否则等待你 的就是网站被K。新站的改变不宜 过大,尤其是标题和描述在前 三个月尽量不要去改,很多站长在网站上线之前没 有考虑好标题和描述就随 便一写,等到 上线后频繁 修改, 这样大大降低了搜索引擎对 网站的信任度,很容易导致 降权和被K 。不管是 内容更新、外链建设还 是其他 优化元素, 网站 建设终归不是一蹴 而 就的事 情,需 要我们长久的坚持 ,权重是慢慢 积累的,这样排名才能 够
在SEO中,关键词挖掘非常非常重要。今天,重点是如何找到用户的行为,或者换句话 说,如果你去研究用户做SEO?首 先, 我们要明确网站上的目标客户 群体是什么,销售服务或销售产品,或者制作信息来销售广告,因为每 个人的SEO 思维都是不同的。对于他们来说,不需要任何基本的SEO理论或案例。人们需要 更 多的资源,需要进一步完善自己。 其次,我们知道我们的目标群体,SEO初学者,操作人员,或者技术相 关的文章,然 后分析他们关注什么,他们如何知道他们关注什么?一是通过添加一些相关的组织 ,如 SEO团体,一些论坛,寻找 人来问,要求凭证,或使用第三方关键词挖掘工具,或者搜索引擎, 如百度下拉框 ,作为一个新人,比如搜索SEO,什么是SEO的意思,SEO优化,搜索引擎优化。询问,等等,有很多人在搜索,如果他在北京,深圳,也 会搜索本地搜索引擎优化或其他。再次,收集这些词,与你提供的服务又相符合。然后你将再次挖掘、扩展、分类和分类关键 词。当然,如果这些关键词是有价值的,我们必 须再去看看。 什么是域名:域名是我们建设网站的基本要素。它是用户通过 互联网访问我们的网站。用户如何访问我们 的 网站?我们需要给他一个 独特的地址,我们 称之 为域名。 域名组合:域名+域名后缀=第一级域名( 也称为顶级域名)。当我们根据我们网站的关键词购买域名时,我 们的域名被创建。域名后缀是固定的。当我们购买域名时 ,我们可以根据 需要选择不同的域名后缀。常 见的域名后缀:. com,. cn, . net ,.Org 。Edu,等等。每个域名的后缀都有其特殊的含 义,例如。主要用于商业活动或公司。 Net主要应用于网络 服务提供商,Cn是国家域名和中国的缩 写。Org是 指非营利组织类型的网站,。Edu是科研机 构的域名后缀。
域名特点: 第一:唯一性。一旦注册了域名,域名就是世界 上唯一的域名。 第二: 稀缺性,因为好的域名是非常小的,例如,我们 说love.com包括百度等域名,我们会感觉 很好,但是因为域名的唯一性,一旦注 册了,我们就永远 无法注册 域名。 域名价格及购买方式, 第一个是第一年的价格,因为一些运 营商在第一年就开始吸引客户,所以 他会打很低的 价格。 第二,续展的价格是每年55元左 右。另一个 是转向价格,比如你的域名经销商 注册域名,然后其他D NS吸引你,在他的平台上购买域名,他会给你一个很低的转让价格。 说到发外链时,很多人都非常敏感,因为可以带锚 文本的地方太少,不容易找到一个外链渠道是只有纯文本 链 接,每个人 都很沮丧,觉得这个链接是没有用的,而且没有 意义,真的是这样吗?鉴于许多人有这样的疑问,以下是关于纯文本链在排 名中的作用的一些看法: 纯文本链对排名的作 用! 首先,纯文本链接将增加web 站点的域值。一个网站在互联网上留下的痕迹越多,它就越能帮 助搜索引擎了解我们的网站,这实际上是一次投票。 第二,这样的外链也可以吸引蜘蛛到我们的网站,可以帮助蜘蛛抓取网站的内容,只要我们外链形式足够宽,搜索引擎对我们的网站帮助很 大,非常有利于我们的网站第三,它也 可以增加我们网 站的关键词排名的相关性,只要一些网站的关键词围绕这类外部链展开,关键词可以间接添 加到我们网站的关键词中。 第四,最重要的是我们也可以为我们的网站带来很多用户,这样更多 的用户可以联系和了 解 我们的网站。如果内容足够好,可以满足用户的需 求,留住用户,也可以帮助搜索引擎给网站打