什么是内容兴趣偏好标签呢?
简单来说就是分析用户喜欢看的文章类型,得到用户的兴趣偏好,在这样的基础上,对用户进行内容的个性化推荐和push推送,来有效促进app的活跃并拉长用户生命周期。
这件事情简单来说其实就是两步走:
首先对文章进行分类,也就是俗称的贴标文章。
二是,给用户打标签,也就是一个用户阅读了哪些不同类型的文章,相应的就会获取到学生自己的兴趣选择偏好进行标签。
那么,在实践中真的这么简单吗?看似简单的两个链接究竟是如何工作的?
通常,有三种方法可以获取示例:
首先,文章的人工标注,优点是准确,缺点是效率低,因为算法需要大量样本,成本非常高。
另一种方法是通过一些开源网站提供模型训练的关键词,如可以从搜狗词典中获得,优点是成本低,但缺点也很明显,因为不同的分类系统对部分分类有不同的理解,分类不够准确,后期需要大量的人力来修正。
第三种方式是配合一些信息类的app,获取他们的文章和分类作为样本。比如好的比如今天的头条,uc都是不错的选择。我们当时其实也试过(一颗苦涩的泪)。
获取样本以后,就是算法模型的训练及其检验了。算法模型的训练原理,即通过对样本文章进行分词,抽取实体,建立特征工程,将每一个特征词作为向量,拟合出一个函数,这样,当有新的文章时,该文章通过分词,并通过模型计算出结果。但模型并不是能够有样本一次性就能准确的,模型还需要进行测试和矫正。