芒果互动传媒(深圳)有限公司
新闻中心

新闻中心

汇集移动广告行业热点资讯和变现指南,激发移动应用广告变现增长无限可能!

当前位置: 首页 > 新闻中心 >

关键词提取技术解析:从TF-IDF到深度学习模型

时间:2025-03-16 13:09:19 浏览量:609

【小编提醒】芒果聚合广告平台,为开发者提供高效、便捷的广告变现方案,一键接入穿山甲、快手、优量汇、百青藤等多家广告联盟,支持开屏、banner、插屏、信息流、激励视频等多种广告形式,配备专业广告优化师精细化运营管理,帮助APP\小程序开发者优化每月>20%的增长收益,立即体验

【热门产品】APP广告变现收益测算 | 广告变现方案

【热门阅读】APP开发:APP商业化变现的6大常见模式

页面

互联网时代,网络方便了人们生活的同时,海量的网络数据信息也成为潜力巨大的价值资源。尤其对营销者来说,当前企业拥有的数据已经不足以支撑其日益精准、高效的营销需要。因此,从互联网这个庞大的非结构化数据库中有针对性的采集、提炼和分析出有价值的信息,已成为其洞察消费者、制定正确营销策略的迫切诉求。

基于此,广告联盟推出“页面关键词”提取技术,利用爬虫抓取用户浏览页面行为,再通过算法快速的把不规则页面进行结构化处理,从而进一步挖掘出有价值的数据来指导广告主进行精准投放。

“页面关键词”提取的核心价值

1、提高人群画像的精准度和丰富性

数字营销时代,广告从媒介购买转为对受众购买的阶段,精准营销渐成主流。而精准营销的核心是用户画像。所谓用户画像,即通过用户线上浏览行为、搜索行为、购物行为等,来勾勒出一个用户的商业全貌,以帮助广告主从广泛的受众中精准定位目标人群。而广告联盟“页面关键词”提取技术,正是基于全方位整合用户网上浏览页面行为以后,提取关键词来高度概括页面主题,进而细粒度地推断、刻画出受众对某件事、某领域的兴趣程度,甚至反映受众的真实三观。从而提高人群画像的精准度和丰富性,更好的满足广告主对人群数据采集和洞察的需求。

2、根据页面内容做广告定向投放

试想一下,最近你的新房亟待装修,当你正在浏览一篇《菜鸟必看装修攻略》的时候,正好在页面下方看到某家装品牌推送的绿色环保涂料产品广告,这是不是会戳中你的 g 点,甚至引起你的购物冲动?广告联盟“页面关键词”提取技术,正是为后期广告联盟dsp 进行“页面关键词”定向投放做准备。即通过分析每个页面的文字、语言、主题、结构等元素,提取关键词,再将企业的推广信息投放在具有对应关键词的受众当前浏览页面上。诸如上例,某家装企业为其产品设定了“装修”关键词,系统会在所有具有该关键词的网页上展示该客户的广告。

“页面关键词”提取的实施步骤

备注:在实际操作过程中,“页面关键词”提取技术的流程和应用到的算法复杂且高深,小编在下文只选取其中几种算法做个入门级介绍,以期让读者对该技术有个初步认知和了解。

第一步:正文提取

如果把完成“关键词”提取比作烹制一道美味菜肴,那可以说:正文提取则是做菜前的必需步骤选菜。因为再出色的厨师也无法将带有黄叶、烂叶和泥巴的菜做成美味。因此,能不能高效、准确的将一个页面的正文抽取出来,是影响后续提取关键词的首要前提。

如何提取正文?一种“基于行块分布函数的通用网页正文抽取”算法,可以实现较好的效果。众所周知,大多数网页中除了包含正文外,还包含许多噪声信息,如网站的导航信息、相关链接和广告以及一些脚本语言等。而行块分布算法可以对抓取回来的页面进行清洗、去噪和结构化分析,进而高效、准确地定位页面正文。

第二步:分词处理

提取出正文以后,在进行文本主题提炼之前,有一个步骤必不可少,即要先对文档进行分词处理。所谓的分词,就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词是后续进行文本挖掘的基础,即对于一篇文章,成功的进行分词,才可以达到电脑自动识别文章内容含义的效果。

现有分词算法种类繁多,而我们重点应用的是实验证明出效果更好、错误率更低的“逆向最大匹配算法”。即从句子末尾开始处理,每次匹配不成功时去掉前面的一个汉字。

算法应用思路:

(1)循环的读入每一个句子s;

(2)设句子的字数为n;

(3)设置一个最大词长度,即要截取的词的最大长度max;

(4)从句子中取n-max到n的字符串subword,去词库查找是否有该词。如果有就走5,没有就走6;

(5)记住subword,从n-max付值给n,继续执行4,直到n=0;

(6)将max-1,再执行4。

举个栗子:

输入例句:s1=“装修省钱小窍门” ;

定义:最大词长maxlen=3;s2= “”;分隔符 = “/”;

假设存在词表:…,装修,省钱,小窍门,…;

逆向最大匹配分词算法过程如下:

(1)s2=“”;s1不为空,从s1右边取出候选子串w=“小窍门”;

(2)查词表,“小窍门”在词表中,将w加入到s2中,s2=“小窍门/”,并将w从s1中去掉,此时s1=“装修省钱”;

(3)s1不为空,于是从s1左边取出候选子串w=“修省钱”;

(4)查词表,w不在词表中,将w最左边一个字去掉,得到w=“省钱”;

(5)查词表,“省钱”在词表中,将w加入到s2中,s2=“ 省钱/ 小窍门/”,并将w从s1中去掉,此时s1=“装修”;

(6)查词表,“装修”在词表中,将w加入到s2中,s2=“ 装修/ 省钱/ 小窍门/”

并将w从s1中去掉,此时s1=“”;

(7)s1为空,输出s2作为分词结果,分词过程结束。

第三步:关键词提取

如何知道用户兴趣点、关注点在哪里?我们需要分析出文章的主题,即知道用户到底“看了什么”!那么,完全不加以人工干预,如何才能准确做到提取出页面关键词,概括主题特征?应用 tf-idf,一种用于资讯检索与数据挖掘的常用加权技术算法。

这种算法通过计算 tf,即词频,和 idf,即逆文档频率以后,用 tf*idf 得到了一个词的 tf-idf 值。此值越大,代表某个词对文章的重要性越强。最后,选取排在最前面的几个词,来作为文章的关键词。

算法应用思路:?

计算词频

例:假如一篇文件的总词语数是100个,而词语“装修”出现了3次,那么“装修”一词在该文件中的词频就是3/100=0.03。

计算逆文档频率

例:如果“装修”一词在1,000份文档出现过,而我们历史积累的文档总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。

计算tf-idf

例:tf-idf 值为 0.03 * 4=0.12。

“页面关键词”提取的实际效果

目前,广告联盟通过爬虫技术,以每日抓取主流网站 500 万+ 优质页面的量级开展页面关键词提取;并进一步将关键词进行行业分类标签管理,词库已包罗 10万+ 热频词。在当下精准化、个性化推荐大行其道的时候,广告联盟“页面关键词”提取技术以全面、准确、真实的用户浏览行为数据信息为基础,实现了全景式、丰富化用户画像描述的同时,也帮助广告主和代理商深入洞悉受众浏览行为及场景,让广告展示的时机刚刚好,从而减少对用户的干扰。从目前的运营反馈结果来看,将该技术应用到实际广告投放中,到达率可提高 20% 左右,全面提升了展示广告的效果!

热门搜索:芒果联盟 | APP广告变现方案

芒果聚合广告平台 一键接入,低成本,高收益

芒果移动Mgmobi,一站式APP流量广告变现平台,接入快,收益高,专人优化,助力开发者APP高效广告变现!收益提高20%-80%

相关词条:广告 | 安卓App广告联盟 | APP发版 | 小程序UI框架 | APP运营 | 短剧资源一手渠道对接 | App中加入广告 | APP广告变现 | APP变现知识

芒果联盟商务

平台商务(黑加仑)

芒果联盟商务

平台商务(人参果)

免责声明:本站文章来源于互联网,文章为作者独立观点,不代表本站立场。如有侵权,请联系我们。

登录 注册
扫码咨询