新火娱乐彩票|许昌春秋网络科技有限公司
 
 
 
 
域名注册 空间租用 网站建设 烽火台 搜索优化 网络推广 400电话
 
新火娱乐彩票|无标题文档
 
公司新闻  
咨询中心  
建站课堂  
常见问题  
营销宝典z  
          新闻中心 首页 > 新闻中心 > 常见问题
网站布局之TF-IDF算法
发布日期:2018-8-13 8:28:41   浏览次数:292

网站布局之TF-IDF算法,说白了在我理解来,这个算法就是通过一个的数学计算,来确定每个词在文章中的权重,从而得到一篇文章的关于词的带权重的向量,知道了这个以后就好办了,之后什么文章关键字提取、概述、不同的文章之前的相似性比较都引刃而解了。
求一个词的权重就用到TF-IDF算法,其实TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。
说起来也简单,TF就是这个词在文章中的词频,出现的次数比上文章的总次数或者出现次数最高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了防止分母为零。这个数学的表达式也符合情理,如果关键字(除去“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重自然就低了,举个简单的例子:给你一个关键字计算机,你一点也不知道这货表达的意思,因为(从这个算法角度讲)它在太多的文章中出现,但是如果你的关键字为0day就不一样了,包含它的文档数远远小于包含关键字“计算机”的文档数。由此,如果在同一篇文章里,如果“0day”与“计算机”的TF(词频)相同,IDF就可以保证“0day”的权重较高了。
基本的算法就是这样了,其实很简单,但是这个算法是基于这样一个前提,关键词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在漏洞。
虚位以待
许昌人才 南阳网络公司 郑州网络公司
郑州网络公司 许昌百度推广
许昌网页设计 许昌网站制作 许昌网站建设
版权所有 © 许昌春秋网络科技有限公司
客服电话:0374-8091995 8090300 地址:许昌市春秋广场东侧棉麻办公楼403室
客服电话:0374-8091110 8097105 地址:新兴路与仓库路交叉城市之心7号楼1单702室
传真:0374-2662321
  • 春秋销售部:
  • 春秋客服部:
  • 春秋商务部:
  • 春秋技术部:
  • 春秋宣传部: