Friday, July 21, 2006

看Google:原来新闻分类这么简单

看了 Google 黑板报 上介绍的关于新闻分类的文章,突然发现原来进行新闻(或者文档)的自动归类是这么的简单:


只需要把文档进行分词,找到每个词出现的频率(TF/IDF),把某个文档量化成向量;然后通过余弦定理,很方便地计算出不同文档之间的相关度就可以了。

第一次发现原来数学的用途真的这么大。

从进大学的时候,甚至到现在,都有些不太明白学校为什么要安排那么多的和专业课程无关的科目,比如说数学。从进入大学开始,就连续3个多学期的数学课程,什么高等代数、微积分原理等等,搞得很是头大。那个时候就在不断抱怨,认为学这些东西纯粹是在浪费时间,以为以后专业上绝对用不到这些知识的。现在看了 Google 的这些介绍 “数学之美” 的系列文章,才发现数学真的无所不在。

No comments: