Sunday, July 16, 2006

搞笑的google翻译

这几天在做关于自然语言理解和产生的一些事情,什么基于统计的方法、规则的方法等等搞得有些头大。

今天无聊之中,想试试 google翻译 (google translate) 的质量如何,就随便做了些测试,下面是一些结果。可以看出来,google翻译 有些可取的地方,不过总体来说,还是有不少问题。

从测试的结果(特别是最后一个例子)来分析,可以看出 google 采用的是基于“统计学习”的方法来进行自然语言理解和翻译的,好处是可以充分利用 google 的大规模数据的资源,但是缺点也是显而易见的,太过于粗糙了,更没有考虑到词汇之间的关系,比如利用 grammar rules 来分析句子的结构等等。看来 google 还要在 “自然语言理解” 方面储备更多的技术才行。

发现有些可取的地方,比如说下面这句话(由英文翻译为中文):
This translation work is so difficult that I can not understand.
这个翻译工作非常困难,我不明白.
但是如果我吧其中的“work”去掉,翻译的结果却变成了:
This translation is so difficult that I can not understand.
这将是艰难的,我不知道.

不过下面这些结果就有些不知所以、甚至有些搞笑了,比如:
This man kicked the girl whom I loved.
我这个人喜欢踢女孩.
而如果将“whom”改为“who”,结果却又变成了:
This man kicked the girl who I loved.
这位姑娘我喜欢踢.

随便再写个句子,结果为:
this person kicked my loved girl.
我这个人喜欢踢女孩.
把句子中出现的词汇的顺序随便换一换,竟然出现的还是同样的结果!:
this my loved girl person kicked .
我这个人喜欢踢女孩.

作为参考,yahoo新推出的 翻译服务 就似乎采用了一定的 grammar 的东西,所以结果在某些方面要比 google 的好些。

No comments: