`

(转:) 谷歌正在解决敏感词的烦恼

 
阅读更多

(转自:) http://www.jz123.cn/text/0651528.html

 

 

  两年前的一个深夜,我独在网络上徘徊,遇见S君,前来问我道,“先生可曾知晓您的名字已经成为Google的敏感词?”我说“没有”。他就正告我,“先生去试一下吧,Google搜索引擎已经把您的名字屏蔽了。同时,L君和O君的名字也被屏蔽了。”

  看到这个消息,我暂时性地短路了。S君的头像又在一闪一闪的,点开来看:“先生干什么出格的事儿了吗?有啥需要帮忙的吗?”

  于是我大脑里立马闪现出《非诚勿扰》电影里葛优在教堂里忏悔的那个镜头,从小时候偷鸡烤来吃开始算起,到借看手相摸女同学小手,再到…………没有什么能上纲上线的大事啊,总体还算良民一枚啊。

  怎么回事呢?于是想到了万能的微博:

 

 

  微博果然万能,答案很快知晓。比如李开复的回复:“不是你,是你的姓。我也一样。”原来,是因为我姓“刘”了,而且有个官员也姓刘。好吧,姓刘的所有人名都不能在谷歌里被搜索了。

  这个时候,谷歌的敏感词词库在不断的壮大,对于用户来说,于是经常碰到“无法显示此网页”的错误提示。这还不算啥,更为糟糕的是,当出现这样的错误提示之后,在之后的几分钟内,你,就别想再使用Google搜索了。

  对于用户来说,一切都是未知的。于是,不知情的用户们把所有的愤怒都尽情的洒向了谷歌,痛斥着谷歌的不稳定,传播着谷歌的不可靠。

  消息源源不断的被反馈到了谷歌,他们坐不住了。

  据谷歌知识高级副总裁艾伦·尤斯塔斯(AlanEustace)昨天的文章透露,“经过长期严格的自我系统检视,我们未能找到任何问题。”这说明,全世界技术最NB的这家公司,发现这个问题不是他们造成的。“然而,在认真研究用户使用报告后,我们注意到这些连接中断与搜索某些特定字词有着密切关联。”

  于是,谷歌开始着手解决这些敏感词带来的烦恼。昨天,这个新玩意上线了,他们是这么解决的,比如搜索我的名字:

 

 

  用户搜索时,谷歌会给出一个提示:“请注意在中国大陆搜索[刘]很可能导致用户与谷歌的连接暂时被阻断。此阻断并不受谷歌控制。”

  如果我是外交部的官员,这个时候应该会特别愤怒,因为谷歌的提示明显山寨了他们的口气。不管如何,谷歌想通过这个提示撇清自己的责任。

  同时,谷歌会醒目的用黄色字体标出到底是哪个字词出现了问题,成为了敏感词。比如,图片中的“刘”字。

  用户如果要一意孤行,点击“仍然搜索”,那后果跟从前一样惨。如果想要结果,那就修改查询字词,比如换成汉语拼音“liuxingliang”。

  通过这个方法,谷歌想尽量减少由于敏感词而带来的搜索中断,从而给中国大陆的用户带来更好的搜索体验,同时,也尽量少的挨骂。

  作为一个中国大陆的用户,对谷歌的这种“不抛弃不放弃”的精神深深感动。但是,谷歌的这个新玩意也会带来另一个直接的后果,这个后果会让一个群体很难堪。是哪个群体呢,有些事不能说太细,试举一例:

 

 

  作为一个正常的用户,这个时候肯定会破口大骂:抄泥马,因为一个人就连“江苏”都不让搜索了?

  唉,谷歌啊谷歌,你这样做,把一切都大白于天下,让那个群体,情何以堪啊!


分享到:
评论

相关推荐

    sensitiveWordFiltering:多模式匹配 敏感词审核 支持谐音,特殊符号分割敏感词

    sensitiveWordFiltering支持敏感词谐音、符合分割。敏感词:傻瓜处理前:你是个傻瓜,啥挂,傻-瓜。处理后:你是个**,**,*-*;

    laravel-snstvwd:laravel框架的敏感词过滤器

    敏感词过滤器 PHP基于确定有穷自动机(DFA)敏感词过滤器,支持 Laravel 框架。 安装 1. 利用composer安装包 $ composer require snstvwd/filter 2. 在config/app.php 里面添加: 'providers' => [ . . . ...

    sensy-words-filter:用于过滤出敏感词列表的软件包

    感性词 设置 $ npm install sensy-words-filter --save 用法 const { sensyWords } = require ( 'sensy-words-filter' ) // ES2015 modules import { sensyWords } from 'sensy-words-filter' 用星号替换黑名单中的...

    利用Python正则表达式过滤敏感词的方法

    问题描述:很多网站会对用户发帖内容进行一定的检查,并自动把敏感词修改为特定的字符。 技术要点: 1)Python正则表达式模块re的sub()函数; 2)在正则表达式语法中,竖线“|”表示二选一或多选一。 参考代码: ...

    敏感词检测——C语言代码

    本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下标对应的数组元素的值...

    C++ DFA实现敏感词匹配

    该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...

    敏感词过滤.zip

    敏感词过滤.zip

    java敏感词检索工具

    java敏感词检索工具,用于社区等提问信息的过滤检索;

    QT版本DFA敏感词过滤

    该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...

    java敏感词过滤功能

    java敏感词过滤功能

    Go-golang敏感词过滤

    golang 敏感词过滤

    敏感词检测api接口源码

    直接上传网站空间后调用:http://你的域名/str.php?str=检测的语句内容,返回结果为json,非常简单的一个demo,速度很快,含超大的一个敏感词库,3个文件实现敏感词检测api

    敏感词过滤

    Author: Richard Zhang. ... This library filters sensitive phrases by user's configuration. Currently, only support UTF8 & ANSI encoded strings. The matching rule is max-length-matching, the library ...

    高效敏感词过滤JAVA实现(DFA算法) 5000字2ms

    高效敏感词过滤JAVA实现(DFA算法) 5000字2ms 节点 + 2进制标识(节省空间/提高查询效率) 附源码、注释,附带专业敏感词库(3396个敏感词) 看得上就拿去用,替换下一两处util方法、改个路径即可 不求什么,...

    敏感词管理及过滤

    MFC程序,实现对敏感词的管理,包括增删改,以及敏感词的过滤。

    敏感词过滤软件

    软件名称:敏感词过滤软件 软件目的:敏感词替换 截图 上传微薄 开发环境: vc++6 这个是一个学习vc++的一个业余工具,本人声明本工具不带有任何政治倾向, 本人是遵纪守法的好公民。 基于以上原因,由本工具直接...

    敏感词检测.zip windows免安装版

    敏感词检测程序,离线版,不需联网,可用于检测文本是否包含了敏感词

    design-documents.zip_敏感词_敏感词词库_舆情分析_舆情监控_舆论监测

    建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的舆论,即回帖的回帖或支持、顶等 达到一个预先设定的阈值; 舆情分析子系统: 汇总网站舆情:汇总整个网站的舆情监控信息,自动...

Global site tag (gtag.js) - Google Analytics