- 浏览: 436658 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (158)
- J2SE (15)
- c/c++ (17)
- linux & ubuntu (20)
- js (18)
- algorithm (21)
- android (1)
- software (3)
- svn (1)
- db (6)
- other (19)
- css (5)
- go (1)
- html 5 (3)
- computer science (1)
- php (3)
- 创业 (8)
- EJB & jboss (1)
- TDD (1)
- jsp & servlet (2)
- http, tcp & ip (2)
- hibernate (1)
- json (1)
- 乐 (2)
- ps (2)
- netbeans (1)
- extjs (2)
- eclipse (4)
- 项目管理 (1)
- varnish (2)
- study abroad (1)
- python (1)
- erlang (1)
- math (1)
- shell (1)
- assembly (4)
- lucene (1)
- web (1)
- http (1)
- tcp & ip (1)
最新评论
-
yiguxianyun:
...
css li 不换行 -
stdayong:
...
netbeans 中使用 maven -
程序猿_星:
为啥会中文乱码啊
servlet 以 gzip 格式返回数据 -
huanhuan519:
感谢分享~
gdb 调试工具 -
heyl1234:
写过些js,对css还不熟。谢谢~
css li 不换行
(转自:) http://www.jz123.cn/text/0651528.html
两年前的一个深夜,我独在网络上徘徊,遇见S君,前来问我道,“先生可曾知晓您的名字已经成为Google的敏感词?”我说“没有”。他就正告我,“先生去试一下吧,Google搜索引擎已经把您的名字屏蔽了。同时,L君和O君的名字也被屏蔽了。”
看到这个消息,我暂时性地短路了。S君的头像又在一闪一闪的,点开来看:“先生干什么出格的事儿了吗?有啥需要帮忙的吗?”
于是我大脑里立马闪现出《非诚勿扰》电影里葛优在教堂里忏悔的那个镜头,从小时候偷鸡烤来吃开始算起,到借看手相摸女同学小手,再到…………没有什么能上纲上线的大事啊,总体还算良民一枚啊。
怎么回事呢?于是想到了万能的微博:
微博果然万能,答案很快知晓。比如李开复的回复:“不是你,是你的姓。我也一样。”原来,是因为我姓“刘”了,而且有个官员也姓刘。好吧,姓刘的所有人名都不能在谷歌里被搜索了。
这个时候,谷歌的敏感词词库在不断的壮大,对于用户来说,于是经常碰到“无法显示此网页”的错误提示。这还不算啥,更为糟糕的是,当出现这样的错误提示之后,在之后的几分钟内,你,就别想再使用Google搜索了。
对于用户来说,一切都是未知的。于是,不知情的用户们把所有的愤怒都尽情的洒向了谷歌,痛斥着谷歌的不稳定,传播着谷歌的不可靠。
消息源源不断的被反馈到了谷歌,他们坐不住了。
据谷歌知识高级副总裁艾伦·尤斯塔斯(AlanEustace)昨天的文章透露,“经过长期严格的自我系统检视,我们未能找到任何问题。”这说明,全世界技术最NB的这家公司,发现这个问题不是他们造成的。“然而,在认真研究用户使用报告后,我们注意到这些连接中断与搜索某些特定字词有着密切关联。”
于是,谷歌开始着手解决这些敏感词带来的烦恼。昨天,这个新玩意上线了,他们是这么解决的,比如搜索我的名字:
用户搜索时,谷歌会给出一个提示:“请注意在中国大陆搜索[刘]很可能导致用户与谷歌的连接暂时被阻断。此阻断并不受谷歌控制。”
如果我是外交部的官员,这个时候应该会特别愤怒,因为谷歌的提示明显山寨了他们的口气。不管如何,谷歌想通过这个提示撇清自己的责任。
同时,谷歌会醒目的用黄色字体标出到底是哪个字词出现了问题,成为了敏感词。比如,图片中的“刘”字。
用户如果要一意孤行,点击“仍然搜索”,那后果跟从前一样惨。如果想要结果,那就修改查询字词,比如换成汉语拼音“liuxingliang”。
通过这个方法,谷歌想尽量减少由于敏感词而带来的搜索中断,从而给中国大陆的用户带来更好的搜索体验,同时,也尽量少的挨骂。
作为一个中国大陆的用户,对谷歌的这种“不抛弃不放弃”的精神深深感动。但是,谷歌的这个新玩意也会带来另一个直接的后果,这个后果会让一个群体很难堪。是哪个群体呢,有些事不能说太细,试举一例:
作为一个正常的用户,这个时候肯定会破口大骂:抄泥马,因为一个人就连“江苏”都不让搜索了?
唉,谷歌啊谷歌,你这样做,把一切都大白于天下,让那个群体,情何以堪啊!
发表评论
-
我们的未来在哪里
2012-11-14 11:53 14毕业已经4年多了, 刚毕业时拿着行李什么都不想就跑到了 ... -
(转) GAE+WallProxy-plugins 翻 墙
2012-08-15 03:24 8用 GAE+WallProxy-plugins, 翻 墙, ... -
日本 女足 我支持你!!!
2012-08-10 04:48 926虽然日本女足只拿了银牌, 但是你们比美国队强多了, 我支持你们 ... -
视频网站 广告 屏蔽 - 彻底版
2012-07-07 14:06 2864参考: http://joys.name/2011/09/bl ... -
(from cnn) Google warns users of state-sponsored hacking
2012-06-08 00:15 1069(this new is from CNN: http: ... -
火车票 网上订票 经验
2012-01-08 12:17 2659火车票 网上订票 经验 (以下经验是 2012年 ... -
言论没自由
2011-06-04 11:44 1微博管理员:尊敬的用户,您在2011-05-23 ... -
近来的感想
2011-04-07 20:10 1111想了很多,也许对这个社会看得太清楚,很失望,这就是命运吗? ... -
ways to abroad
2011-04-05 12:59 1052转载自: www.xxx.com 1.旅游签证 需要 ... -
gmail 无法登录 原因&解决
2011-04-03 18:25 9886gmail 无法登录现象: gmail 最近 一会能 ... -
你幸福吗?
2011-03-30 07:22 1040(今天醒得很早,就随便翻翻) 幸福度调查: 世界各国 ... -
字符集 & 编码
2011-01-31 01:18 1925转载自: http://webcenter.hit.edu.c ... -
深夜了
2010-10-29 01:01 1003深夜了,我在想你,你在想谁? 为啥咱俩没有缘分呢!!!!!! ... -
技术学习 的 几方面
2010-08-13 00:03 1092技术学习 的 几方面 理论 ... -
欧美 经典电影
2010-08-10 23:21 1465欧美经典电影: 1:罗马假日--奥黛丽.赫本 2:魂断 ... -
祭奠下今天
2010-04-28 23:32 1030祭奠下今天 抓紧前行的路,这里只是歇脚地,不属于我,寻找自己 ... -
地震 级别&能量
2010-04-19 09:44 2086地震级别通常分为 1-12 级,用 M 表示, 地震所释放的能 ... -
丑陋的中国当代大学生
2010-04-02 13:55 1362丑陋的中国当代大学生 ... -
google web search 访问
2010-03-30 18:01 373google web search 访问不了了! 虽然 go ... -
21世纪 四大名著
2010-03-23 14:36 110921世纪四大名著 《渔民政策》,《地王术》,《河蟹》,《四面 ...
相关推荐
sensitiveWordFiltering支持敏感词谐音、符合分割。敏感词:傻瓜处理前:你是个傻瓜,啥挂,傻-瓜。处理后:你是个**,**,*-*;
敏感词过滤器 PHP基于确定有穷自动机(DFA)敏感词过滤器,支持 Laravel 框架。 安装 1. 利用composer安装包 $ composer require snstvwd/filter 2. 在config/app.php 里面添加: 'providers' => [ . . . ...
感性词 设置 $ npm install sensy-words-filter --save 用法 const { sensyWords } = require ( 'sensy-words-filter' ) // ES2015 modules import { sensyWords } from 'sensy-words-filter' 用星号替换黑名单中的...
问题描述:很多网站会对用户发帖内容进行一定的检查,并自动把敏感词修改为特定的字符。 技术要点: 1)Python正则表达式模块re的sub()函数; 2)在正则表达式语法中,竖线“|”表示二选一或多选一。 参考代码: ...
本代码实现了敏感词检测。findcode是一个用来将敏感词与句子中排序后的单词先按字母顺序排序然后进行逐一比较的函数;如果两者相同,则return1;用数组下标0-25分别表示a-z字母,对应的每个下标对应的数组元素的值...
该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...
敏感词过滤.zip
java敏感词检索工具,用于社区等提问信息的过滤检索;
该算法基于DFA并进行相应的简化,大概流程是将敏感词库按模块聚合构建成一个词树,然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词,构成敏感词即记录(当查找到敏感词...
java敏感词过滤功能
golang 敏感词过滤
直接上传网站空间后调用:http://你的域名/str.php?str=检测的语句内容,返回结果为json,非常简单的一个demo,速度很快,含超大的一个敏感词库,3个文件实现敏感词检测api
Author: Richard Zhang. ... This library filters sensitive phrases by user's configuration. Currently, only support UTF8 & ANSI encoded strings. The matching rule is max-length-matching, the library ...
高效敏感词过滤JAVA实现(DFA算法) 5000字2ms 节点 + 2进制标识(节省空间/提高查询效率) 附源码、注释,附带专业敏感词库(3396个敏感词) 看得上就拿去用,替换下一两处util方法、改个路径即可 不求什么,...
MFC程序,实现对敏感词的管理,包括增删改,以及敏感词的过滤。
软件名称:敏感词过滤软件 软件目的:敏感词替换 截图 上传微薄 开发环境: vc++6 这个是一个学习vc++的一个业余工具,本人声明本工具不带有任何政治倾向, 本人是遵纪守法的好公民。 基于以上原因,由本工具直接...
敏感词检测程序,离线版,不需联网,可用于检测文本是否包含了敏感词
建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的舆论,即回帖的回帖或支持、顶等 达到一个预先设定的阈值; 舆情分析子系统: 汇总网站舆情:汇总整个网站的舆情监控信息,自动...