-
让搜索跨越语言的鸿沟——谈跨语言信息检索技术
跨语言信息检索,是信息检索领域中的一个研究课题。近10几年来,由于互联网的飞速发展,这方面的研究受到了学术界的广泛重视。将这项技术应用于搜索,可以帮助我们查找到更多的有用信息,例如外语相关页面、多语言页面以及语言无关的资源(如图片)等等。这些信息可以大大丰富搜索的结果,满足用户多样的需求。在跨语言信息检索的研究中,有一些研究成果已经趋于成熟,达到可以应用的状态。事实上,Yahoo和Google在5…...- 塵風
- 0
- 0
- 687
-
SEO优化技巧:首页链接nofollow
这个技巧还是我以前在阅读Zac《SEO实战密码》中学习到的,我个人认为实际上并不会有太多的作用(可能以前有用吧,具体未知,当下而言这并不重要。)。 之所以的说不重要是国内的SEO发展环境实在是...而且搜索引擎发展至今已经智能的多了。 原文内容: 很多页面上会有多个链接连向同一个URL,比如几乎网站的每个页面上都有多个链接连向首页,顶部logo、顶部导航、左侧导航、页脚、版权声明等处,都可以有链接…...- 塵風
- 0
- 0
- 676
-
浅析视频搜索中的清晰度识别过程
一、综述 随着互联网视频越来越多,人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标,特别是对于影视剧和动漫类视频来说,高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度,识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。 和大多数评价机制一样,视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序,而…...- 塵風
- 0
- 0
- 661
-
搜索引擎中的粒度问题
一.前言 传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字。 百…...- 塵風
- 0
- 0
- 632
-
Robots Meta标签
什么是Robots meta标签 Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。 关于robots.txt文件的详解介绍,可以点击这里了解:robots协议文件作用以及写法详解。 和其他的 META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOT…...- 塵風
- 0
- 0
- 615
-
Nofollow标签是什么意思?属性、作用和写法?
nofollow 是HTML页面中a标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。 nofollow是HTML页面中a标签的属性值。它的出现为网站管理员提供了一种方式,即告诉搜索引擎"不要追踪此网页上的链接"或"不要追踪此特定链接"。这个标签的意义是告诉搜索引擎这个链接不是经过作者信任的,所以这…...- 塵風
- 0
- 0
- 615
-
相似度计算常用方法综述
引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所…...- 塵風
- 0
- 0
- 574
-
为什么很多企业做不好SEO?
为什么很多企业做不好SEO?这里说的:“很多企业”,主要指的就是对少数或者几个关键词有针对性的优化需求,然后委托第三方进行优化的。 遇到有不少朋友都做过SEO,或者说是找网络公司做过SEO吧,但是效果往往都是挺差强人意的。 一:遇到一些竞争相对来说比较大的词往往比较难上去。 二:或者说上去了也没有多少效果。 这其中的原因肯定是多方面的因素的,而不是绝对的,不过下面就根据这几个点,说下我比较常遇到的…...- 塵風
- 0
- 0
- 546
-
网站被黑,被搜索引擎收录垃圾信息删除处理教程
现在有非常多的站点被黑导致网站被搜索引擎收录了许多的色情、赌博信息,导致网站被降权,或者搜索品牌词的时候出现的站点信息变成了垃圾信息等情况,尽管有的企业不依赖SEO转化,但是品牌词有搜索量的公司遇见这种情况也是比较重要的问题。 注意:这篇文章是教你怎么处理/删除:被搜索引擎收录垃圾信息,而不是教你处理网站被黑(至于网站被黑这问题怎么处理,则太宽泛了,问题原因数不胜数,不是一篇文章说的清楚的)。 处…...- 塵風
- 0
- 0
- 531
-
如何根据http请求信息区分访问用户的国家、语言信息
是不是见到google,facebook等大型专业网站的拥有不同的语言站群,可以不同语言间切换很给力?而我们只能羡慕嫉妒恨呢? 今天要介绍的就是如何识别不同国家,只需要简单几步,就能识别出来自不同国家的请求,使你的web应用更有国际范。 国家识别主要用到的是http header中的host,Accept-Language,cookie以及请求的url,ip等。 下面先温习下http header…...- 塵風
- 0
- 0
- 510
-
Boosting算法简介
一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i)重复地从…...- 塵風
- 0
- 0
- 506
-
做SEO注册域名应该怎样选?
做SEO应该注册怎样的域名? 我们先来说域名的后缀 首先是后缀,域名后缀我们通常建议选择常见后缀: 目前com最优先选择,没有之一。(域名交易市场来说,com也是最值钱的,同样的名称,com后缀的域名可能价值很高,其他后缀(包括其他常见后缀,可能价值就很低了)。 其次选择:cn、net、org、cc、com.cn org域名目前国内无法备案,所以新站点个人认为org域名目前做国内SEO请慎选(目前…...- 塵風
- 0
- 0
- 496
-
“分布式哈希”和“一致性哈希”的概念与算法实现
分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多,这里做一个入门性质的介绍。 分布式哈希(DHT) 两个key point:每个节点只维护一部分路由;每个节点只存储一部分数据。从而实现整个网络中的寻址和存储。DHT只是一个概念,提出了这样一种网络模型。并且说明它是对分布式存储很有好处的。但具体怎么实现,并不是DHT的范畴。 一致性哈希: DHT的一…...- 塵風
- 0
- 0
- 484
-
SEO技巧:外链发布自动增长小技巧
外链对于SEO的角度来说,重要程度不言而喻。早些年还有:“外链为皇,内容为王”的说法,虽然现在随着搜索引擎算法的升级,外链对排名的权重占比已经不是那么明显了,但是外链的作用依然很大。 下面我们进入主题:两个外链自动增长小技巧 一:利用采集站 在SEO圈子,采集是司空见惯的事情,很多人都会选择优秀作者的网站和公众号去采集内容然后发布到自己的网站。 那么我们就可以利用这些采集站来为我们增加外链。 如果…...- 塵風
- 0
- 0
- 475
-
网站备案对SEO的影响
理论上来说,备案不备案的都是不会有影响的。 但是实际上国内政策或者各方面特殊原因还是建议备案会让站点的收录比较友好。我这边实测,手上有的不备案的新站点,甚至几个月首页都不收录,IP和域名都没问题) 并且网上之前还有其他信息传出: 之前有搜狗搜索部门辞职的工程师内部消息传出,工信部疑似要求所有搜索引擎,对未备案的网站人为降低抓取率。 根据搜狗的工程师透露,提到新站收录难的三个原因: 第一、域名后缀因…...- 塵風
- 0
- 0
- 474
-
网站搜索页面出现大量垃圾网页被收录怎么处理
网站搜索页面出现大量垃圾网页被收录怎么处理?这个问题是前几天一个朋友问我的,问题示例如下: 问题展示 再说解决方法之前我们先聊聊这个问题出现的原因,原因很明显: 就是网站被模拟搜索了大量的垃圾信息关键词,然后出现了对应的页面让搜索引擎抓取了。 像这种也算是"黑帽SEO"推广了吧...不过我认为这个东西实现起来还是很简单的,技术含量很低,而且挺早之前就出现了。 我可不可以不处理?…...- 塵風
- 0
- 0
- 462
-
索引页链接补全机制的一种方法
背景 Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优…...- 塵風
- 0
- 0
- 455