手机版 微信公众号 新浪微博 友情链接
当前位置: 网站首页 > 网站运营 > 建站经验 > 文章 当前位置: 建站经验 > 文章

浅谈搜索引擎技术的难点

时间:2010-05-01    点击: 次    来源:互联网    作者:佚名 - 小 + 大

索引擎的难点包括如下几点:
    1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.

    2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据

    3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站

    4) 自动通过识别码的验证

    5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理

    6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力

    7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接.

    以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.

上一篇:浅析一个网站的命运是由何决定的

下一篇:浅谈县级供求信息网站如何抵抗DM广告冲击

 推荐阅读
  • Copyright © 2009—2024 ,www.zouzhiqiang.com,All Rights Reserved. |  黔ICP备2023009491号-1  |  贵公网安备52010302003427号
  • 关于本站  |  网站声明  |  网站导航  |  留言交流  |  友情链接  |  祝福频道  |  微信公众号  |  新浪微博  |  我的大学  |  我的高中  |  简历2009
  • 版权声明:凡注明本站原创文章、作品,未经本人许可,任何人或机构不得以任何形式对本站内容进行复制作商业用途.
  • 本站部分文章、资源来自互联网,版权归原作者及网站所有,如果侵犯了您的权利,请及时致信告知我站.
  • 地址:中国·贵州·贵阳  邮编:550018   微信公众号:WEBZZQ  邮箱:admin@zouzhiqiang.com
  • QQ:470870191 欢迎各位站长加入个人网站交流讨论QQ群: 15410235
  • 访问统计: