266基于java基于网络爬虫的搜索引擎设计|Java

互联网被普及前，人们查阅资料首先想到的便是拥有大量书籍的图书馆，而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网．如果说互联网是一个知识宝库，那么搜索引擎就是打开知识宝库的一把钥匙．搜索引擎是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术，用于帮助互联网用户查询信息的搜索工具．搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的．目前搜索引擎已经成为倍受网络用户关注的焦点，也成为计算机工业界和学术界争相研究、开发的对象．

目前较流行的搜索引擎已有Google,Yahoo, Info seek, baidu等. 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着Web 信息资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们正面临着巨大的挑战. 以何种策略访问Web,提高搜索效率, 成为近年来专业搜索引擎网络爬虫研究的主要问题之一。

文件夹 PATH 列表
卷序列号为 362C-227F
D:\TEST\源码
│ 搜索robot配置.avi
│
├─crawer
│ │ crawer.jpx
│ │ crawer.jpx.local
│ │ crawer.jpx.local~
│ │ Servlet.library
│ │
│ ├─bak
│ │ ├─crawer
│ │ │      crawer.java~1~
│ │ │      crawer.java~2~
│ │ │      crawer.java~3~
│ │ │      crawler.java~1~
│ │ │      crawler.java~2~
│ │ │      crawler.java~3~
│ │ │      crawler.java~4~
│ │ │      EnginePrefs.java~21~
│ │ │      EnginePrefs.java~22~
│ │ │      EnginePrefs.java~23~
│ │ │      EnginePrefs.java~24~
│ │ │      EnginePrefs.java~25~
│ │ │      EnginePrefs.java~26~
│ │ │      EnginePrefs.java~27~
│ │ │      EnginePrefs.java~28~
│ │ │      EnginePrefs.java~29~
│ │ │      EnginePrefs.java~30~
│ │ │      FIFOQueue.java~1~
│ │ │      HTMLLinkExtractor.java~1~
│ │ │      HtmlParser.java~31~
│ │ │      HtmlParser.java~32~
│ │ │      HtmlParser.java~33~
│ │ │      HtmlParser.java~34~
│ │ │      HtmlParser.java~35~
│ │ │      HtmlParser.java~36~
│ │ │      HtmlParser.java~37~
│ │ │      HtmlParser.java~38~
│ │ │      HtmlParser.java~39~
│ │ │      HtmlParser.java~40~
│ │ │      HTMLWordExtractor.java~1~
│ │ │      HTMLWordExtractor.java~2~
│ │ │      Indexer.java~1~
│ │ │      Indexer.java~2~
│ │ │      Indexer.java~3~
│ │ │      Indexer.java~4~
│ │ │      Indexer.java~5~
│ │ │      LinkExtractor.java~1~
│ │ │      LinkExtractor.java~2~
│ │ │      Monitor.java~1~
│ │ │      Monitor.java~2~
│ │ │      Monitor.java~3~
│ │ │      MyServlet.java~88~
│ │ │      MyServlet.java~89~
│ │ │      MyServlet.java~90~
│ │ │      MyServlet.java~91~
│ │ │      MyServlet.java~92~
│ │ │      MyServlet.java~93~
│ │ │      MyServlet.java~94~
│ │ │      MyServlet.java~95~
│ │ │      MyServlet.java~96~
│ │ │      MyServlet.java~97~
│ │ │      myspider.java~80~
│ │ │      myspider.java~81~
│ │ │      myspider.java~82~
│ │ │      myspider.java~83~
│ │ │      myspider.java~84~
│ │ │      myspider.java~85~
│ │ │      myspider.java~86~
│ │ │      myspider.java~87~
│ │ │      myspider.java~88~
│ │ │      myspider.java~89~
│ │ │      NullLinkExtractor.java~1~
│ │ │      NullLinkExtractor.java~2~
│ │ │      Prioritized.java~1~
│ │ │      PriorityQueue.java~1~
│ │ │      PriorityQueue.java~2~
│ │ │      PriorityQueue.java~3~
│ │ │      spider.java~26~
│ │ │      spider.java~27~
│ │ │      spider.java~28~
│ │ │      spider.java~29~
│ │ │      spider.java~30~
│ │ │      spider.java~31~
│ │ │      spider.java~32~
│ │ │      spider.java~33~
│ │ │      spider.java~34~
│ │ │      spider.java~35~
│ │ │      TextWordExtractor.java~1~
│ │ │      TextWordExtractor.java~2~
│ │ │      Timer.java~1~
│ │ │      Timer.java~2~
│ │ │      URLStatus.java~1~
│ │ │      URLStatus.java~2~
│ │ │      WordExtractor.java~1~
│ │ │      WordExtractor.java~2~
│ │ │
│ │ └─MyWebModule
│ │      └─WEB-INF
│ │              web.xml~220~
│ │              web.xml~221~
│ │              web.xml~222~
│ │              web.xml~223~
│ │              web.xml~224~
│ │              web.xml~225~
│ │              web.xml~226~
│ │              web.xml~227~
│ │              web.xml~228~
│ │              web.xml~229~
│ │
│ ├─classes
│ │ ├─crawer
│ │ │      HtmlParser.class
│ │ │      MyServlet.class
│ │ │      myspider.class
│ │ │
│ │ └─package cache
│ │          crawer.dep2
│ │
│ ├─doc
│ │ └─crawer
│ │          myspider.html
│ │
│ ├─MyWebModule
│ │ │ myservlet.html
│ │ │
│ │ ├─images
│ │ │      myservlet_01.gif
│ │ │      myservlet_02.gif
│ │ │      myservlet_03.gif
│ │ │      myservlet_04.gif
│ │ │      myservlet_05.gif
│ │ │      myservlet_06.gif
│ │ │      myservlet_07.gif
│ │ │      myservlet_08.gif
│ │ │      spacer.gif
│ │ │
│ │ └─WEB-INF
│ │      │ web.xml
│ │      │
│ │      └─classes
│ │          └─crawer
│ │                  HtmlParser.class
│ │                  MyServlet.class
│ │                  myspider.class
│ │
│ ├─src
│ │ └─crawer
│ │          HtmlParser.java
│ │          MyServlet.java
│ │          myspider.java
│ │
│ └─Tomcat
│      ├─webapps
│      │      jb-WebModule1.xml
│      │
│      └─work
│          └─WebModule1
└─论文
        1.JPG
        2.JPG
        基于网络爬虫的搜索引擎设计与实现.doc
        爬虫.JPG

其它类似作品