首页 Java 266基于java基于网络爬虫的搜索引擎设计
266基于java基于网络爬虫的搜索引擎设计
作品编号:299
关注人气:1400
文件包括:设计源码+数据库+论文
设计大小:2.55 M
开发语言:Java
开发数据库:-
开发环境:Myeclipse+Tomcat+JDK
原价:900元
现价:90元
下载说明

本作品里面包括调试教程和开发工具和软件,可自行下载根据教程进行调试!

如需技术协助调试,本站收取50元作品调试费!点此申请调试

如果上面没有找到适合您需求的作品,您可联系我们为您定做,定做的作品完全按照您的功能需求来做,并且后期三包,包调试,包讲解,包修改直到通过为止。

  • 作品介绍
  • 项目目录
  • 论文目录
  • 论文预览

互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当今很多人都会选择一种更方便、快捷、全面、准确的方式——互联网.如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙.搜索引擎是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的.目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象.

目前较流行的搜索引擎已有Google,Yahoo, Info seek, baidu. 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍. 随着Web 信息资源呈指数级增长及Web 信息资源动态变化, 传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要, 它们正面临着巨大的挑战. 以何种策略访问Web,提高搜索效率, 成为近年来专业搜索引擎网络爬虫研究的主要问题之一。

  

文件夹 PATH 列表
卷序列号为 362C-227F
D:\TEST\源码
│  搜索robot配置.avi
│  
├─crawer
│  │  crawer.jpx
│  │  crawer.jpx.local
│  │  crawer.jpx.local~
│  │  Servlet.library
│  │  
│  ├─bak
│  │  ├─crawer
│  │  │      crawer.java~1~
│  │  │      crawer.java~2~
│  │  │      crawer.java~3~
│  │  │      crawler.java~1~
│  │  │      crawler.java~2~
│  │  │      crawler.java~3~
│  │  │      crawler.java~4~
│  │  │      EnginePrefs.java~21~
│  │  │      EnginePrefs.java~22~
│  │  │      EnginePrefs.java~23~
│  │  │      EnginePrefs.java~24~
│  │  │      EnginePrefs.java~25~
│  │  │      EnginePrefs.java~26~
│  │  │      EnginePrefs.java~27~
│  │  │      EnginePrefs.java~28~
│  │  │      EnginePrefs.java~29~
│  │  │      EnginePrefs.java~30~
│  │  │      FIFOQueue.java~1~
│  │  │      HTMLLinkExtractor.java~1~
│  │  │      HtmlParser.java~31~
│  │  │      HtmlParser.java~32~
│  │  │      HtmlParser.java~33~
│  │  │      HtmlParser.java~34~
│  │  │      HtmlParser.java~35~
│  │  │      HtmlParser.java~36~
│  │  │      HtmlParser.java~37~
│  │  │      HtmlParser.java~38~
│  │  │      HtmlParser.java~39~
│  │  │      HtmlParser.java~40~
│  │  │      HTMLWordExtractor.java~1~
│  │  │      HTMLWordExtractor.java~2~
│  │  │      Indexer.java~1~
│  │  │      Indexer.java~2~
│  │  │      Indexer.java~3~
│  │  │      Indexer.java~4~
│  │  │      Indexer.java~5~
│  │  │      LinkExtractor.java~1~
│  │  │      LinkExtractor.java~2~
│  │  │      Monitor.java~1~
│  │  │      Monitor.java~2~
│  │  │      Monitor.java~3~
│  │  │      MyServlet.java~88~
│  │  │      MyServlet.java~89~
│  │  │      MyServlet.java~90~
│  │  │      MyServlet.java~91~
│  │  │      MyServlet.java~92~
│  │  │      MyServlet.java~93~
│  │  │      MyServlet.java~94~
│  │  │      MyServlet.java~95~
│  │  │      MyServlet.java~96~
│  │  │      MyServlet.java~97~
│  │  │      myspider.java~80~
│  │  │      myspider.java~81~
│  │  │      myspider.java~82~
│  │  │      myspider.java~83~
│  │  │      myspider.java~84~
│  │  │      myspider.java~85~
│  │  │      myspider.java~86~
│  │  │      myspider.java~87~
│  │  │      myspider.java~88~
│  │  │      myspider.java~89~
│  │  │      NullLinkExtractor.java~1~
│  │  │      NullLinkExtractor.java~2~
│  │  │      Prioritized.java~1~
│  │  │      PriorityQueue.java~1~
│  │  │      PriorityQueue.java~2~
│  │  │      PriorityQueue.java~3~
│  │  │      spider.java~26~
│  │  │      spider.java~27~
│  │  │      spider.java~28~
│  │  │      spider.java~29~
│  │  │      spider.java~30~
│  │  │      spider.java~31~
│  │  │      spider.java~32~
│  │  │      spider.java~33~
│  │  │      spider.java~34~
│  │  │      spider.java~35~
│  │  │      TextWordExtractor.java~1~
│  │  │      TextWordExtractor.java~2~
│  │  │      Timer.java~1~
│  │  │      Timer.java~2~
│  │  │      URLStatus.java~1~
│  │  │      URLStatus.java~2~
│  │  │      WordExtractor.java~1~
│  │  │      WordExtractor.java~2~
│  │  │      
│  │  └─MyWebModule
│  │      └─WEB-INF
│  │              web.xml~220~
│  │              web.xml~221~
│  │              web.xml~222~
│  │              web.xml~223~
│  │              web.xml~224~
│  │              web.xml~225~
│  │              web.xml~226~
│  │              web.xml~227~
│  │              web.xml~228~
│  │              web.xml~229~
│  │              
│  ├─classes
│  │  ├─crawer
│  │  │      HtmlParser.class
│  │  │      MyServlet.class
│  │  │      myspider.class
│  │  │      
│  │  └─package cache
│  │          crawer.dep2
│  │          
│  ├─doc
│  │  └─crawer
│  │          myspider.html
│  │          
│  ├─MyWebModule
│  │  │  myservlet.html
│  │  │  
│  │  ├─images
│  │  │      myservlet_01.gif
│  │  │      myservlet_02.gif
│  │  │      myservlet_03.gif
│  │  │      myservlet_04.gif
│  │  │      myservlet_05.gif
│  │  │      myservlet_06.gif
│  │  │      myservlet_07.gif
│  │  │      myservlet_08.gif
│  │  │      spacer.gif
│  │  │      
│  │  └─WEB-INF
│  │      │  web.xml
│  │      │  
│  │      └─classes
│  │          └─crawer
│  │                  HtmlParser.class
│  │                  MyServlet.class
│  │                  myspider.class
│  │                  
│  ├─src
│  │  └─crawer
│  │          HtmlParser.java
│  │          MyServlet.java
│  │          myspider.java
│  │          
│  └─Tomcat
│      ├─webapps
│      │      jb-WebModule1.xml
│      │      
│      └─work
│          └─WebModule1
└─论文
        1.JPG
        2.JPG
        基于网络爬虫的搜索引擎设计与实现.doc
        爬虫.JPG
        

目录
摘要    2
Abstract    3
一、项目背景    5
1.1搜索引擎现状分析    5
1.2课题开发背景    6
1.3网络爬虫的工作原理    8
二、系统开发工具和平台    9
2.1关于java语言    9
2.2 Jbuilder介绍    10
2.3 servlet的原理    12
三、系统总体设计    14
3.1系统总体结构    14
3.2系统类图    14
四、系统详细设计    17
4.1搜索引擎界面设计    17
4.2 servlet的实现    19
4.3网页的解析实现    20
4.3.1网页的分析    20
4.3.2网页的处理队列    21
4.3.3 搜索字符串的匹配    22
4.3.4网页分析类的实现    22
4.4网络爬虫的实现    25
五、系统测试    33
六、结论    35
致谢    35
参考文献    36


标签:网络爬虫,搜索引擎

  • 专注毕业设计源码作品
  • 毕业设计源码论文全套
  • 每件作品均测试后上线
  • 提供所有教程和软件下载

Copyright © 2008-2024 jsjbysjw.com . All Rights Reserved. 备案号:苏ICP备2021056683号-4

  • 联系QQ:81677093
  • 微信:bysj1950