[放大封面]
|
| 【相关下载】 |
|
|
|
| 【二手书】 |
 |
本产品共有 0 册二手书出售,
最低价:¥.00 [查看] |
|
|
|
| 开发自己的搜索引擎Lucene2.0+Heritrix(含光盘)
|
|
市场价:¥65.00
贵宾会员价:¥48.75
高级会员价:¥50.70
普通会员价:¥52.00 |
|
|
|
|
|
| 货到付款:北京、上海、天津、广州、深圳、湖北、河南、山西、陕西、山东、四川、重庆、浙江 更多查看>> |
|
|
| |
大封面 |
封底 |
前言 |
内容简介 |
序言 |
目录 |
作者简介 |
译者简介 |
作者序 |
译者序 | |
|
| 【读者评论】 |
 |
|
 |
内容简介
本书是一本针对搜索引擎开发的书籍。通过学习本书,读者可以独立构建出一个企业级的搜索引擎网站。本书详细讲解了搜索引擎与信息检索基础,lucene入门实例,lucene索引的建立,使用lucene进行搜索,排序,过滤和分页,lucene的分析器,对word、excel和pdf格式文档的处理,compass搜索引擎框架,lucene分布式和google search api,爬虫heritrix,htmlparser,dwr等内容。最后综合使用所讲述的技术,构建了一个典型的垂直搜索系统,该系统具有很强的商业实用价值。 本书是一本介绍如何使用lucene 2.0和heritrix来构建搜索引擎的书。通过对相关api和源代码的分析,力求使读者在掌握应用的基础上能够深入其核心,自行扩展和开发相应组件,开发出更有创意的搜索引擎产品。 本书适合从事计算机软件开发的人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。阅读本书需要具备java语言基础。
|
目录
伸缩显示: [弹出查看]
伸缩显示: [弹出查看] |
|
 |
编辑荐语
[您可以向编辑推荐本书的亮点,采纳后奖励5-10元优惠卷](一个工作日内处理您的建议)
互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。中文用户的搜索使用水平相对于西文用户目前仍然处于比较初级的阶段,而中文网站搜索功能的缺失也是一个重要的因素。 网站拥有了较多内容后,最先会考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心,这时,关键词检索的优势就体现出来了: 关键词检索可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户; 和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,从而大大提高信息的引用密度。 基于传统数据库的关键词检索由于性能问题让很多网站放弃了搜索功能,问题的解决归根结底还是需要一个全文引擎。而lucene开源引擎的出现让这种原来被少数公司掌握的技术得到了迅速的普及,这里应该再次感谢引擎的核心贡献者doug cutting先生,同时也希望有更多的中文开发人员能积极投入到lucene的相关项目开发中去,尤其在中文和其他亚洲双字节语言处理方面的问题。 lucene也是我学习的第一个java程序,当初是通过jdb一行行dubug了解其中的原理和机制的,非常高兴有这样一本专门的参考书出现,它无疑会为开发人员了解并更快掌握全文检索技术节省大量的时间。 国内资深搜索引擎开发专家 车东
|
|