分析

问答题 简单描述全文搜索引擎的工作原理及特点。

正确答案
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 全文搜索引擎的方法主要分为按字检索和按词检索两种。按字检索是指对文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。
全文搜索引擎系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能,外围则由具有各种不同应用的功能组成。结构上,全文搜索引擎系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。
最常用的全文搜索引擎有百度、谷歌(Google)等,与之相对应的是目录索引类搜索引擎。
查看解析

相关试题

单选
在幻灯片浏览视图下,按住Ctrl键拖动某张幻灯片,可以完成( )操作。
A 移动幻灯片 B 复制幻灯片 C 删除幻灯片 D 选定幻灯片
查看
单选
如果要创建一个数据组分组报表,第一个分组表达式是“部门”,第二个分组表达式是“性别”,第三个分组表达式是“基本工资”,当前索引的索引表达式是( )。
A 部门+性别+基本工资 B 部门+性别+STR(基本工资) C STR(基本工资)+性别+部门 D 性别+部门+(基本工资)
查看
单选
在Photoshop中,为了确定“魔棒工具”对图像边缘的敏感程度,应调整下列哪个数值( )。
A 容差 B 边对比度 C 颜色容差 D 套索宽度
查看
单选
从扩展名来看,以下文件属于音乐文件类型的是( )。
A gif B mp3 C bmp D txt
查看
单选
关于电子计算机的特点,以下论述错误的是( )。
A 运算速度快 B 具有记忆和逻辑判断能力 C 运算精度高 D 运行过程不能自动连续进行,需人工干预
查看
单选
随着信息技术的发展,网络数据库已经大量的涌入了我们的生活,下列选项中没有使用数据库功能的是( )。
A 超市购物结算系统 B 交通银行的异地购票系统 C 音乐网站的音乐搜索系统 D 婚礼录像工作室的非线性视频制作系统
查看
单选
人类历史上经历了五次信息技术革命,第二次信息技术革命的标志是( )的出现。
A 打火石 B 指南针 C 文字 D 电话
查看
单选
若网络形状是将网络中所有的计算机通过相应的硬件接口和电缆直接连接到一根共享的电缆上,则称这种拓扑结构为( )。
A 星形拓扑 B 总线拓扑 C 环形拓扑 D 树形拓扑
查看
单选
在Excel表格的单元格中完成学号“001、002、003……”的输入,需要先将单元格的格式设置为( )类型。
A 文本 B 常规 C 数值 D 日期
查看
单选
数据管理技术的发展经历了三个阶段,下面哪个不属于这三个阶段?( )
A 人工管理 B 文件管理 C 数据库管理 D 面向对象管理
查看
刷题小程序
中学信息技术题库小程序