计算机信息检索的原理
计算机信息检索过程是指用户对检索播求加以分析,明确检索范围。弄清主题概念,形成检索标识及检索策略,愉入到计算机中进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序控制下,进行离级逻辑运算。选出符合要求的信息并输出。计算机检索的过程实际上是一个比较、匹配的过程,是用计算机代替人工检索的匹配过程。计算机一方面接受检索提问(即检索提问表达式),另一方面从数据库中接受文献记录。然后在两者之间进行匹配运算,即计算机信息检索把检素提问与文献记录之间的相关性检索转变成了检索词与标引词之间的相似计算。目前.一般计算机信息检索系统为进行检索词与标引词之间的相似性运算,所采用的方法可以分为以下几个等级。
(1)单个整词的比较.例如.检索词是psychoan目ysis,而标引词也是psyeh咖alys畜s,两者全等,则为命中.全等是相似性的一种特殊形式,对于一些包含数值的词,如出版年、文摘号等也可以进行大于(>)、小于(<)的运算.
(2)词的片断(主要是词根)比较.例如,检索词是用截断符号(如@)表示的Pscho@,则命中所有开头与截断符号之前相同的词,如Psych。姗!ysis、Psychobiology等.这就是截词检索.截词有右截断、左截断、左右同时截断以及中间掩符等几种形式。对截断符之后的允许字符数.可不限制,也可限制在若千字符之间。即可分有限截断和无限截断两种模式。不论叮种,其基本原理都是进行词的片断对比。这种对比不要求检索词和标引词全等.而是部分相等或近似.因此,这个级别的比较是一种较典型的相似性运算。
(3)固定词组的比较.例如,检索词是Libra卿and bformation science,而标引词也是LibraJ,and Info,ation science.这是由多个整词构成的词组.但比较仍然是全等的运算.
(4)多个整词之间位置逻辑的比较。即可以指定两个整词,词与词之间至多相隔几个字(即可以擂入其他的字或字毋.忽略不计).两词出现的先后次序可以指定为可以对换或不可以对换.例如.检索Information(2w)Re州eval,可以命中Infonm旧lion stora朗andR。州cval.这种位宜迈辑的运抹可以说是带有贝活性的词组比较,而这种比较是允许有一定范幽的相似性运算。它称为相邻度检索。
(5)由若干单独的检索词或词组构成的定逻辑组合的比较。它的目标不是检索各个单独的检索词或词组.而是在愈义上彼此结合、互扣限定的词(成词组)的完整组合。例如.“信息”和“网络.,它们分别是两个单独的词,而“信息网络”是这两个词逻辑组合的一种形式。“信息网络”不是“信息,和“网络.这两个词的混合,而是两种愈义的结合,是两种概念合成了一种新的概念。
推荐新闻
更多行业-
网站建设前期,如果做好网站优化准备
许多企业主来找我们,知道他们需要在建立网站后“做”搜索引擎优化或点击付...
2020-04-08 -
HTML静态页面核心技能与概念
一、理论基础1:HTML语言简介 HTML (HyperText...
2015-07-18 -
动态网页技术基本原理
动态网页技术是使用数据库来存放变化的数据信息,并在Web服务器与数据库...
2012-08-27 -
企业网站建设对网络营销很有必要
其实这个问题可以理解为网站建设中如何避免被外包网络公司忽悠和欺骗。企业...
2021-12-01 -
高校集群网站建设需要准备哪些资料?
高校相关信息:准备关于高校的基本信息,包括学校名称、校训、办学理念、历...
2023-06-21 -
地产网站建设成本的四个影响因素是什么?
站在企业的角度,网站建设一般更注重成本,这样才能做好预算。但是这个预算...
2022-03-24
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com