网页(Web)挖掘是应用数据挖掘技术从 Web 数据中提取知识,包括 Web 文档、文档之间的超链接、网站的使用日志等。 Web 挖掘旨在从大型数据集中发现和检索有用和有趣的模式和经典数据挖掘.大数据作为网络挖掘的数据集。 Web 数据包括信息、文档、结构和配置文件。 Web 挖掘基于定义的两个概念,即基于过程的和数据驱动的。一般来说,网络挖掘的使用通常涉及几个步骤,例如收集数据、在处理之前选择数据、知识发现和分析。

如今,互联网已成为我们生活的重要组成部分,因此有助于在网络上提取数据的技术是一个有趣的研究领域。这些技术有助于从 Web 数据中提取知识,其中至少一种结构或使用 (Weblog) 数据用于挖掘过程(有或没有其他类型的 Web)。一般来说,Web挖掘任务可以分为三类:

  • 网页内容挖掘
  • 网络结构挖掘
  • 网络使用挖掘

所有这三个类别都侧重于从网络中发现隐含的、以前未知的和潜在有用信息的过程。他们每个人都专注于网络的不同挖掘对象。让我们简要研究所有这三个类别以便更好地理解。

什么是Web内容挖掘?

Web内容挖掘可用于从网页内容中挖掘有用的数据、信息和知识。网页内容挖掘,通过在搜索引擎中显示列表,根据输入的内容,对文本、图片、网页组进行扫描和挖掘。
它也与数据挖掘有很大不同,因为网络数据主要是半结构化或非结构化的,而数据挖掘主要处理结构化数据。由于 Web 的半结构化性质,Web 内容挖掘也不同于文本挖掘,而文本挖掘侧重于非结构化文本。因此,Web 内容挖掘需要数据挖掘和文本挖掘技术的创造性应用以及它自己独特的方法。
在过去的几年里,网络内容挖掘领域的活动迅速扩大。这并不奇怪,因为网络内容的显着增长和这种采矿的显着经济效益。然而,由于网络数据的异质性和缺乏结构,目标或意外知识信息的自动发现仍然存在许多具有挑战性的研究问题。 Web 内容挖掘可以与两种方法区分开来,例如:

1. 基于代理的方法
这种方法涉及智能系统。它旨在改进信息查找和过滤。它通常依赖于可以识别相关网站的自治代理。它可以分为以下三类,例如:

  • 智能搜索代理:这些代理使用域特征和用户配置文件搜索相关信息,以组织和解释发现的信息。
  • 信息过滤或分类:这些代理使用信息检索技术和开放超文本 Web 文档的特征来自动检索、过滤和分类它们。
  • 个性化Web代理:这些代理学习用户偏好并根据其他具有相似兴趣的用户的偏好发现 Web 信息。

2. 基于数据的方法
基于数据的方法用于将互联网上存在的半结构化数据组织成结构化数据。它旨在将 Web 数据建模为更结构化的形式,以应用标准数据库查询机制和数据挖掘应用程序对其进行分析。
Web 内容挖掘挑战
Web内容挖掘的解决方案也存在以下问题或挑战,例如:

  • 数据提取:从网页中提取结构化数据,例如产品和搜索结果。提取此类数据可以提供服务。两种主要类型的技术,机器学习和自动提取,被用来解决这个问题。
  • Web信息集成和模式匹配:尽管 Web 包含大量数据,但每个网站(甚至页面)都以不同的方式表示相似的信息。识别或匹配语义相似的数据是许多实际应用中的一个重要问题。
  • 从在线资源中提取意见:有许多在线意见来源,例如客户对产品、论坛、博客和聊天室的评论VsDiffer。挖掘意见对于营销情报和产品基准测试非常重要。
  • 知识综合:概念层次结构或本体在许多应用中都很有用。但是,手动生成它们非常耗时。主要应用是综合和组织网络上的信息片段,为用户提供主题域的连贯画面。将介绍一些探索网络信息冗余的现有方法。
  • 分割网页和检测噪音:在许多 Web 应用程序中,只需要网页的主要内容,没有广告、导航链接、版权声明。自动分割网页以提取页面的主要内容是一个有趣的问题。

什么是网络结构挖掘?

Web结构挖掘的挑战是处理 Web 本身内超链接的结构。 链接分析是一个古老的研究领域。 然而,随着人们对Web挖掘的兴趣日益浓厚,对结构分析的研究也越来越多。 这些努力催生了一个新兴的研究领域,称为链接挖掘,它位于链接分析、超文本、网络挖掘、关系学习、归纳逻辑编程和图挖掘工作的交叉点。
Web结构挖掘使用图论分析网站的节点和连接结构。 根据网页结构数据的类型,网页结构挖掘可分为两种:

  • 从网络中的超链接中提取模式:超链接是将网页连接到不同位置的结构组件。
  • 挖掘文档结构:分析页面结构的树状结构来描述HTML或XML标签的使用。

Web包含各种几乎没有统一结构的对象,其创作风格和内容的差异远大于传统的文本文档集合。 万维网中的对象是网页,链接是in、out和co-citation(同一个页面链接的两个页面)。 属性包括 HTML 标记、单词外观和锚文本。 Web结构挖掘包括以下术语,例如:

  • 网络图:表示网络的有向图。
  • 节点:图中的网页。
  • 边缘:超链接。
  • 度数:指向特定节点的链接数。
  • 出度:从特定节点生成的链接数。

网页结构挖掘技术的一个例子是 Google 用来对搜索结果进行排名的 PageRank 算法。页面的排名取决于指向目标节点的链接的数量和质量。
链接挖掘对一些传统的数据挖掘任务产生了一定的影响。下面总结了一些适用于Web结构挖掘的可能的链接挖掘任务,例如:

  • 基于链接的分类:经典数据挖掘任务到链接域的最新升级。任务是根据页面上出现的单词、页面之间的链接、锚文本、html 标签和网页上发现的其他可能属性来预测网页的类别。
  • 基于链接的聚类分析:将数据分成组,其中相似的对象被分组在一起,不同的对象被分组到不同的组中。与之前的任务不同,基于链接的聚类分析是无监督的,可用于从数据中发现隐藏模式。
  • 链接类型:关于预测链接是否存在的任务范围很广,例如预测两个实体之间的链接类型或预测链接的目的。
  • 链接强度:链接可以与权重相关联。
  • 链接基数:主要任务是预测对象之间的链接数量。页面分类用于:A. 查找相关页面;B. 查找重复的网站并找出它们之间的相似性。

什么是网页使用挖掘?

网页使用挖掘专注于可以预测用户在与 WWW 交互时的行为的技术。网页使用挖掘,从网络数据中发现用户导航模式,试图从用户在网上冲浪时的交互得到的辅助数据中发现有用的信息。 Web 使用挖掘从 Weblog 记录中收集数据,以发现网页的用户访问模式。几个可用的研究项目和商业工具出于不同目的分析这些模式。洞察知识可用于个性化、系统改进、站点修改、商业智能和使用表征。
许多访问网站的用户留下的唯一信息是他们访问过的页面的路径。大多数Web信息检索工具只使用文本信息,而忽略了可能非常有价值的链接信息。一般而言,应用于Web挖掘领域发现用户导航模式的数据挖掘技术主要有四种,例如:

1. 关联规则挖掘
关联规则是数据挖掘方法中最基本的规则,在网页使用挖掘中比其他方法使用得更多。这种方法使网站能够更有效地组织内容或为有效的交叉销售产品提供建议。
这些规则是 X => Y 形式的语句,其中 (X) 和 (Y) 是一系列交易中可用项目的集合。 X => Y 的规则表明,包含 X 中项目的交易也可能包含 Y 中的项目。Web 使用挖掘中的关联规则用于查找用户会话中频繁出现的页面之间的关系。

2. 顺序模式
顺序模式用于发现大量顺序数据中的子序列。在网页使用挖掘中,顺序模式用于查找经常出现在会议上的用户导航模式。顺序模式似乎是关联规则。但是顺序模式包含时间,这意味着发生的事件顺序是在顺序模式中定义的。用于提取关联规则的算法也可用于生成顺序模式。两种类型的算法用于顺序挖掘模式。

  • 第一种算法基于关联规则挖掘。许多顺序挖掘模式的常用算法已针对挖掘关联规则进行了更改。例如,GSP 和 AprioriAll 是用于提取关联规则的两种已开发的 Apriori 算法。但也有研究人员认为,关联规则挖掘算法在长序列模式挖掘中性能不足。
  • 第二种顺序模式挖掘算法,其中树结构和马尔可夫链用于表示调查模式。例如,在其中一种称为 WAP-mine 的算法中,称为 WAP-tree 的树结构用于探索对 Web 的访问模式。评估结果表明,其性能高于 GSP 等算法。

3. 聚类
聚类技术在大量数据中诊断相似项目组。 这是基于测量不同项目之间相似程度的距离函数来完成的。 网络使用挖掘中的聚类用于对类似会议进行分组。 在这种类型的搜索中,重要的是用户和各个组之间的对比。 在这个领域可以找到两种有趣的聚类:用户聚类和页面聚类。

用户记录的聚类通常用于分析网络挖掘和网络分析任务。 更多来自聚类的知识被用于划分电子商务市场。 不同的方法和技术用于聚类,包括:

  • 使用相似度图和查看页面所花费的时间来估计会议的相似度。
  • 使用遗传算法和用户反馈。
  • 聚类矩阵。
  • K-means算法,是最经典的聚类方法。

首先使用其他聚类方法中的关联规则从用户会话中提取重复模式。 然后,这些模式用于构建一个图,其中节点是访问过的页面vSdiffeR。 图的边缘连接两个或多个页面。 如果这些页面以提取的模式存在,则权重将分配给显示节点之间关系的边缘。 然后,为了聚类,这个图被递归地划分为用户行为组被检测到。

4、分类挖掘
发现分类规则允许人们根据它们的共同属性开发属于特定组的项目的配置文件。 此配置文件可以对添加到数据库的新数据项进行分类。 在网页挖掘中,分类技术允许人们根据这些客户端上可用的人口统计信息或其导航模式为访问特定服务器文件的客户端开发配置文件。

Web使用挖掘的优点
Web使用挖掘具有许多优势,使这项技术对包括政府机构在内的公司具有吸引力。

  • 这项技术使电子商务能够进行个性化营销,从而带来更高的交易量。政府机构正在使用这项技术对威胁进行分类并打击恐怖主义。
  • 公司可以通过更好地了解客户的需求并更快地响应客户需求来建立更好的客户关系。他们可以通过基于创建的配置文件的目标定价来提高盈利能力。他们甚至可以找到可能默认竞争对手的客户。公司将尝试通过向特定客户提供促销优惠来留住客户,从而降低失去一个或多个客户的风险。
  • Web 使用挖掘的更多好处,特别是个性化,在特定框架中进行了概述,例如概率潜在语义分析模型,它为用户行为和访问模式提供了额外的功能。这是因为该过程通过协作推荐为用户提供了更多相关的内容。
  • Web 使用挖掘也有一些独特的元素显示了该技术的好处。这些包括在挖掘阶段解释、分析和推理使用模式时应用语义知识的方式。

Web使用挖掘的缺点
Web 使用挖掘本身不会产生问题,但是当用于个人性质的数据时,该技术可能会引起关注。

  • 涉及网络使用挖掘的最受批评的道德问题是侵犯隐私。当获取、使用或传播有关个人的信息时,隐私被视为丢失,尤其是在个人不知情或未同意的情况下。获得的数据将被分析,匿名,然后聚集形成匿名档案。
  • 这些应用程序通过点击鼠标而不是识别信息来判断用户,从而使用户去个性化。一般来说,去个体化可以定义为一种基于群体特征而不是他们的特征和优点来判断和对待人的倾向。
  • 出于特定目的收集数据的公司可能会将数据用于完全不同的目的,从而侵犯用户的利益。

网络使用挖掘应用程序

Web 使用挖掘的主要目标是收集有关用户导航模式的数据。这些信息可以改善用户视图中的网站。这种采矿有三个主要应用,例如:

1. 网页内容私有化
Web 使用挖掘技术可用于 Web 用户的个性化。例如,通过将她当前的调查模式与从日志文件中提取的调查模式进行比较,可以立即预测用户行为。在该领域具有实际应用的推荐系统会建议将用户引导至他最喜欢的页面的链接。一些网站还根据特定用户的预测兴趣组织他们的产品目录并代表他们。

2. 预恢复
Web 使用挖掘的结果可用于提高 Web 服务器和基于 Web 的应用程序的性能。 Web 使用挖掘可用于检索和缓存策略,从而减少 Web 服务器的响应时间。

3. 网站设计的改进
可用性是设计和实施网站时最重要的问题之一。 Web使用挖掘的结果可以帮助适当的网站设计。自适应网站是此类挖掘的一种应用。网站内容和结构会根据从这些网站中的用户行为得出的数据进行动态重组。

Web内容、Web结构和Web使用挖掘的区别

以下是网页内容、网页结构和网页使用挖掘的区别,如下所示:

术语 网页内容 网页结构 网页使用
数据视图 红外视图:非结构化/结构化; 数据库视图:半结构化/网站作为数据库 链接结构 交互
主要数据 红外视图:文本文件/超文本文件; 数据库视图:超文本文件 链接结构 服务器日志/浏览器日志
方法 红外视图:机器学习/统计(包括 NLP); 数据库视图:专有算法/关联规则 专有算法 机器学习、统计、关联规则
表现 红外视图:词袋、n-gram 术语 、短语、概念或本体 、关系;数据库视图:边标图、关系图 图表 关系表、图表
欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果。
转载请注明:文章转载自 有区别网 [http://www.vsdiffer.com]
本文标题:网页内容、网页结构和网页使用挖掘的区别
本文链接:https://www.vsdiffer.com/vs/web-content-vs-web-structure-vs-web-usage-mining.html
免责声明:以上内容仅是站长个人看法、理解、学习笔记、总结和研究收藏。不保证其正确性,因使用而带来的风险与本站无关!如本网站内容冒犯了您的权益,请联系站长,邮箱: ,我们核实并会尽快处理。