一、KDW综述:基于Web的数据挖掘(论文文献综述)
冯扬文[1](2018)在《大数据视角下的国际集装箱海运运价预测研究》文中提出自2008年金融危机以来,中国对世界经济增长的贡献率一直保持在30%左右,早在2010年中国就成为世界第二大经济体,2013年成为世界第一大货物贸易国①,2017年我国进出口贸易总额为27.79万亿元。国际航运服务于国际贸易,而国际贸易中90%的物流由国际海运来完成。20世纪70年代开始流行的集装箱技术让洲际运输成本进一步大幅度降低,为全球贸易提供了更加便利的条件②,近年来国际集装箱航运市场运价波动剧烈,不可预见性增强,而国际集装箱海运业是一个需要巨大投入的资本密集型行业,运价的剧烈波动给航运企业,贸易商以及行业整体带来了巨大的风险,运价波动趋势研究和运价预测一直是国际集装箱航运业关注的热点,国际集装箱海运运价预测的研究在提高行业成本管理水平、降低行业违约率、提高国际海运运输组织的执行效率以及政府决策量化参考等方面有着积极的作用。本文从情报预测是情报学重要的应用领域为起始,以研究国际集装箱海运运价预测的理论和方法为目标,概括出“国际集装箱海运运价预测研究”这一命题,在情报学知识发现框架指导下,沿着情报学对于信息的“源”、“流”、“用”的研究思路,结合当前的“大数据时代”,在概要阐述研究意义、国内外研究现状的基础上,构建了研究内容的框架体系;研究内容包括国际集装箱海运运价预测总体框架、国际集装箱海运运价信息集成模型和方法、国际集装箱海运运价数据特征处理方法、国际集装箱海运运价预测模型以及在大数据环境下进行国际集装箱海运运价预测实证分析等内容。国际集装箱海运运价预测总体框架部分,讨论了大数据视角下的国际集装箱海运运价预测的总体流程和框架。认为总体流程主要分为运价信息收集、运价信息处理和集成、探索性数据分析和运价数据特征处理、运价预测模型提出、运价预测模型运算和评估、运价预测模型的使用六个部分,其中运价预测模型的提出、模型的运算、模型的评估是整个研究的难点和重点,而运价信息的处理和集成、运价数据特征处理是运价预测实际操作中具体工作量较大的一个部分。国际集装箱运价信息集成模型和方法部分,主要解决异源异构运价数据的集成问题。认为随着互联网、电子商务和信息技术的发展,国际集装箱海运运价信息越来越呈现出数字化、集中化和实时性强等特点,这为使用数据挖掘技术进行运价预测提供了现实基础,但需要研究信息集成方法来解决运价信息的异构问题;探讨运价预测的要求及运价信息现状后,提出了基于数据仓库的运价信息集成模型、Web运价信息及增量信息获取和集成方法,设计知识库和规则库,运用信息集成模型对异源异构运价信息进行了集成。运价数据特征处理含数据处理和维度衍生两个部分,讨论的技术和方法是为了保证运价数据符合数据挖掘算法的要求和提高运价预测的准确程度。数据处理主要包括对于异常和无效、历史拉链断链等运价数据处理的流程和方法,关键信息与原始运价数据整合方法、特殊特征属性转换方法等的研究;围绕基本运价数据的维度衍生策略主要包括横向、纵向、历史变化、指数日期等维度衍生的方法,以及预测目标维度的衍生策略。基于数据挖掘方法的运价预测模型部分探讨了国际集装箱海运运价预测的总体框架,针对预测运价即期走势(分类问题)和涨跌幅(回归问题)这两个目标讨论了预测模型和结果评价指标体系。并尝试对传统的数据挖掘算法进行优化,讨论了自适应网格搜索策略,以优化算法的超参数调优方法;针对国际集装箱海运运价数据具有明显的时间序列特征,探索了基于时间序列的留出法(THO),以优化预测结果评价策略,降低泛化误差;讨论基于梯度提升决策树(GBDT)算法的并行计算及预排序后的损失函数迭代运算优化策略,提高GBDT算法在大数据环境下的运算效率。运价预测实证研究部分,面对海量的国际集装箱海运真实运价数据,结合运价预测模型未来的大数据应用环境,按照本文讨论的流程、方法、模型和优化策略,设计和构建基于大数据技术的信息化平台,进行国际集装箱海运运价的即期走势和涨跌幅预测。数据来源有三个渠道,一为某市国际集装箱海运订舱电子商务平台(物贸汇)的历史运价数据,二为某大型国际货运代理企业业务系统的运价数据,三为采集自国内较为知名的国际集装箱海运订舱业务网站(叁陆伍网络等)的Web运价数据,数据总量约为960万条。实证研究表明,本文探索的国际集装箱海运运价预测的流程、模型和方法等内容,成功地探索出从运价信息采集、分析和集成、运价信息处理到运价预测的实现路径,且预测效果明显优于传统时间序列方法的预测结果。文章的最后总结了本文的研究与不足,并对下一步的研究进行了展望。
李楠[2](2018)在《昆仑万维网游产品精准营销策略研究》文中指出近年来,我国网络游戏玩家数量持续增长,网络游戏市场规模不断扩大,网络游戏行业处于上升期。由于网络游戏产品开发周期长但生命周期短,产品盈利的黄金时间普遍不超过一年,因此也存在着网游产品的营销成本上升较快,网游产品数量虽多但产品同质化现象严重等问题。昆仑万维公司在国内网游公司中竞争优势不够明显,品牌效应不够突出,制定精准营销策略紧急且必要。本文通过PEST工具、波特五力模型和SWOT理论分析了昆仑万维网游产品营销现状和环境,明确了其网游产品的竞争优势为:一是游戏创新核心技术储备充足,二是具有一定的海外市场开拓能力,三是业务板块间能形成协同效应,四是拥有成熟的数据分析系统,五是网页游戏行业的地位显着;竞争劣势为:一是研发产品能力是发展的短板,二是售后服务有待完善,三是游戏IP领域布局不足,四是明星代言的广告费用高且回报难以测量。再通过STP理论,制定了昆仑万维的精准营销策略:一是继续巩固海外市场,二是吸引拉拢核心玩家,三是适度改善开发能力,四是丰富产品层次体系,五是打造全链营销体系。为确保昆仑万维精准营销策略的实施,一是建立昆仑万维的大数据库,是为“开源”,确保公司内各部门共同调用和完善大数据,形成部门合力,通过跨行业合作、游戏运营反馈和海内外资源共享,不断丰富和完善昆仑万维大数据库。其次,做好“节流”,构建优化客户关系管理,进行差异化战略布局,优化游戏内置广告,评估精准营销效果,控制昆仑万维的营销成本,测量营销预期效果。精准营销更加充分利用了现代化信息技术,直接准确地瞄准目标客户,预先衡量营销费用的回报率,从而有效提升企业的核心竞争力。本次精准营销策略的研究制定,可显着降低昆仑万维高企的营销费用,有效调用昆仑万维现有资源,完善昆仑万维的网游产品体系和收入模式,巩固昆仑万维网游市场的竞争优势和现有地位。通过完善昆仑万维主营业务的精准营销策略,也是落实昆仑万维公司的整体战略发展和竞争目标的重要手段,不仅让昆仑万维为能够在国内互联网企业中稳坐第二梯队的头把交椅,也要为昆仑万维成为中国互联网企业在海外市场的领头羊奠定基础。
杨霖[3](2018)在《半结构化数据蕴涵规则提取方法的研究》文中研究说明半结构化数据是相对结构化数据而言的,是伴随着互联网应用产生的一种新的数据形式,它广泛存在于各大社交网络平台和电商平台中。在大数据环境下,半结构化数据的数据规模、生长速度和广度都远远超过结构化数据,呈现出快速增长和发展的势头。蕴涵关系是探求对象之间蕴涵特性的一种描述形式,蕴涵规则是描述蕴涵关系的一种知识表示形式,也是经典逻辑和近似推理中的主要推理形式。对半结构化数据中的互联网商务、消费数据提取蕴涵规则,能够为企业、商家和消费者的分析和决策提供参考。因而,对半结构化数据蕴涵规则提取方法的研究具有理论意义和实际应用前景。针对半结构化静态数据的蕴涵规则提取问题,给出两种规则提取方法。第一种方法是将半结构化数据转化为结构化数据,应用数据转换方法和遗传算法,给出半结构化静态数据蕴涵规则的提取过程,提出了半结构化静态数据蕴涵规则提取算法SDIR,应用网络爬虫工具爬取大众点评网数据,并完成将半结构化静态数据向结构化数据的转换及数据预处理,提取数据的蕴涵规则,实验验证了算法有效性。第二种方法是基于XQuery查询语言直接对网页中的半结构化数据进行蕴涵规则提取,根据SDST概念提出了基于XQuery查询语言的改进Apriori算法,实现了对复杂不规则多个网页半结构化数据的蕴涵规则提取,通过在模拟交易数据集上的测试,仿真实验验证了算法的有效性。针对半结构化动态数据的蕴涵规则提取问题,引入蕴涵强度向量度量,与支持度向量、置信度向量共同反应蕴涵规则随时间变化的动态性,提出了基于划分的并行动态半结构化数据蕴涵规则提取算法,通过三台计算机搭建Hadoop并行计算环境,设计并行计算的MapReduce函数,将该算法在Hadoop平台应用MapReduce进行并行计算,提高算法的运行效率,通过实验验证了算法的有效性。将半结构化数据蕴涵规则提取方法应用于淘宝客户交易数据的分析,数据来自厦门大学数据库实验室开发团队爬取的淘宝2015年6月至11月的客户交易数据。首先对数据进行预处理操作,然后提取数据的关联规则和蕴涵规则,提取关联规则是为了获得频繁项集,使得提取的蕴涵规则有更大的应用范围,最后分析提取数据的关联规则和蕴涵规则,为商家提供参考决策。
李亮[4](2012)在《基于WEB挖掘的网站结构优化技术研究》文中指出Web技术不断创新,特别是物联网技术跨越式的发展,使企业能够利用传感器、射频等智能装置对物理世界进行感知识别,依托通信网络实现了人与物、物与物的信息交互以及生产生活信息的无缝连接,有效地集成了Infranet、Intranet、 Internet。这使得Web上信息量无比丰富,给人们生活提供了极大方便,但同时在客观上也增加了用户从海量数据中获取所需信息的难度,用户在面对众多的超链接选择时经常会产生一些无益于到达其目标页面的无谓点击行为。这一方面增加了Web服务器负担和网络的数据流量,造成网络阻塞,导致网络访问速度的下降,从而进一步影响信息搜寻行为的效率;另一方面阻碍了企业开展有针对性的电子商务活动。目前针对这类问题的主要解决方法是WEB挖掘,其中一种有效的方法是网站结构优化技术,它通过使用数据挖掘技术找到现有网站结构存在的不足之处并进行改善。目前存在的多种网站结构优化技术中,基于Web使用挖掘技术的网站结构优化是一个重要的研究方向,Web使用挖掘技术可以充分利用访问日志等信息发现用户的访问模式,并通过分析和研究Web日志记录中的规律来指导电子商务网站结构优化工作的进行。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,主要工作成果为:(1)研究了通过Web日志挖掘优化网站结构的过程,提出了一种通过挖掘用户期望页面来优化网站结构的算法,该算法主要以更早和更少的回退两个不同的角度去优化发现期望页面的过程,分析表明,该算法可以更有效的发现用户期望页面,从而实现网站物理结构的调整和再组织。(2)提出了一个针对分布式动态网站的Web日志挖掘数据预处理方法。在数据清理之前加入了数据合并过程,提出了日志合并算法,在该算法中充分考虑了服务器的时钟同步和时区差异对日志合并的影响,在数据清和用户识别部分添加了页面过滤部分。改进了框架式结构页面过滤算法,为了消除框架页面对Web日志挖掘算法的影响。(3)针对学校网站,利用上面的算法,设计和实现站点结构优化工具。通过该工具,可以收集用户访问日志和站点结构数据,并使用日志清理工具上述数据进行清理和转换。站点结构优化组件使用这些数据挖掘用户的期望位置,并根据这些结果调整网站的链接拓扑,以给用户提供便捷易用的链接,优化网站结构。
刘天垒[5](2011)在《基于Web的农业数据挖掘系统的研究与实现》文中研究说明我国是农业大国,每年在农业领域积累了大量数据,如作物的苗情、土情、肥情、水情、虫情、气象和灾害等。由于这些农业数据具有很强的时效性和地域性,如何挖掘数据背后隐藏的信息,提高信息质量,适时提供具有预测性、时令性以及指导性的实用信息已成为目前迫切需要研究解决的问题。数据挖掘技术作为一种重要的数据处理和知识发现的技术,能从农业数据中找出潜在的和有用的农业知识,为农业部门的科学决策和知识管理提供有效支持,从而更好地推动国家农业和农村经济实现可持续、高效、协调发展。本论文以研究和实现基于Web的农业数据挖掘系统为核心,开展了以下研究与系统开发:论文通过分析数据挖掘技术在农业领域中的研究现状,提出了本论文研究的主要问题,以及研究的目的、意义、内容、方法和技术路线。论文对基于Web的农业数据挖掘系统的研究和实现中涉及到的理论和技术进行了系统的梳理和分析,构成本论文的理论与技术基础。论文给出了基于Web的农业数据挖掘系统的详细设计。介绍了系统的架构和工作流程,给出了系统的功能模块设计,对系统功能模块的功能和流程进行了详细介绍。通过介绍数据库的实体集和实体之间的联系,描述了数据库的逻辑结构设计。论文在系统设计的基础上,在VS2010平台上,利用Asp.Net和C#语言,开发并实现了系统设计中的主要功能。本系统首先利用Web Services技术实现了Apriori算法和kmeans算法,然后围绕已有算法,进行了用户管理、算法管理、数据管理和数据挖掘四个模块的实现。在实现本系统的过程中,实现了管理员和普通用户两种用户的角色控制;定义了一个对普通用户来说简单明了的算法和WebMethod描述体系;实现了每个用户对个人数据库的管理;根据典型数据挖掘系统过程和B/S结构的特征,设计了用于本系统的数据挖掘过程,方便了用户进行数据挖掘。论文在系统实现的基础上,针对Apriori算法和kmeans算法对系统分别进行了测试。测试按照添加相应算法、添加相应WebMethod、创建数据表、导入数据、进行数据挖掘这一流程进行。经过测试证明系统运行正常,结果符合预期。论文在研究数据挖掘技术的基础上,结合农业领域的实际情况,从系统工程的角度出发,提出了基于Web的农业数据挖掘系统的系统设计,并以此为基础实现了系统。
庄怡雯[6](2011)在《基于聚类算法的Web日志挖掘应用研究》文中研究说明数据挖掘就是从大量数据中提取信息或“挖掘”知识的过程,获取的信息和知识可以广泛用于各种应用。在数据挖掘的实现过程中,聚类是普遍采用的方法之一,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。将聚类分析应用于Web服务器日志的挖掘,可以从记录了用户在站点上浏览行为的日志中提取用户的访问模式,如页面访问频度、用户聚类等。这些知识有助于网站设计者优化站点拓扑结构,提供个性化、智能化服务以及提高网站的性能。本文从对聚类分析基本算法的研究出发,在分析和实现层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的基础上,从聚类个数和聚类中心两个方面进行算法的改进,通过实验进行了改进后算法的有效性说明,并将改进后的算法应用于东华大学精品课程网站的日志挖掘中,取得了良好的分析效果。论文的主要工作如下:1)在分析和实现基本聚类算法的基础上,利用标准数据集进行了基本算法的比较说明,并对层次聚类算法、k-means聚类算法以及模糊C-均值聚类算法的聚类结果进行了比较。2)针对聚类算法中的初始聚类中心和聚类个数进行优化设计,改进了相应的算法,分析了模糊C-均值聚类算法的聚类个数估计方法以及皮尔逊相关系数距离度量方法,并进一步提出了一种基于粗糙集的改进的模糊C-均值聚类算法,随后实现了改进后的优化算法,并通过实验分析与传统聚类模糊C-均值聚类算法进行对比,比较改进算法与传统算法的聚类效果,说明了算法的有效性。3)将改进后的算法应用于Web日志挖掘,进行聚类结果的分析和研究,并在东华大学精品课程网站的Web日志数据上应用改进的聚类算法进行日志的分析研究,发现用户对网站页面访问的行为特点,给出网站的优化改进建议。
杨雷[7](2010)在《Flex在可视化数据挖掘流程中的应用研究》文中提出随着Internet的普及,计算机软硬件性能的提升,网络应用程序的开发模式也从胖客户端的C/S架构发展到瘦客户端的B/S架构。在多媒体,多元化信息激增的今天,传统的以请求/响应,跳转/刷新机制的B/S架构的Web应用显得尤为单薄,已经不能很好地满足人们的要求。人们迫切希望Web应用拥有既能快速部署升级又具有如桌面应用般强大功能的特性。RIA(富因特网应用)应运而生,无论是在界面上还是数据交互上都给人们带来全新的良好的用户体验。传统的网页开发基于HTTP协议,数据的交互依赖于请求/响应机制,界面的交互则需要进行页面的跳转和刷新。RIA的处理则有很大不同,在客户端就可以进行完整的数据处理,与用户的交互更加友好、更加迅速;界面交互并不依赖页面,消息通过异步请求传递,面向用户界面中的各个小模块,客户端的模块之间关系清晰,处理起来更加灵活。本文在深入研究RIA,Flex和可视化数据挖掘的基础上,为解决当前网络环境下的数据挖掘用户体验差,性能薄弱的问题,将RIA架构,Flex技术应用于数据挖掘中,提出了一种基于Flex的RIA架构的可视化数据挖掘模型,设计相关的类和组件,将传统的单机版数据挖掘扩展成网络环境下的构件式数据挖掘,客户无需下载安装庞大臃肿的应用软件,无需从本地上传原始数据,仅需下载数据处理插件和绑定所需的算法构件,既保护了数据安全,减小挖掘周期和带宽需求,也为挖掘用户带来良好的用户体验。
苏志强[8](2010)在《基于Web挖掘的教育信息处理在网络课程中的应用研究》文中进行了进一步梳理计算机的出现和逐步普及使信息成为影响社会发展的重要因素,而互联网的迅速发展更使得信息量、信息传播和处理的速度大大加快。网络上的各种数据信息以几何级数的方式急剧增长,导致了“数据丰富,知识贫乏”的奇怪现象。为了解决这一问题,Web数据挖掘技术开始迅速发展,并且在商业、生物医学等领域广泛应用。现在,教育信息化已经成为教育现代化的重要发展方向,但是教育领域内对信息处理技术的应用还比较落后。目前,传统的教学模式已经逐步转变为基于网络的教学模式,网络课程成为网络教学的重要平台。网络课程教学会产生大量丰富的数据信息,但是这些信息缺乏结构化、分布十分地分散,传统的教育信息处理方法已经不能解决这一问题,因此有必要应用新的技术手段来找出教育数据之间的隐含关系。本文主要工作就是将Web数据挖掘这种有效的技术整合到教育信息科学中,来处理网络课程中的数据问题。通过对这些隐性数据合理的分析处理就会得出有用的,以前不知道的信息和知识,从而进一步提高网络课程的性能,促进教学资源使用最优化,使教师更好的决策教学,学生更好地体验学习。研究内容主要包括理论、技术及应用三个方面。理论方面主要是通过对Web挖掘及教育信息处理的相关理论知识的综述,创建了基于Web挖掘的教育信息处理模型;技术方面主要涉及到Web挖掘的算法及工具的使用;应用则是将基于Web挖掘的教育信息处理具体应用到网络课程中,通过日志分析研究网络课程的访问情况,通过内容分析研究网络课程中相关模块及学生之间的隐性关系。
朱鲲鹏[9](2009)在《基于Web日志挖掘的智能信息检索研究》文中指出互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。基于Web日志挖掘的智能信息检索旨在通过对Web信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分:首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。其次,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。最后,对面向检索兴趣的用户聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法可以自适应地动态调整聚类参数,检测和消除聚类振荡,扫描参数空间来获得最佳的聚类效果。
李健,徐超,谭守标[10](2009)在《一种Web数据挖掘系统的设计和研究》文中认为Web数据挖掘是指从众多的Web网站、网页上挖掘出有用数据和知识的过程,因其具有广泛的应用前景而成为当前IT研究的热点之一,同时它也是一个具有挑战性的研究领域,存在很多问题亟待解决。针对一个案例,设计一个系统(或模型)实现Web数据的挖掘,是一次实践性研究。系统采用当前流行的软件工具(VS2005和SQL2000数据库)和编程语言(C#)进行开发设计,主要由数据的下载、预处理、后处理和前台检索等模块组成,基本达到Web数据挖掘的目的。
二、KDW综述:基于Web的数据挖掘(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、KDW综述:基于Web的数据挖掘(论文提纲范文)
(1)大数据视角下的国际集装箱海运运价预测研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究的背景及意义 |
1.1.1 命题提出 |
1.1.2 研究意义 |
1.2 国内外研究现状综述 |
1.2.1 信息集成 |
1.2.2 数据挖掘 |
1.2.3 大数据 |
1.2.4 海运运价预测 |
1.3 研究的目标和关键问题 |
1.3.1 研究目标 |
1.3.2 拟解决的关键问题 |
1.4 研究的思路和方法 |
1.4.1 研究思路 |
1.4.2 研究方法 |
1.5 研究的内容和创新点 |
1.5.1 研究内容 |
1.5.2 本文的特色与创新之处 |
2 相关概念和理论 |
2.1 信息集成 |
2.1.1 联邦数据库 |
2.1.2 数据仓库 |
2.1.3 Wrapper-Mediator |
2.2 数据处理 |
2.2.1 数据质量分析 |
2.2.2 归一化处理 |
2.2.3 相关性分析 |
2.3 数据挖掘 |
2.3.1 评估方法 |
2.3.2 数据挖掘方法 |
2.3.3 超参数调优方法 |
2.3.4 评价指标 |
2.4 大数据技术 |
2.4.1 MPI |
2.4.2 Hadoop体系 |
2.4.3 Spak |
2.5 本章小结 |
3 国际集装箱海运运价预测总体框架 |
3.1 总体流程 |
3.1.1 运价信息处理和集成 |
3.1.2 运价数据特征处理和EDA |
3.1.3 运价预测模型提出 |
3.1.4 运价预测模型计算和评估 |
3.1.5 运价预测模型使用 |
3.2 总体架构 |
3.2.1 信息集成 |
3.2.2 存储管理 |
3.2.3 数据挖掘 |
3.3 本章小结 |
4 国际集装箱海运运价信息集成模型和方法 |
4.1 运价数据来源分析 |
4.1.1 国际海运电商平台 |
4.1.2 业务操作系统 |
4.1.3 常用办公软件 |
4.1.4 政府或职能部门的系统 |
4.2 运价数据特征分析 |
4.2.1 海量、实时和真实 |
4.2.2 易于存储、传输和处理 |
4.2.3 普遍存在异构性 |
4.3 运价数据集成目标研究 |
4.4 基于数据仓库的运价信息集成模型 |
4.5 实现运价信息集成的关键技术 |
4.5.1 定义数据仓库模型 |
4.5.2 集成异构信息 |
4.5.3 处理增量信息 |
4.5.4 设计基于语义的知识库和规则库 |
4.6 运价信息初步集成方法 |
4.6.1 运价基本数据初步处理方法 |
4.6.2 异源异构运价数据集成方法 |
4.7 运价信息合并 |
4.7.1 相关性分析 |
4.7.2 数据整合并去重 |
4.8 本章小结 |
5 运价数据特征处理方法 |
5.1 有效运价信息生成方法 |
5.1.1 运价信息筛选方法 |
5.1.2 无效数据处理逻辑和方法 |
5.1.3 异常值处理的逻辑和方法 |
5.2 异源运价值处理 |
5.3 历史拉链断链数据处理 |
5.4 关键特征属性补充 |
5.4.1 港口基本属性分析 |
5.4.2 离散型特征值处理方法 |
5.4.3 关键信息替换方法 |
5.4.4 基于基础信息的关键属性拓展 |
5.4.5 预测目标选择方法 |
5.5 运价信息的维度衍生 |
5.5.1 横向同期指标 |
5.5.2 纵向历史指标 |
5.5.3 历史变化指标 |
5.5.4 运价预测总体目标维度衍生 |
5.5.5 重要特征属性衍生策略 |
5.5.6 补充属性设计 |
5.6 特征转换 |
5.6.1 One-Hot Encoding |
5.6.2 归一化处理 |
5.7 本章小结 |
6 基于数据挖掘方法的运价预测模型 |
6.1 运价预测模型的基本框架 |
6.2 运价预测模型设计 |
6.2.1 模型的输入和输出 |
6.2.2 运价数据特征属性分析 |
6.2.3 数据挖掘方法选取分析 |
6.2.4 运价预测结果评价指标研究 |
6.3 实现运价预测的算法和评价策略优化 |
6.3.1 自适应网格搜索策略设计 |
6.3.2 基于时间序列的留出法(THO)设计 |
6.3.3 基于GBDT的算法优化策略设计 |
6.4 本章小结 |
7 运价预测系统设计及实验 |
7.1 运价数据准备 |
7.2 数据集成和数据特征处理 |
7.2.1 预测目标选择 |
7.2.2 关键信息补全 |
7.3 运价数据EDA分析 |
7.3.1 运价数据分布性分析 |
7.3.2 运价波动趋势统计 |
7.4 运价预测系统设计及实现 |
7.4.1 运价预测系统方案设计 |
7.4.2 基于大数据技术的系统架构 |
7.4.3 运价信息集成结果 |
7.4.4 运价预测结果 |
7.5 本章小结 |
8 总结和展望 |
8.1 研究总结 |
8.2 研究展望 |
参考文献 |
科研及发表论文情况 |
致谢 |
(2)昆仑万维网游产品精准营销策略研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 理论基础与文献综述 |
1.2.1 精准营销基本概念界定 |
1.2.2 精准营销相关理论基础 |
1.2.3 文献综述 |
1.3 研究思路和方法 |
1.3.1 研究思路 |
1.3.2 研究方法 |
第2章 昆仑万维网游产品精准营销环境分析 |
2.1 昆仑万维公司基本情况 |
2.1.1 昆仑万维公司发展历史 |
2.1.2 昆仑万维公司网游产品营销现状 |
2.2 昆仑万维公司网游产品精准营销外部环境分析 |
2.2.1 游戏行业概况 |
2.2.2 PEST分析 |
2.2.3 波特五力分析 |
2.2.4 机遇与挑战 |
2.3 昆仑万维网游产品精准营销企业资源能力分析 |
2.3.1 资源和能力 |
2.3.2 劣势和短板 |
2.3.3 SWOT分析矩阵 |
第3章 昆仑万维网游产品精准营销策略选择与制定 |
3.1 昆仑万维网游产品精准营销的STP分析 |
3.1.1 可量化的市场细分 |
3.1.2 精确的目标市场选择 |
3.1.3 目标市场精准匹配 |
3.2 昆仑万维网游产品精准营销策略的制定 |
3.2.1 继续巩固海外市场 |
3.2.2 精准拉拢核心玩家 |
3.2.3 定向自研优质产品 |
3.2.4 产品层次精准分类 |
3.2.5 打造全链营销体系 |
第4章 昆仑万维网游产品精准营销实施保障和效果预期 |
4.1 昆仑万维网游产品精准营销的实施保障措施 |
4.1.1 优化精准营销的组织架构 |
4.1.2 基于大数据的精准数据挖掘 |
4.1.3 游戏运营与游戏推广精准结合 |
4.1.4 优化客户管理系统 |
4.2 精准营销预期效果评估 |
4.2.1 定量效果评估 |
4.2.2 定性效果评估 |
4.2.3 评估总结 |
结论 |
参考文献 |
致谢 |
(3)半结构化数据蕴涵规则提取方法的研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 论文的选题背景及意义 |
1.2 国内外研究现状 |
1.3 论文的主要工作 |
2 相关理论与技术 |
2.1 半结构化数据 |
2.1.1 半结构化数据概述 |
2.1.2 半结构化数据的获取及处理 |
2.2 蕴涵规则 |
2.3 XML数据 |
2.4 XQuery查询语言 |
2.5 分布式系统基础架构 |
2.5.1 HDFS的体系结构和读写原理 |
2.5.2 MapReduce的体系结构和工作流程 |
2.6 本章小结 |
3 半结构化数据的蕴涵规则提取方法 |
3.1 半结构化静态数据的结构化蕴涵规则提取方法 |
3.1.1 半结构化静态数据蕴涵规则提取过程及转化方法 |
3.1.2 半结构化静态数据蕴涵规则提取算法 |
3.1.3 实验与结果分析 |
3.2 基于XQuery语言的半结构化静态数据蕴涵规则提取方法 |
3.2.1 Apriori算法 |
3.2.2 基于XQuery语言的蕴涵规则提取方法XQ-SDIR |
3.2.3 实验与结果分析 |
3.3 半结构化动态数据的蕴涵规则提取方法 |
3.3.1 动态数据的蕴涵规则描述 |
3.3.2 基于划分的并行动态半结构化数据蕴涵规则提取算法 |
3.3.3 实验环境搭建 |
3.3.4 实验结果分析 |
3.4 本章小结 |
4 蕴涵规则在淘宝交易数据中的应用 |
4.1 数据源的收集与预处理 |
4.2 淘宝交易数据的关联规则分析 |
4.3 淘宝交易数据的蕴涵规则分析 |
4.4 本章小结 |
5 总结和展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士期间发表学术论文情况 |
致谢 |
(4)基于WEB挖掘的网站结构优化技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 WEB 数据挖掘 |
1.1.2 网站结构优化 |
1.2 国内外研究现状及意义 |
1.2.1 国内外研究现状 |
1.2.2 研究意义 |
1.3 论文结构 |
第二章 WEB 数据挖掘综述 |
2.1 数据挖掘 |
2.1.1 数据挖掘的定义 |
2.1.2 数据挖掘的方法和工具 |
2.1.3 数据挖掘的流程 |
2.2 WEB 数据挖掘 |
2.2.1 WEB 数据挖掘的定义 |
2.2.2 WEB 数据挖掘的对象 |
2.2.3 WEB 数据挖掘的分类 |
2.2.4 WEB 数据挖掘的流程与方法 |
2.3 WEB 日志挖掘 |
2.3.1 WEB 日志挖掘的术语和概念 |
2.3.2 WEB 日志挖掘过程 |
2.3.3 WEB 日志挖掘的数据源 |
2.3.4 WEB 日志挖掘的应用 |
第三章 网站结构优化研究 |
3.1 网站结构优化概述 |
3.1.1 WEB 站点结构及其表示 |
3.1.2 网站结构优化概念 |
3.1.3 网站结构优化研究的主要问题 |
3.1.4 网站结构优化的目标 |
3.2 网站结构优化方法综述 |
3.2.1 基于用户行为方法 |
3.2.2 基于站点模型方法 |
第四章 基于访问模式挖掘的网站结构优化 |
4.1 访问模式挖掘问题定义 |
4.2 访问模式挖掘的特点 |
4.3 数据收集 |
4.4 分布式动态站点的日志挖掘数据预处理 |
4.4.1 数据合并 |
4.4.2 数据清理 |
4.4.3 用户识别 |
4.4.4 会话识别 |
4.4.5 改进的会话识别 |
4.4.6 路径补充 |
4.5 序列模式挖掘算法 |
4.5.1 序列模式挖掘步骤 |
4.5.2 序列模式挖掘的几种算法比较 |
4.6 基于用户访问序列挖掘的站点路径优化 |
4.6.1 访问者的搜索模式 |
4.6.2 目标位置和期望位置的发现 |
4.6.3 改进的目标位置和期望位置的发现 |
4.6.4 站点结构的调整 |
第五章 网站结构优化系统的设计与实现 |
5.1 概述 |
5.2 系统的设计 |
5.2.1 站点结构优化工具结构 |
5.2.2 系统架构 |
5.3 系统的实现 |
5.3.1 数据预处理模块 |
5.3.2 站点结构优化模块 |
5.4 系统关键技术分析 |
5.4.1 数据预处理技术 |
5.4.2 站点结构优化关键技术 |
5.5 小结 |
第六章 总结与展望 |
6.1 本文小结 |
6.2 进一步的工作 |
参考文献 |
致谢 |
攻读硕士期间科研成果 |
(5)基于Web的农业数据挖掘系统的研究与实现(论文提纲范文)
摘要 |
Abstract |
图表目录 |
第一章 绪论 |
1.1 数据挖掘技术在农业领域中的研究现状 |
1.1.1 数据挖掘在农业领域中的基础理论研究 |
1.1.2 数据挖掘在农业环境分析方面的研究 |
1.1.3 数据挖掘在病虫害防治决策方面的研究 |
1.1.4 数据挖掘在农业气象方面的研究 |
1.1.5 数据挖掘在农业专家系统等方面的研究 |
1.1.6 数据挖掘在农业市场信息方面的研究 |
1.1.7 数据挖掘在农业种质资源方面的研究 |
1.2 问题的提出 |
1.3 研究目的与内容 |
1.3.1 研究目的 |
1.3.2 研究内容 |
1.4 研究方法与技术路线 |
1.4.1 研究方法 |
1.4.2 技术路线 |
1.5 本章小结 |
第二章 基于WEB 的农业数据挖掘系统的理论与技术基础 |
2.1 数据挖掘理论与技术 |
2.1.1 数据挖掘概述 |
2.1.2 数据挖掘系统结构 |
2.1.3 数据挖掘过程 |
2.1.4 数据挖掘常用方法 |
2.1.5 系统实现算法选择 |
2.2.N ET 关键技术 |
2.2.1 .NET 平台 |
2.2.2 .NET 框架 |
2.2.3 ASP.NET |
2.2.4 ADO.NET |
2.3 SOA 架构 |
2.3.1 SOA 概述 |
2.3.2 SOA 的体系结构 |
2.4 WEB SERVICES 技术 |
2.4.1 Web Services 概述 |
2.4.2 Web Services 运行机制 |
2.4.3 Web Services 体系 |
2.4.4 WebMethod |
2.5 本章小结 |
第三章 基于WEB 的农业数据挖掘系统设计 |
3.1 系统设计思路 |
3.1.1 系统架构 |
3.1.2 系统工作流程 |
3.2 系统功能设计 |
3.2.1 系统功能模块图 |
3.2.2 系统功能子模块 |
3.3 数据库设计 |
3.3.1 实体集 |
3.3.2 实体联系 |
3.3.3 逻辑结构设计 |
3.4 本章小结 |
第四章 基于WEB 的农业数据挖掘系统实现 |
4.1 系统开发环境 |
4.2 数据挖掘算法实现 |
4.2.1 Apriori 算法 |
4.2.2 kmeans 算法 |
4.3 系统模块实现 |
4.3.1 用户管理 |
4.3.2 算法管理 |
4.3.3 数据管理 |
4.3.4 数据挖掘 |
4.4 本章小结 |
第五章 基于WEB 的农业数据挖掘系统的部署与测试 |
5.1 系统部署 |
5.1.1 服务器端配置 |
5.1.2 客户端配置 |
5.2 系统测试 |
5.2.1 Apriori 算法测试 |
5.2.2 kmeans 算法测试 |
5.3 本章小结 |
第六章 总结与讨论 |
6.1 论文总结 |
6.2 论文创新点 |
6.3 工作展望 |
参考文献 |
致谢 |
作者简历 |
(6)基于聚类算法的Web日志挖掘应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题的研究背景及意义 |
1.2 国内外发展状况 |
1.3 课题研究的主要内容 |
1.4 论文的组织结构 |
第二章 Web日志挖掘技术分析 |
2.1 数据挖掘基本概念 |
2.2 Web挖掘 |
2.3 用户访问模式挖掘 |
第三章 基本聚类算法的分析及实现 |
3.1 聚类算法的基本思想 |
3.2 层次聚类算法的分析 |
3.3 K-means聚类算法的分析 |
3.4 模糊C-均值聚类算法的分析 |
3.5 基本聚类算法的实现 |
3.6 本章小结 |
第四章 模糊C-均值聚类的改进算法研究及实现 |
4.1 聚类个数的估计 |
4.2 模糊C均值聚类的初始聚类中心的改进 |
4.3 基于粗糙集的改进FCM聚类算法的实现 |
4.4 大数据集实验分析 |
4.5 本章小结 |
第五章 基于聚类的Web日志挖掘应用 |
5.1 基于聚类的Web日志挖掘 |
5.2 数据集的描述 |
5.3 用户访问序列的处理 |
5.4 用户访问模式挖掘 |
5.5 东华大学精品课程网站Web日志挖掘 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
(7)Flex在可视化数据挖掘流程中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 论文研究内容与组织安排 |
第二章 相关技术研究综述 |
2.1 RIA |
2.1.1 RIA 概述 |
2.2 FLEX 技术 |
2.2.1 MXML |
2.2.2 ActionScript |
2.2.3 Flex 可视化组件 |
2.2.4 Flex AIR |
2.2.5 Flex LiveCycle 数据服务 |
2.3 可视化数据挖掘 |
2.3.1 数据挖掘概述 |
2.3.2 可视化技术 |
2.4 本章小结 |
第三章 基于FLEX 的可视化数据挖掘流程体系架构设计 |
3.1 典型数据挖掘系统模型 |
3.2 系统设计目标 |
3.3 系统模型设计 |
3.4 系统挖掘流程 |
3.5 本章小结 |
第四章 向导库及算法设计 |
4.1 向导库 |
4.1.1 向导流程 |
4.1.2 知识库 |
4.2 算法库 |
4.2.1 算法构件管理与服务 |
4.3 算法构件设计 |
4.4 本章小结 |
第五章 数据挖掘客户端FLEX 插件的实现 |
5.1 系统开发环境 |
5.2 FLEX 数据处理插件 |
5.3 客户端多播实现 |
5.4 本章小结 |
第六章 基于FLEX 的可视化数据挖掘系统应用 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 不足之处与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
(8)基于Web挖掘的教育信息处理在网络课程中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究思路与方法 |
1.3 研究内容及论文框架 |
第二章 研究综述 |
2.1 Web 挖掘 |
2.2 教育信息处理 |
2.3 网络课程现状 |
2.4 小结 |
第三章 Web 挖掘探究 |
3.1 Web 挖掘概述 |
3.2 Web 挖掘相关技术 |
3.3 Web 挖掘的实施 |
3.4 小结 |
第四章 教育信息处理研究 |
4.1 教育信息处理概述 |
4.2 教育信息处理的理论 |
4.3 教育信息处理的特点和方法 |
4.4 小结 |
第五章 教育信息处理在网络课程中的应用 |
5.1 Web 挖掘与教育信息处理 |
5.2 网络课程与教育信息处理 |
5.3 基于Web 挖掘的教育信息处理模型 |
5.4 网络课程访问信息的处理 |
5.5 网络课程内容信息的处理 |
第六章 总结展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间期间发表论文情况 |
(9)基于Web日志挖掘的智能信息检索研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的背景和意义 |
1.2 Web日志挖掘国内外研究现状 |
1.2.1 数据挖掘 |
1.2.2 Web日志挖掘 |
1.2.3 Web日志挖掘对智能信息检索的支持 |
1.3 本文的主要研究内容 |
1.4 本文的内容安排 |
第2章 用户日志的预处理与分析 |
2.1 引言 |
2.2 用户日志预处理 |
2.3 用户日志统计分析 |
2.3.1 基于查询词的分析 |
2.3.2 基于点击网页的分析 |
2.3.3 基于用户会话的分析 |
2.4 本章小结 |
第3章 基于关联分析的自适应查询扩展 |
3.1 引言 |
3.2 查询扩展技术相关研究 |
3.3 基于关联分析的自适应查询扩展 |
3.3.1 查询歧义度计算 |
3.3.2 查询关联分析 |
3.3.3 自适应的查询扩展方法 |
3.4 实验与分析 |
3.4.1 查询词歧义度计算实验与结果分析 |
3.4.2 自适应查询扩展实验结果及分析 |
3.5 本章小结 |
第4章 基于特征融合的检索推荐模型 |
4.1 引言 |
4.2 检索推荐相关研究 |
4.2.1 文本相关度分析 |
4.2.2 用户行为分析 |
4.3 基于特征融合的检索推荐模型 |
4.3.1 基于概念向量的文档相关度计算 |
4.3.2 基于特征融合的检索推荐模型 |
4.3.3 实验与分析 |
4.4 本章小结 |
第5章 面向检索兴趣的用户聚类 |
5.1 引言 |
5.2 用户聚类分析 |
5.2.1 用户相似度计算 |
5.2.2 聚类方法分析 |
5.2.3 关系传播聚类 |
5.3 基于用户会话的用户相似度计算 |
5.4 面向检索兴趣的用户聚类 |
5.4.1 自适应的用户聚类算法 |
5.4.2 实验与分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文 |
致谢 |
个人简历 |
(10)一种Web数据挖掘系统的设计和研究(论文提纲范文)
0 引 言 |
1 系统目标和方案设计 |
1) 下载。 |
2) 预处理。 |
3) 删除、替换、提取和导入。 |
4) 前台检索。 |
2 系统设计的实现 |
2.1 软件及知识点简介 |
2.1.1 开发平台 |
2.1.2 数据库说明 |
2.2 各模块 (部分) 设计及结果演示 |
2.2.1 下载和预处理 |
2.2.2 后处理 |
2.2.3 导入数据库 |
2.2.4 前台检索 |
3 结束语 |
四、KDW综述:基于Web的数据挖掘(论文参考文献)
- [1]大数据视角下的国际集装箱海运运价预测研究[D]. 冯扬文. 华中师范大学, 2018(05)
- [2]昆仑万维网游产品精准营销策略研究[D]. 李楠. 湖南大学, 2018(06)
- [3]半结构化数据蕴涵规则提取方法的研究[D]. 杨霖. 辽宁工业大学, 2018(12)
- [4]基于WEB挖掘的网站结构优化技术研究[D]. 李亮. 西北师范大学, 2012(04)
- [5]基于Web的农业数据挖掘系统的研究与实现[D]. 刘天垒. 中国农业科学院, 2011(10)
- [6]基于聚类算法的Web日志挖掘应用研究[D]. 庄怡雯. 东华大学, 2011(08)
- [7]Flex在可视化数据挖掘流程中的应用研究[D]. 杨雷. 华南理工大学, 2010(03)
- [8]基于Web挖掘的教育信息处理在网络课程中的应用研究[D]. 苏志强. 上海师范大学, 2010(08)
- [9]基于Web日志挖掘的智能信息检索研究[D]. 朱鲲鹏. 哈尔滨工业大学, 2009(05)
- [10]一种Web数据挖掘系统的设计和研究[J]. 李健,徐超,谭守标. 计算机技术与发展, 2009(02)