欢迎访问快速建站网,网站模板免下载网站建设!

快速建站网广告位 快速建站网广告位 快速建站网广告位
当前位置: 主页 > 建站教程 > 网站优化 > web日志挖掘的信息无障碍网站设计研究

web日志挖掘的信息无障碍网站设计研究

发布时间:2020-09-25 16:50:48
0.导言 
跟着信息技能和网络技能的不断发展,互联网给现代人们获取信息带来极大的便利,成为人们工作生活中十分重要的组成部分。信息无妨碍即万维网对任何人士(包括残障人士)都是可拜访、可用的,残障人士能感觉、理解和操作Web,与Web 
互动。怎么凭借先进的技能,消除数字距离,为残疾人供给有用的辅佐手法,使他们能和健全人一样无妨碍地获取网上信息,得到世界各国政府和安排越来越多的注重。
1.信息无妨碍网站存在的问题
许多部分实现了信息无妨碍的网站,用户每次拜访时,网站语音都得从头到尾的播报网站内容,关于该用户曾经拜访过本网站中部分页面内容期刊网,体系不能主动过滤掉这些已经阅读的内容,或许越过这些已阅读信息,而是依然依照布局顺序重复播报。这关于阅读妨碍的用户来说十分糟蹋时刻和精力。防止重复阅读或许播报网站信息,将用户曾经阅读过的内容过滤掉,将没有阅读过的最新的感爱好的网页内容优先播报给阅读妨碍用户,供给智能化、个性化信息服务,是信息无妨碍网站规划应该注重的问题。
web日志挖掘的信息无障碍网站设计研究
2. web日志发掘
web日志文件是在web服务器上每隔必定的时刻发生的记载文件,其内容包括拜访用户的IP地址,拜访时刻、拜访的页面、页面的大小、阅读器类型、响应状态等等。web日志发掘是对用户拜访Web时服务器方留下的拜访记载进行发掘,得到用户的拜访形式和拜访爱好。经过对Web站点的日志记载进行预处理,将日志数据安排成传统的数据发掘办法能够处理的业务数据形式,然后使用传统的数据发掘办法进行处理。
web日志预处理过程:
(1)数据收集 
从服务器端数据、客户端数据、署理服务器端进行。
(2)数据净化 
删去Web日志文件中不是由用户恳求,而是由阅读器主动“恳求”发生的拜访记载。详细包括图片和音频文件、样式文件和脚本文件、不是GET的HTTP办法、弹出式广告的记载等。
(3)会话辨认 
用户在规定时刻内对服务器的一次有用拜访,经过其接连恳求的页面,能够获得其在网站中的拜访行为和阅读爱好,有4种辨认会话的模型:页面类型模型(page type model),参引长度模型(reference length model),最大前向参引模型(maximal forwordreference model)和时刻窗口模型(time window 
model)。最常选用的是时刻窗口模型,以用户拜访时刻作为区分会话的分界,一般间隔时刻取30min。
(4)途径弥补 
用户有时阅读的页面,是从本地缓存和署理服务器中调用的,不会向Web服务器发送恳求,也就不会记载日志,而这些恳求或许对后续发掘的实施有重要作用期刊网,短少这些页面记载或许会使发掘结果不是很精确。为了能更精确的发掘用户的行为形式,有必要把这些缺失的途径弥补上去即途径弥补。如果当时恳求的页与用户上一次恳求的页之间没有超文本链接,那么用户很或许使用了阅读器上的“BACK"按钮调用缓存在本机中的页面。如果用户的前史拜访记载有多个页面都包括与当时恳求页的链接,则将恳求时刻最接近的Web页的页面作为当时恳求的来源。
3.基于web日志发掘的网站规划
3.1网站规划架构
网站为每位存在拜访妨碍的用户树立网站拜访记载数据库,用户拜访网站页面,发生web日志文件,经过对web站点日志文件进行数据净化、用户辨认、会话辨认,将有用数据存入业务数据库,对该用户拜访过的页面进行相应符号,再对业务数据库进行传统的数据发掘,分分出该用户比较感爱好的信息类型,为该用户对网站一切类型信息结构优先显示页面类型序列表和对每类信息未拜访页面、已拜访页面别离结构优先序列表,当该用户再次拜访网站时使用离线剖析所得的优先序列表和网站文件映射数据库将网页链接依照用户爱好凹凸动态填充到网站导航结构,这样用户最感爱好类型的网页链接总是弄够最早看到、听到,然后到达优先拜访的意图。
web日志挖掘的信息无障碍网站设计研究
3.2 网站导航
网站导航是依据信息无妨碍网站结构布局规划标准所规划的网站通用布局结构,除了包括信息无妨碍要求的导航砖,通用切换等功能,还将页面规划成由几个通用的布局结构模块组成,每个结构模块将显示网站上某一种类型的网页信息链接,详细网页链接内容则依据序列表先后顺序动态填充。网站所包括的信息类型能够有许多,但在网站导航中只列出用户最感爱好的几种类型的网页链接,跟着用户爱好的改动,其他类型的网页链接将动态的填充到相应等级的结构模块中。
3.3 爱好提取
依据用户阅读的前史拜访记载(内容信息和行为信息)、拜访时刻和拜访频率等来剖析计算用户爱好度,用户的爱好一般集中于某一个主题或许多个主题期刊网,体系在经过聚类进行剖析将用户阅读的前史页面集主动地分红n个聚簇(n是聚类中聚类中心的数目),每一聚簇的页面集体现了用户的某类爱好,结构构成用户的爱好类。再使用用户的隐式信息学习提取用户爱好集,树立树状的用户爱好模型。
3.4 序列形式
序列形式发掘是对相关规矩发掘的进一步推广,它发掘出序列数据库中项集之间的时序相关规矩。相关规矩着重的是两个项之间的相关,序列形式则加着重两者之间的先后次序。这里咱们将发掘出两种序列表:类型序列表和页面序列表。类型序列表是经过对前史拜访记载进行发掘计算出来的网站每种类型信息拜访优先等级,是一组有序项集对应表;页面序列表则是以类型发掘权值和更新时刻2个指标得出的页面拜访有序集对应表。能够选用基于Apfiori算法的改善算法进行发掘得到上述两种序列表。
3.5 序列-页面映射
依据发掘得到的序列形式对网站的静态页面文件进行逐个映射,依照爱好凹凸和文件序列先后动态的填充如网站导航模块结构中。
4.结束语
本文所提出对web日志文件发掘提取用户的爱好类和拜访类型和页面优先序列,重构站点页面之间的链接关系,动态显示网页信息的规划结构,以适应有妨碍用户的拜访爱好习气为主要方针,在必定程度上能够防止重复无用的页面阅读和语音播报所造成的对存在拜访妨碍用户发生的困扰和时刻精力的糟蹋,提高了拜访效率,为消除信息距离,真实做到信息人人共享发挥活跃的作用。

猜你喜欢

热门模板

快速建站网广告位