当前位置:首页 > 论文写作技巧

高下载中文学术论文的语言学特征

 

为了研究中文学术论文下载次数与语言学特征的关系,本文以图书情报学领域被CSSCI 收录的7 本期刊发表于2014—2017 年的学术论文全文本为研究对象,选用8 个语言学特征指标测度高下载论文(Top 20%)、低下载论文(Bottom 20%)和全体论文的语言学特征。从中值和均值来看,各期刊高下载论文的标题长度小于总体论文和低下载论文,摘要词汇多样性、正文长度、正文句子长度和正文词汇多样性整体上大于总体论文和低下载论文。从显著性检验结果来看,整体上未通过显著性检验,但是,特定平台特定期刊的特定语言学特征指标通过了显著性检验。因此,从本文样本数据来看,整体上语言学特征对中文学术论文下载次数影响很小,但是在特定平台特定期刊语言学特征具有一定影响。

导言

随着网络化、数字化的发展以及相关技术的进步,科研人员越来越倾向于通过网络获取数字学术文献从事科学研究,这使得科研用户的学术文献使用数据(即学术文献的HTML格式浏览数据与PDF 等格式的下载数据[1])得以被记录。在此背景下,越来越多的研究者对学术文献使用数据进行采集、整理和挖掘分析,以发现与用户使用行为相关的特点、规律,或者通过学术文献使用数据进行相关性研究,由此产生了被国际学术界称为UsageMetrics 的研究热点[2]。同时,结构化的学术文献全文本数据也越来越容易获取,研究者围绕全文本数据展开了全文引文分析和实体计量学等研究,以探索用户引证动机或者测度文献及实体的学术影响力[3-4]等。那么,将学术文献使用数据与全文本数据结合进行综合分析,将能够从全文本数据的视角探索用户浏览或下载特征与规律。

讨论

将本文结果与Chen 等[27]对PLoS 期刊高浏览与高下载英文学术论文的语言学特征研究的结果进行对比,从二者的样本数据均发现整体上语言学特征对学术论文下载次数影响很小,但是在局部范围,语言学特征仍然具有一定影响。此外,不同语种的学术论文均有各自独特的语言学特征。
针对以上研究结果的解读,笔者认为应该考虑以下因素:一是不同期刊的投稿须知(比如标题长度、摘要长度以及全文长度)、栏目设置(比如偏重理论或者偏重实证)、载文数量和学术影响力不同;二是不同年龄、职位和学术背景的用户会选择不同的学术平台浏览和下载学术论文;三是在实际案例分析过程中,数据抽样策略和数据处理细节也会影响研究结果,比如部分样本期刊为载文量较低的双月刊或季刊。

本文存在以下不足:一是所选择的样本仅为图书情报学领域的期刊论文数据,如果选用其他学科的期刊论文数据,结果可能不同;二是部分样本期刊为载文量较低的双月刊或季刊,样本数量较少,对研究结果存在影响;三是仅应用了比较简单的语言学特征指标,需要引入计算语言学领域的其他指标。
正如前文所言,用户浏览和下载是复杂的信息行为,受到用户信息需求、信息意识以及外在信息环境等诸多因素的影响。用户浏览和下载数据是以上多重因素共同作用的最终结果。目前本文仅由果推因,从特定视角回溯缘由,存在诸多局限。若要系统、全面和深入研究用户浏览和下载,最理想的方式是能够获取用户背景数据以及信息行为过程数据(比如用户年龄和职位、文献访问时长和眼动浏览轨迹等),由因推果,从“用户认知、动机、行为和内容”等多个层面进行研究。尽管如此,本文首次将全文本分析引入中文UsageMetrics,对高下载中文学术论文与语言学特征之间的关系进行初步研究,对后续用户浏览与下载和科学文献写作的关系研究有所启发,也证实全文计量分析将是图书情报学领域未来研究的增长点,能够将多个研究方向的研究视野从题录数据扩展至全文本数据。

 

上一篇:基于近20年中文核心期刊文献计量的番茄研究主题与热点分析

下一篇:返回列表

点击这里给我发消息 文献论文下载互助群