大数据是一个泛在的概念,各行各业都可能存在大数据。大数据存在的价值在于,科研人员通过对数据进行分析,从而能够获得有助于学科或行业发展的研究结论,为决策者提供决策支撑,或者为研究人员提供科研参考。 本书的研究过程包含了数据搜集、数据处理、指标设计、实证研究、决策建议等内容,是一整套的系统性研究。不但为主路经分析提供了方法论支持,而且能够通过实证研究为决策作数据支撑。更重要的是,通过前前后后的实践研究,我们为学科分析人员和学科服务人员提供了一整套可供参考和借鉴的研究方法。
主路径分析能够揭示一个研究主题或研究领域的主要发展过程,它能够给研究者提供这个发展过程中的关键文献或者关键事件。通常,找到的主路径可能不是唯一的,但是每条主路径都是由一系列关键文献组成的,这些关键文献体现了一个研究领域的主要发现。自从Garfield提出引文分析之后(Garfield,1955),引文分析就变得非常流行,而主路径分析实际上就是一种特殊的引文分析。因为引文分析能够明确地展示科研论文之间错综复杂的关系,而且能够体现这些关系的强弱,所以引文分析在寻找关键论文的过程中扮演着非常重要的角色。假设科学史是由一系列具有时间顺序的事件组成的,在这个过程中新的发现是在以往发现的基础上产生的,基于这些假设,Garfield指出,借助引文分析来书写科学史变得可行(Garfield,1964)。Garfield进一步发现,如果一篇论文被更加广泛地引用,那么这篇论文就很可能是一个研究主题中的“里程碑式”的研究,或者说是这个研究主题中的关键事件(Garfield,1970)。而且,引用关系已经被证明是研究技术发展变化过程的重要方法(Jaffe,2002)。引文研究因此可以被分为两类,一类是研究科研论文的重要性的,另一类是分析引文网络的结构特征的。如果要研究特定的网络关系,那么通常就要开展引文网络的结构分析。科研论文之间的关系包括引用、被引用、文献耦合(Kessler,1963)以及文献共被引(Small,1973)。传统的网络结构分析方法主要是基于以上所述的论文之间的关系对论文进行聚类,而这些方法主要关注的是网络节点,即科研论文,并非节点之间的关系。Garfield在分析有关DNA脱氧核糖核酸。理论的引文网络时,只有40篇科研论文。因此,他的分析是比较容易完成的。随着科研论文数量的快速增多,使用传统的方法直接对这些论文的引文结构进行分析变得越来越困难。因此,Hummon提出用主路径分析的方法来解决这个问题(Hummon,1989)。与关注网络节点的传统分析方法不同的是,主路径分析方法关注的是节点之间的连接关系。换句话说,传统的网络结构分析方法关注的是网络节点,而主路径分析方法关注的是节点之间的关系。主路径指的是网络中那些能够承载*多知识流的路径,它们是引文网络中*重要的网络路径。为了衡量一个连接在论文引用网络中的重要性,Hummon提出了遍历权重的概念。一个连接的遍历权重,指的是经过这条连接的路径数量,遍历权重的大小体现了连接的重要性。Hummon开发了三种计算遍历权重的方法,即搜索路径链接计数方法(Search Path Link Count,SPLC)、搜索路径节点对方法(Search Path Node Pair,SPNP),以及节点对映射计数方法(Node Pair Projection Count,NPPC)。在基于以上三种方法衡量了连接的重要性之后,Hummon提出可以使用深度优先算法(Depth First Search Method)来寻找主路径。基于DNA研究的引文网络,Hummon发现了促使DNA理论形成的关键事件和关键文献。Hummon在这里用到的引文网络和Garfield曾经用过的引文网络(Garfield,1964)是同一个。与Garfield当初的研究结果相比较,Hummon通过使用主路径分析方法得到的研究结果是非常具有说服力的。然而,他们使用的论文引用网络是非常小的,仅仅由40个网络节点组成,而这40个网络节点是从69篇科研论文中筛选出来的。后来,Hummon使用主路径分析方法分析了一个更大的引文网络,这个引文网络是由119个网络节点和632条节点之间的连接组成的。这个引文网络中的节点不只是科研论文,还有研究报告和著作等,这些网络节点是关于中心性和生产力研究(Centrality and Productivity Research)的。该网络是一个由被引关系构成的引文网络,所以这个网络体现了早期研究对晚期研究的影响。在研究中,Hummon同时使用了NPPC、SPLC和SPNP三种计算遍历权重的方法,*后得到了一个中心性和生产力研究领域的、清晰的发展主路径(Hummon,1990)。同年,Hummon引入了计算机领域提出的深度优先算法(Hummon,1990)。基于期刊Social Networks的第1~12卷发表的科研论文,Hummon使用主路径分析方法找到了Kuhn先前已经找出来的主路径。Hummon的研究也说明了使用主路径分析方法研究者能够得到非常精确的结果(Hummon,1993)。后来,Carley分析了期刊Journal of Conflict Resolution的主路径结构(Carley,1993)。然而,之前主路径分析方法一直未被用于非常大型的引文网络,直到Batagelj开发出主路径分析的高效计算机算法,并且将这些算法植入大型网络分析软件Pajek(Batagelj,2003)。在Batagelj的研究中,他针对Hummon的SPLC和SPNP方法开发了非常高效的计算机算法。因为这些算法是和网络中边的数量成线性关系的,所以算法效率高,从而可以被用来分析非常大型的引文网络。同时,和Hummon提出的、用来计算连接遍历权重的SPLC和SPNP方法相比较,Batagelj还自己开发了搜索路径数(Search Path Count,SPC)计算方法。通过对SPC、SPLC和SPNP三种计算方法进行对比研究,Batagelj指出,使用这三种方法计算遍历权重得到的结果是非常相似的,但是SPC方法具有其他两种方法没有的优点。自此,SPC方法被广泛地用来计算连接的遍历权重。Batagelj还基于Pajek软件提供了两个研究实例,一个是针对论文引用网络进行分析的,另外一个是针对专利引用网络进行分析的。如果我们把Garfield的引文分析研究(Garfield,1964)看作引文网络研究中的**个重大发现,把Hummon提出来的主路径分析(Hummon,1989)看作第二个重大发现,那么Batagelj的上述研究结果(Batagelj,2003)足以被称为引文网络研究的第三个重大发现。在前人研究的基础上,Moore研究了公共健康领域社会资本概念的谱系(Moore,2006)。Mina借用分析方法调查了一个非常重要的医学技术创新研究,即冠状动脉成形术,这是医学领域解决冠心病的重大突破,因为冠心病在那个年代的发达国家是导致死亡的*主要疾病。Mina的研究是基于两类数据集展开的,一类是科研论文,另一类是发明专利,整个分析是在Pajek软件中完成的(Mina,2007)。Verspagen随后基于专利引用网络对燃料电池技术的发展轨迹进行了分析。Carlero-Medina针对吸收能力领域的研究,分析了主要的发展路径(Carlero-Medina,2008)。Lucio-Arias使用HistCite软件分别构造了关于富勒烯的研究领域和纳米管的研究领域的论文引用网络,使用SPLC算法来计算连接的遍历权重,并借助Pajek软件找到了相应研究领域的主路径(Lucio-Arias,2008)。Harris随后分析了关于二手烟的研究主路径(Harris,2009)。Lu调查了纳米技术伦理学中的发展历史(Lu,2012)。在2012年,出现了主路径研究中的另一个“里程碑式”的研究,这个研究是由Liu等人提出来的,他们在这方面做出了重要贡献(Liu等,2012)。Liu等人的研究可以看作继Garfield、Hummon以及Batagelj等人的研究之后,在主路径研究领域做出的另一个巨大贡献。在Hummon的工作中,主路径的寻找是从当前节点出发的边中选择具有*大遍历权重的边,重复该操作直至完成整个主路径的寻找。使用这种方法,每一次选择出来的边都是从当前节点出发具有*大遍历权重的边,然而,得到的整个路径中的边的遍历权重之和,未必是所有路径中*大的。Liu等把Hummon的这种搜索主路径的方法称作本地(Local)主路径搜索,Liu等认为上述问题是本地主路径搜索的缺陷,他们因此相应地提出了全局主路径(Global)搜索。在全局主路径搜索中,从当前节点出发所找出的边未必是所有边中权重*大的那一条边,然而,*终找出来的路径上的所有边的遍历权重之和,却是所有路径中*大的。这种方法就好像是图论中*短路径搜索(Shortest Paths Searching)的一个逆版本。其实,Hummon和Liu等提出来的这两个主路径搜索方法都有自己的特点,到底使用哪一种方法来寻找主路径,主要取决于研究者想要表达一种什么样的信息。本地主路径搜索表达的是在整个知识流动过程中一种渐进式的重要性;而全局主路径搜索表达的是整个路径的重要性。Liu后来的研究发现,通过本地主路径搜索方法搜索到的主路径和通过全局主路径搜索方法搜索到的主路径是非常相似的,仅仅在主路径的起始和末尾会有不同(Liu,2013a)。在Liu发现Hummon的主路径搜索方法是本地主路径搜索的同时,他还发现Hummon的搜索方法是前向(Forward)搜索,也就是说,这样每次找出来的论文节点都是那些*能够吸引后续研究的论文节点,这就好像是在追溯那些有*重要贡献的前人的研究成果。相对而言,Liu提出了后向(Backward)搜索(Liu,2012)。相对于前向搜索,后向搜索选择的是网络路径上那些能更广泛地吸取前人研究结果的论文节点。前向搜索是基于网络节点的“出度”选择的,而后向搜索则是基于网络节点的“入度”选择的。然而,后向搜索只能用于Hummon提出来的本地主路径搜索方法。实际上,Lucio-Arias的研究已经使用到了后向搜索的方法,只不过这种方法在当时的研究中被称为“Codification”(Lucio-Arias,2008)。Liu还提出,通过放松搜索的限制条件,能够找出重要性仅次于主路径的其他路径。因此,这种方法也被称为多主路径搜索方法。多主路径搜索方法和主路径分析方法找到的路径可能有多条是不同的,前者是主动地寻找多条路径,各条路径的重要性是依次下降的;而后者是由多条路径的遍历权重相同引起的,这些路径都是主要的路径。Liu的这个工作还有另外一个重要贡献,就是关键路径(Key-Route)概念的提出。Liu提出关键路径的概念,是为了解决这样一个实际问题,即在以往的主路径搜索算法中,对于整个引文网络来讲具有*高遍历权重的那一条或那几条边未必会被选入主路径,而这对这些边是不公平的。Liu把这样的边称作Key-Route(我们称之为关键路径),而且提出可以用关键路径搜索的方法来解决这个问题。在讲述具体方法之前,我们先介绍一些基础知识,以免理解上的混淆。关键路径是一条弧,对于一条方向是从左指向右的弧来讲,左侧端点称为弧尾节点,右侧端点称为弧头节点。可以类似地借助弓箭来理解,箭射出去以后,前端为箭头,后端为箭尾。弧头和弧尾也是类似的。关键路径搜索的具体方法是,首先选中关键路径,然后顺着关键路径的头节点使用前向搜索算法进行主路径搜索,直至到达出度为零的终端节点;同时,顺着弧尾节点使用后向搜索算法进行主路径搜索,直至到达入度为零的起始节点。类似地,我们可以通过放松条件限制来获得多条关键路径。基于H指数的相关科研论文,Liu整理了多条关于H指数研究的主路径,使用的方法包括前向本地主路径搜索、前向全局主路径搜索、后向本地主路径搜索、后向本地多主路径搜索以及本地关键路径搜索和全局关键路径搜索(Liu,2012)。在Liu的后期工作中,他将本地关键路径搜索方法分别运用于5个DEA(Data Envelopment Analysis,数据包络分析应用),从而完成了一项关于DEA应用的综述研究(Liu,2013b)。Chuang应用本地关键路径搜索方法分析了医疗旅游研究,并且得到了该研究领域的两条不同的发展路径(Chuang,2014)。而且,在Liu的另外一个后期工作中,他们先用基于Edge-Betweenness的网络聚类方法对DEA的研究文献进行了分类,并得到了DEA的4个研究前沿。然后,Liu针对每一个DEA的研究前沿所呈现的文献引用网络,先使用SPLC的方法来计算连接的遍历权重,然后使用全局关键路径搜索方法分别找出了每一个研究前沿的发展路径(Liu,2016)。Kaffash使用Batagelj早期提出来的关键路径分析方法对金融服务领域的发展路径进行了研究(Kaffash,2017)。
邵志毅,计算机软件与理论博士,现为陕西师范大学教师。在陕西师范大学数学与信息科学学院从事博士后合作研究,研究方向为学科分析、图书情报、科学计量。陕西师范大学优秀博士研究生,主持中国博士后科研基金面上一等项目一项,参与国家自然科学基金项目6项。
日本人与日本论 本书特色 从日本的自然条件、历史渊源说起,通过分析近现代日本国家政治、经济等,指出了日本民族精神上的空虚与矛盾;对日本社会文化的方方面面做了分析...
读库1102 本书特色 《读库》是一本综合性人文社科读物,由京城著名文化名人张立宪主编。其编辑方针是“摆事实不讲道理”;其收入的作品从篇幅而言属于五千至五万字之...
山海经(白话彩图珍藏本) 本书特色 《山海经》是一部可不信的地理文献。——郭璞《山海经》是[古今语怪之祖]——胡应麟《山海经》是一部地理博物方面的巨著。——刘秀...
历史文化名城桂林 目录 一、地理位置与城市沿革二、*早的桂林人三、民族构成与文化猜想四、南筑秦城更远图五、汉武设置始安县六、南朝独秀郛邑间七、唐代兴建桂州城八、...
炎黄文化研究:第九辑 本书特色 《炎黄文化研究(第9辑)》马礼逊是**位来华的基督教新教传教士,也是中西文化交流的重要开拓者,他所留下来的学术著作在中国近代学术...
孝经大义 本书特色 本书疏通《孝经》大义,以推明圣人立孝为教之大义。其间以西方神教、哲学相对照,以见圣人之教之易简而广大,无所不通,欲知人类普适的教化之道,其唯...
东居闲话 本书特色 沈昌文、止庵撰序推荐——旅日学者李长声的且饮且歌,且行且书。川端康成于一九六八年获得诺贝尔文学奖,到今年正好四十年,重读《雪国》,刚读了开头...
语言学习题集(第2版) 内容简介 本书综合了《全国自学考试大纲》和《英语专业本科教学大纲》中关于英语语言学课程的规定和要求,借鉴了国内主要外语院系英语专业研究生...
文化产业读本 本书特色 《文化产业读本》:解读文化,探析产业,全方位了解文化产业的内涵,多角度把握文化产业的发展现状。文化产业读本 目录 前言第1章 文化面面观...
观音传说 本书特色 《观音传说》为“中国民俗文化丛书”中的一册,为你讲述民间关于观音的传说及故事。观音为何不结婚 观音是男还是女 观音庙为啥坐南朝北 中国民间又...
蔗糖史 本书特色 季羡林:这是我一生当中*重要的学术著作。历时17年,凝聚季先生一生*多心血的鸿篇巨制。一部围绕蔗糖展开的世界文化交流史。体现在植蔗制糖上的文化...
中国古代神话与传说 本书特色 《中国文化史知识丛书:中国古代神话与传说》是本高品位、可信赖的文化知识读物。《中国文化史知识丛书:中国古代神话与传说》共分十个部分...
【编辑推荐】◎生命并非短暂,而是我们荒废太多·到底该怎样度过有价值的一生?·怎么看待生命和时间,怎样面对厄运?·什么才是真正的“闲暇”,我们该如何获得它?·当内...
穿越中世纪 本书特色 让韦尔东用生动的实例和能够说明问题的文件描绘了中世纪一个广阔世界,从视野超不过所在教区、市集、磨房或离得*近的乡镇的农民,到“旅行者”,再...
熟语学纲要 本书特色 熟语是人类有语言之后的派生物,是人类语言发展到相当成熟阶段的产物。各民族语言的历史情况不同,其熟语萌芽的时代也不一样,甚至不同熟语类型形成...
语法通论 内容简介 本书是一部既详尽阐释系统的古汉语语法理论知识,又注重理论指导下的具体运用的著作。全书包括《语法概说》、《词的构成方式》、《短语》、《词类》、...
布宜诺斯艾利斯 本书特色 南美,一片神奇的土地。各人种在这里杂居,观念、风俗、想法突破人类的正常想象。这里有着热情绚烂的简单色彩,也有饱含历史感的厚重故事;激情...
大视野文库神话与人类丛书:古代北欧的传奇故事——北欧海盗及日尔曼神话 内容简介 在古代北欧神话中,主宰黑暗世界的奥丁神和托尔神.奥丁神不仅是诗人、帝王,还是斗士...
胡同九十九 本书特色 ★ 12开精装,1996年1版1印,北京出版社出版★ 徐勇是以北京胡同和乡土中国系列摄影而闻名的摄影家★ 收录汪曾祺、宗璞、张承、王朔、刘...
语法的认知语义基础(2004/5) 内容简介 《语法的认识语义基础》研究的理论纲领是基于对认知功能语言学思想的借鉴、先贤成果的吸收、特别是作者自己过去研究经验的...