大数据是一个泛在的概念,各行各业都可能存在大数据。大数据存在的价值在于,科研人员通过对数据进行分析,从而能够获得有助于学科或行业发展的研究结论,为决策者提供决策支撑,或者为研究人员提供科研参考。 本书的研究过程包含了数据搜集、数据处理、指标设计、实证研究、决策建议等内容,是一整套的系统性研究。不但为主路经分析提供了方法论支持,而且能够通过实证研究为决策作数据支撑。更重要的是,通过前前后后的实践研究,我们为学科分析人员和学科服务人员提供了一整套可供参考和借鉴的研究方法。
主路径分析能够揭示一个研究主题或研究领域的主要发展过程,它能够给研究者提供这个发展过程中的关键文献或者关键事件。通常,找到的主路径可能不是唯一的,但是每条主路径都是由一系列关键文献组成的,这些关键文献体现了一个研究领域的主要发现。自从Garfield提出引文分析之后(Garfield,1955),引文分析就变得非常流行,而主路径分析实际上就是一种特殊的引文分析。因为引文分析能够明确地展示科研论文之间错综复杂的关系,而且能够体现这些关系的强弱,所以引文分析在寻找关键论文的过程中扮演着非常重要的角色。假设科学史是由一系列具有时间顺序的事件组成的,在这个过程中新的发现是在以往发现的基础上产生的,基于这些假设,Garfield指出,借助引文分析来书写科学史变得可行(Garfield,1964)。Garfield进一步发现,如果一篇论文被更加广泛地引用,那么这篇论文就很可能是一个研究主题中的“里程碑式”的研究,或者说是这个研究主题中的关键事件(Garfield,1970)。而且,引用关系已经被证明是研究技术发展变化过程的重要方法(Jaffe,2002)。引文研究因此可以被分为两类,一类是研究科研论文的重要性的,另一类是分析引文网络的结构特征的。如果要研究特定的网络关系,那么通常就要开展引文网络的结构分析。科研论文之间的关系包括引用、被引用、文献耦合(Kessler,1963)以及文献共被引(Small,1973)。传统的网络结构分析方法主要是基于以上所述的论文之间的关系对论文进行聚类,而这些方法主要关注的是网络节点,即科研论文,并非节点之间的关系。Garfield在分析有关DNA脱氧核糖核酸。理论的引文网络时,只有40篇科研论文。因此,他的分析是比较容易完成的。随着科研论文数量的快速增多,使用传统的方法直接对这些论文的引文结构进行分析变得越来越困难。因此,Hummon提出用主路径分析的方法来解决这个问题(Hummon,1989)。与关注网络节点的传统分析方法不同的是,主路径分析方法关注的是节点之间的连接关系。换句话说,传统的网络结构分析方法关注的是网络节点,而主路径分析方法关注的是节点之间的关系。主路径指的是网络中那些能够承载*多知识流的路径,它们是引文网络中*重要的网络路径。为了衡量一个连接在论文引用网络中的重要性,Hummon提出了遍历权重的概念。一个连接的遍历权重,指的是经过这条连接的路径数量,遍历权重的大小体现了连接的重要性。Hummon开发了三种计算遍历权重的方法,即搜索路径链接计数方法(Search Path Link Count,SPLC)、搜索路径节点对方法(Search Path Node Pair,SPNP),以及节点对映射计数方法(Node Pair Projection Count,NPPC)。在基于以上三种方法衡量了连接的重要性之后,Hummon提出可以使用深度优先算法(Depth First Search Method)来寻找主路径。基于DNA研究的引文网络,Hummon发现了促使DNA理论形成的关键事件和关键文献。Hummon在这里用到的引文网络和Garfield曾经用过的引文网络(Garfield,1964)是同一个。与Garfield当初的研究结果相比较,Hummon通过使用主路径分析方法得到的研究结果是非常具有说服力的。然而,他们使用的论文引用网络是非常小的,仅仅由40个网络节点组成,而这40个网络节点是从69篇科研论文中筛选出来的。后来,Hummon使用主路径分析方法分析了一个更大的引文网络,这个引文网络是由119个网络节点和632条节点之间的连接组成的。这个引文网络中的节点不只是科研论文,还有研究报告和著作等,这些网络节点是关于中心性和生产力研究(Centrality and Productivity Research)的。该网络是一个由被引关系构成的引文网络,所以这个网络体现了早期研究对晚期研究的影响。在研究中,Hummon同时使用了NPPC、SPLC和SPNP三种计算遍历权重的方法,*后得到了一个中心性和生产力研究领域的、清晰的发展主路径(Hummon,1990)。同年,Hummon引入了计算机领域提出的深度优先算法(Hummon,1990)。基于期刊Social Networks的第1~12卷发表的科研论文,Hummon使用主路径分析方法找到了Kuhn先前已经找出来的主路径。Hummon的研究也说明了使用主路径分析方法研究者能够得到非常精确的结果(Hummon,1993)。后来,Carley分析了期刊Journal of Conflict Resolution的主路径结构(Carley,1993)。然而,之前主路径分析方法一直未被用于非常大型的引文网络,直到Batagelj开发出主路径分析的高效计算机算法,并且将这些算法植入大型网络分析软件Pajek(Batagelj,2003)。在Batagelj的研究中,他针对Hummon的SPLC和SPNP方法开发了非常高效的计算机算法。因为这些算法是和网络中边的数量成线性关系的,所以算法效率高,从而可以被用来分析非常大型的引文网络。同时,和Hummon提出的、用来计算连接遍历权重的SPLC和SPNP方法相比较,Batagelj还自己开发了搜索路径数(Search Path Count,SPC)计算方法。通过对SPC、SPLC和SPNP三种计算方法进行对比研究,Batagelj指出,使用这三种方法计算遍历权重得到的结果是非常相似的,但是SPC方法具有其他两种方法没有的优点。自此,SPC方法被广泛地用来计算连接的遍历权重。Batagelj还基于Pajek软件提供了两个研究实例,一个是针对论文引用网络进行分析的,另外一个是针对专利引用网络进行分析的。如果我们把Garfield的引文分析研究(Garfield,1964)看作引文网络研究中的**个重大发现,把Hummon提出来的主路径分析(Hummon,1989)看作第二个重大发现,那么Batagelj的上述研究结果(Batagelj,2003)足以被称为引文网络研究的第三个重大发现。在前人研究的基础上,Moore研究了公共健康领域社会资本概念的谱系(Moore,2006)。Mina借用分析方法调查了一个非常重要的医学技术创新研究,即冠状动脉成形术,这是医学领域解决冠心病的重大突破,因为冠心病在那个年代的发达国家是导致死亡的*主要疾病。Mina的研究是基于两类数据集展开的,一类是科研论文,另一类是发明专利,整个分析是在Pajek软件中完成的(Mina,2007)。Verspagen随后基于专利引用网络对燃料电池技术的发展轨迹进行了分析。Carlero-Medina针对吸收能力领域的研究,分析了主要的发展路径(Carlero-Medina,2008)。Lucio-Arias使用HistCite软件分别构造了关于富勒烯的研究领域和纳米管的研究领域的论文引用网络,使用SPLC算法来计算连接的遍历权重,并借助Pajek软件找到了相应研究领域的主路径(Lucio-Arias,2008)。Harris随后分析了关于二手烟的研究主路径(Harris,2009)。Lu调查了纳米技术伦理学中的发展历史(Lu,2012)。在2012年,出现了主路径研究中的另一个“里程碑式”的研究,这个研究是由Liu等人提出来的,他们在这方面做出了重要贡献(Liu等,2012)。Liu等人的研究可以看作继Garfield、Hummon以及Batagelj等人的研究之后,在主路径研究领域做出的另一个巨大贡献。在Hummon的工作中,主路径的寻找是从当前节点出发的边中选择具有*大遍历权重的边,重复该操作直至完成整个主路径的寻找。使用这种方法,每一次选择出来的边都是从当前节点出发具有*大遍历权重的边,然而,得到的整个路径中的边的遍历权重之和,未必是所有路径中*大的。Liu等把Hummon的这种搜索主路径的方法称作本地(Local)主路径搜索,Liu等认为上述问题是本地主路径搜索的缺陷,他们因此相应地提出了全局主路径(Global)搜索。在全局主路径搜索中,从当前节点出发所找出的边未必是所有边中权重*大的那一条边,然而,*终找出来的路径上的所有边的遍历权重之和,却是所有路径中*大的。这种方法就好像是图论中*短路径搜索(Shortest Paths Searching)的一个逆版本。其实,Hummon和Liu等提出来的这两个主路径搜索方法都有自己的特点,到底使用哪一种方法来寻找主路径,主要取决于研究者想要表达一种什么样的信息。本地主路径搜索表达的是在整个知识流动过程中一种渐进式的重要性;而全局主路径搜索表达的是整个路径的重要性。Liu后来的研究发现,通过本地主路径搜索方法搜索到的主路径和通过全局主路径搜索方法搜索到的主路径是非常相似的,仅仅在主路径的起始和末尾会有不同(Liu,2013a)。在Liu发现Hummon的主路径搜索方法是本地主路径搜索的同时,他还发现Hummon的搜索方法是前向(Forward)搜索,也就是说,这样每次找出来的论文节点都是那些*能够吸引后续研究的论文节点,这就好像是在追溯那些有*重要贡献的前人的研究成果。相对而言,Liu提出了后向(Backward)搜索(Liu,2012)。相对于前向搜索,后向搜索选择的是网络路径上那些能更广泛地吸取前人研究结果的论文节点。前向搜索是基于网络节点的“出度”选择的,而后向搜索则是基于网络节点的“入度”选择的。然而,后向搜索只能用于Hummon提出来的本地主路径搜索方法。实际上,Lucio-Arias的研究已经使用到了后向搜索的方法,只不过这种方法在当时的研究中被称为“Codification”(Lucio-Arias,2008)。Liu还提出,通过放松搜索的限制条件,能够找出重要性仅次于主路径的其他路径。因此,这种方法也被称为多主路径搜索方法。多主路径搜索方法和主路径分析方法找到的路径可能有多条是不同的,前者是主动地寻找多条路径,各条路径的重要性是依次下降的;而后者是由多条路径的遍历权重相同引起的,这些路径都是主要的路径。Liu的这个工作还有另外一个重要贡献,就是关键路径(Key-Route)概念的提出。Liu提出关键路径的概念,是为了解决这样一个实际问题,即在以往的主路径搜索算法中,对于整个引文网络来讲具有*高遍历权重的那一条或那几条边未必会被选入主路径,而这对这些边是不公平的。Liu把这样的边称作Key-Route(我们称之为关键路径),而且提出可以用关键路径搜索的方法来解决这个问题。在讲述具体方法之前,我们先介绍一些基础知识,以免理解上的混淆。关键路径是一条弧,对于一条方向是从左指向右的弧来讲,左侧端点称为弧尾节点,右侧端点称为弧头节点。可以类似地借助弓箭来理解,箭射出去以后,前端为箭头,后端为箭尾。弧头和弧尾也是类似的。关键路径搜索的具体方法是,首先选中关键路径,然后顺着关键路径的头节点使用前向搜索算法进行主路径搜索,直至到达出度为零的终端节点;同时,顺着弧尾节点使用后向搜索算法进行主路径搜索,直至到达入度为零的起始节点。类似地,我们可以通过放松条件限制来获得多条关键路径。基于H指数的相关科研论文,Liu整理了多条关于H指数研究的主路径,使用的方法包括前向本地主路径搜索、前向全局主路径搜索、后向本地主路径搜索、后向本地多主路径搜索以及本地关键路径搜索和全局关键路径搜索(Liu,2012)。在Liu的后期工作中,他将本地关键路径搜索方法分别运用于5个DEA(Data Envelopment Analysis,数据包络分析应用),从而完成了一项关于DEA应用的综述研究(Liu,2013b)。Chuang应用本地关键路径搜索方法分析了医疗旅游研究,并且得到了该研究领域的两条不同的发展路径(Chuang,2014)。而且,在Liu的另外一个后期工作中,他们先用基于Edge-Betweenness的网络聚类方法对DEA的研究文献进行了分类,并得到了DEA的4个研究前沿。然后,Liu针对每一个DEA的研究前沿所呈现的文献引用网络,先使用SPLC的方法来计算连接的遍历权重,然后使用全局关键路径搜索方法分别找出了每一个研究前沿的发展路径(Liu,2016)。Kaffash使用Batagelj早期提出来的关键路径分析方法对金融服务领域的发展路径进行了研究(Kaffash,2017)。
邵志毅,计算机软件与理论博士,现为陕西师范大学教师。在陕西师范大学数学与信息科学学院从事博士后合作研究,研究方向为学科分析、图书情报、科学计量。陕西师范大学优秀博士研究生,主持中国博士后科研基金面上一等项目一项,参与国家自然科学基金项目6项。
辞海(1999年版缩印本·音序) 本书特色 本书是以字带词,兼有字典、语文词典和百科词典功能的大型综合性辞典,在内容上和形式上都以新面貌出现在读者面前,本版篇幅...
民国四川话英语教科书 本书特色 这是一本百年前的英文版四川话教材,是华西医院创始人启尔德医生给华西协合大学医科学生学习四川话编写的英语教材,1917年由华西协和...
中国农业文化遗产研究 本书特色 由王思明、李明主编的《中国农业文化遗产研究(精)/中国农业文化遗产》首次系统地调查、收集、整理了我国农业文化遗产资源,对其进行了...
大众哲学对话录 内容简介 本书以师生对答的形式对马克思主义哲学的基本问题进行了探讨和阐发。大众哲学对话录 作者简介 郝立新,男,1960年生,贵州贵阳人,哲学博...
语法六讲 本书特色 本书收录了作者在国内外一些大学和研究所所做的六个演讲,并经作者修改和补充,都与汉语语法研究有关,包含2010年12月在日本大阪立命馆孔子学院...
王羽,生于1978年12月,天津人,2007年毕业于华东师范大学中文系中国现当代文学专业,文学博士,现为天津师范大学文学院讲师。主要研究方向为海派文学、女性文学...
中国民间趣味俗语(上下) 内容简介 《中国民间趣味俗语(套装共2册)》收集了三百多条常用俗语。分为人物称呼、市井称呼、行为心理、人生感恬、社会现象、功德成败、事...
古代汉语字典(最新修订版.双色缩印本.64开) 本书特色 该字典收字18 000多个,涵盖了古汉语中的所有常用字和部分难字。提供了甲骨文、金文、小篆、隶书等形体...
中国民间婚恋习俗-姻缘 良缘 孽缘 本书特色 《中国民间婚恋习俗:姻缘·良缘·孽缘》由四川人民出版社出版。中国民间婚恋习俗-姻缘 良缘 孽缘 内容简介 简介中国...
论翻译的原则-外研社翻译研究文库 目录 IntroductionCHAPTER Ⅰ Description of a good Translation--Gen...
彩陶与青铜的对话 本书特色 本书是一部围绕“彩陶”与“青铜”这两类特殊器物,探索史前时期东西方文化交流进程的著作...
领导力书系,由颉腾文化策划出版。带你看清当下复杂的商业环境,抓住稍纵即逝的市场机会,提升文化软实力、产品创新力、企业应变力和个人领导力。内容简介 ★★★★★本书...
现代学人谜案 本书特色 这本小书,从晚近的若干”文化遗民”带有谜样的往事说起,于悲凉意绪之余,发掘幽深的文化地矿,澄清往事,并彰显若干士子在这一百年中国思想和学...
满语口语音典 本书特色满语在清朝是官方语言,从明万历二十七年(1599)传承至今已有四百余年,但现在已成为濒危语言。瀛生先生对抢救日趋乏承的满语口语杞忧益殷,以...
浮世与春梦 本书特色 《浮世与春梦》图文并茂,雅俗共赏。用比较的方法研究中国性文化与日本性文化,这是开山之作。 性与文化,像是瓶与酒的关系。对日本人来说,是发性...
中国传统凤凰艺术 本书特色 《中国传统凤凰艺术》由郑军、张东明编著,凤与龙一样,不但是中华民族的象征,也是中国传统艺术中永远不会陈旧的装饰形象,因此,本书将这一...
《我死去的挚友》内容简介:这是一本讲述墨西哥城青年人友情与爱情的长篇小说。主角曼努埃尔和格雷戈里奥是形同手足的好友,但在格
一串只能被怨气撞响的风铃,一段永远看不到终点的旅途。★作者心目中“永远特殊,永远珍视”的作品。尾鱼为国内独树一帜的悬疑奇情作者。她用笔铺陈了一个又一个光怪陆离的...
尔雅 本书特色 由郭璞注的《尔雅》是我国*早的一部解释词义的专著,是中国古代*早的词典,也是**部按照词义系统和事物分类来编纂的词典。“尔”是“近”的意思,“雅...
当代寓言集 本书特色 作为美国风情的诠释者,詹姆斯·瑟伯在文学史 上的地位早有定论。他被认为是继马克·吐温之后美 国*伟大的幽默大师...