客服电话:15682930301

园林论文

当前位置: 毕业论文>社科论文>园林论文 > 正文

园林历史研究中的量化及分析算法研究

发布时间:2020-05-26 11:01文字数:7291字

  摘要:[目的]研究园林历史研究中大量私家园林历史信息数据化及数据分析问题,探索比传统研究范式在样本覆盖率和信息复杂降低程度两个方面更佳的研究路径。[方法]以明、清时期南京杏花村地块的 45 处私家园林为研究对象。
 
  通过梳理、验证历史信息,将 45 处园林、57 项独立特征转化为合计 2 565 项的历史信息判定矩阵。对信息矩阵进行K-means 聚类和主成分分析,并将聚类和降维之后的结果,从样本覆盖率和信息复杂降低程度两个方面,与传统研究范式,如通过四要素、园主人等分类后提取高频特征研究的方法进行比对,同时比较了传统、聚类、主成分分析所得历史规律的差异。[结果]分析比较指出,传统分类后高频的研究方法样本覆盖率一般为 45%,信息复杂度约为原样本的 70%;指定分类数为 5 的 K-means 聚类算法样本覆盖率约为 42%,信息复杂度约为原样本的 63%;而采用主成分分析法可以跨过分类步骤,得到合计 70%以上、信息复杂度为原样本 44%的规律。在分类后获得的历史性规律中, 采用传统方法只能得到分类独立信息,以 K-means 聚类后可以得到跨类型的规律,而用主成分分析法不但能得到跨类型规律,还具有提示性强、特征明显的优点。[结论]南京杏花村地块历史园林发展脉络中,园林的要素和风格更大程度受地块内已有园林形态影响,而非园主人身份或造园风尚引导,突破了已有范式的常见结论。在园林历史研究中,面对大量私园时,主成分分析法具有样本覆盖率高、信息复杂度低的优点,是一种可参考的研究路径。
 
  关键词:风景园林;私家园林;园林史;分类算法;南京杏花村
 
  中国传统私家园林作为中国古典园林中的一类重要组成,截至 2018 年,相关的期刊、会议、学位论文近 2 000 篇,专著近 900 本。印证了“园林史研究在逐渐突破习见的纵观式研究模式后,通过将研究对象置入特定的时空中,获得对园林史时段性、地域性的关注”[1]这一预言性总结。然而相较于研究对象和成果的爆发式增长,园林历史的研究方法尚未出现显著改变,并表现出一些普遍共通的问题:第一,近 20 年来,研究热点过于集中于苏州、北京;第二,以局部时空下的历史资料列举和整理居多,缺少重要的连续时空范围中的规律性结论;第三,研究过程中的分类体系类似,常为时代、阶层或园林四要素分类法,概括性强但不适用于描述细部特征,如对明代以来兰州古典园林发展与特点研究中,18 处有水景私园的水体形态多达 4 种;28 处园林内存在 11 种常见植物交错分布[2];对北京清代王府园林空间形态研究报道中 23 处调研对象中也有类似情况[3]。
 
  私家园林依建造基址,园主人身份、喜好和造园目的不同,受主持造园匠人工艺、技法以及园林时代的影响,组合后呈现丰富且复杂的园林成果。这种丰富性也使得研究一定地域范围或时间范畴的大量对象时,陷入过于复杂难以进展的困境。在传统研究范式中,往往通过分类研究或单类研究这种方法来降低复杂度,当通过分类不能降低复杂程度时,采取提取一定比例的高频特征或人为认定的经典对象进行研究。但具体的分类方法和比例则依赖经验,而这可能导致研究结果的“幸存者偏差”[4-5]。如假设某地域 13 处园林具有如表 1 的特征矩阵,如果按园林四要素分类后提取最高频信息,则会得到该地域园林植物为松树,水系为自然水系这一结论;而若采用植物加水系的分类体系,则会得到该地域园林以柳树加方形水池为主要特点。从样本覆盖率的角度来看,后者的覆盖样本数更大,是较为“接近准确”的规律。但事实上,大量已有研究都采用单一四要素分类后研究的范式而不是组合特征分类,而且对高频特征的提取比例也无定论,研究过程多未涉及上述复验过程。说明传统研究范式缺少针对复杂历史对象有效的研究方法。这就要求改变传统资料罗列或高度依赖研究者个体探索历史规律的研究路径,转而探索更为便捷、更高信息覆盖率的新研究方法。若能将大量历史信息量化,则可以信息特征矩阵为基础,借助各类数据分析的思路和方法,并与传统研究成果对应比较。
 
  与经典范式先分类后高频的方法类似,现代数据发掘中,经常使用聚类算法寻找模式或分类规律[6-8],或使用主成分分析法进行降维[9-10],便于找出主要的数据规律。为此,在分析园林历史信息数据化基础上,比较聚类和主成分分析法与传统分类及分析方法在分类后高频信息覆盖率和寻找主要规律方面的差异,以期探索比传统研究范式在样本覆盖率和信息复杂降低程度两个方面更佳的研究路径。
 
  1 材料与方法
 
  1.1 研究对象及其特征选择
 
  杏花村是明、清南京私家园林集中分布的典型片区,该地块既有局部高亢的地形条件和风景名胜点如花露岗、凤凰台、瓦官寺、凤游寺、杏花林等,又紧邻明、清南京商业活动繁闹的运渎区域11],交通便利,是文人造园的热门地点。明王世贞记述“明代士大夫园亭多在此”[12],既有实力雄厚的徐氏家族营造的万竹园、西园、凤台园,也有著名文人如顾起元等的遁园、羽王园等。其中的西园经传承转手为愚园,是当代重要的文化和园林遗产。明、清期间,该地块共有历史记载园林 45 处与杏花村相关的园林文献较为完善详实,涵盖了各个园林的布局、选址、局部景物等多个方面。其中涉及造园布局的重要史料有:王世贞《金陵诸园记》、顾起元《懒真草堂集》[15]的诗赋和《留都见闻录》[16]; 记载历代园墅地址、园主,台榭景物位、形制等的有民国陈诒绂《金陵园墅志》和《金陵琐事·续金陵琐事·二续金陵琐事》等;涉及选址的有陈作霖光绪十二年撰的《凤麓小志》[17],并附图《金陵城西南隅街道图》《凤皇台图》《愚园全图》;在影像方面,朱偰《金陵古迹图考》[18]和《金陵古迹名胜影集》撰写南京城门西区域《园林及第宅》,图文并置,其“摄为照片”;
 
  在地图方面则有《洪武京城图志》[19《] 南京地名大全》[20],1928 年《最新实测新南京市详图》、1929 年南京航拍图和 1937 年南京日绘军用地图等,经《南京古代道路史》考证,该地块民国道路格局与明中后期没有显著变化;在园林图像方面,明代朱之藩《金陵图咏》中《凤台秋月》、清代高岑《金陵四十景图》中《凤凰台》、清代徐虎《金陵四十八景图》中《杏村沽酒》均可作为景象和地形的辅助判定。此外,文人相关诗作也作为重要的研究对象被纳入,如边贡的《正月晦日游徐氏西园晚过杏花村遂登凤台次韵蒲汀二首》等[21]。另外,利用《古今图书集成·经济汇编·考工典》《中国历代名园记选注》《南京园林志》[22]《中国古代园林史》[23]等已有资料可进行历史信息的交叉比对。具体梳理和分类见文献[11]。
 
  在梳理和研究中,杏花村私家园林的历史信息表现出如下 3 个特征:①杏花村私园的密集程度和布局造景方式显示,这是一处明、清南京私家园林集中分布的典型片区;②有较为明确记载的杏花村明、清期间的私园总样本数 45 处(3 处仅记名),合计 57 项特征,具备多样性和丰富性;③杏花村大多有一定程度可靠的园记,并有大量题咏赋诗和历史舆图可供对比验证,数据可靠性较高。因此,在完成基于史源学的杏花村明、清园林历史信息梳理后,本研究构建了共 2 394 项历史信息矩阵进一步研究。
 
  1.2 园林历史信息数据化方法
 
  首先进行杏花村明、清园林的历史信息数据化。从共 45 处园林中,筛选出具有有效信息的 42处进一步研究。随后按时代、主人身份、规模、是否新建、是否有局部微地形,选址地块,园内所有建筑、山石、理水、植被种类及是否有登高眺望之处等共归纳出 57 个园林特征,以是、否逻辑型量化。要素等分类标准依赖公共数据库或相关权威论著标准,如“古代人物权威资料检索”的网络数据库或《唐代园林别业论》《中国古典园林史》的分类体系[24-25]。分类及量化赋值见表 2。
 
  其次,通过统计数据,分 3 个步骤比较分析传统研究范式和新型数据算法之间的差异:①传统分类体系与数据分析中常见的 K-means,Hierarchical 聚类算法[26-28],降低原始信息复杂度的主成分分析法等相比,各自的高频特征样本覆盖率如何;②各方法降低原始信息复杂度的程度有何差异;
 
  ③各方法可以帮助发现什么样的规律,是否便于解读。
 
  本研究中,比较不同分类体系或算法的样本覆盖率采用分类后样本数与原总样本比率;是否便于寻找规律则采用主成分数量度量。主成分分析法(PCA)常用于科研中多维信息的降维处理,在自然科学领域如土壤成分分析[9-10,29-32]、视觉质量评价[33]、生态区域划分[34]、目标寻址[35];在社会科学领域如风水应用[36-37]、园林风格比较[38-40]中均有应用。通过将多个单一特征组合为综合特征,从而降低需要研究的总变量数。经过主成分分析得到的主成分越少,其特征越简单,也越容易找出数据规律。一般认为,PCA 分析中的指标之一,特征向量少于 1 的主成分对总体特征影响较少[9-10]。故经PCA 处理后,将特征向量大于 1 的主成分数之和作为复杂程度指标,主成分越多说明特征矩阵越复杂,也就越难找到规律。
 
  2 结果与分析
 
  2.1 传统园林史研究常见分类体系校验
 
  传统园林史研究中的分类体系可能多达 20 余种,其中最常见的就是园林四要素、朝代、地域、园主人身份等。本研究局限于南京的局部地块,只存在明、清两个时代,故放弃分期、地域的分类体系,只研究园林四要素和园主人身份两种。由于不同分类体系标准不同,分类划分标准≤5 的取第一为高频特征,>5 的取前两名为高频特征,其结果如表 3。
 
  由表 3 可知,基于两种传统分类方法的高频特征研究存在如下缺陷:第一,按植被或建筑类型分类后,类型数过多,不利于后续分析;第二,按身份或植被、建筑类型分类后,高频特征样本覆盖率未超过 45%,代表性有限;第三,按山石、水体分类后,高频特征样本覆盖率较高,达到 67%~ 71%,但其结论为无山石、水体,无法进行针对要素的分类后研究;第四,无论哪种分类方法,主成分数降低幅度有限,在 66%~72%间,且其主成分数降低主要依靠样本数减少而不是源自分类方法。虽然表 3 所列的高频特征说明上述私园出现了一些规律,如园林主人多为文人士大夫、植被密林修竹较多、建筑馆阁最多,且大部分没有特别的山石或水体景观,但其代表的园林数较少,而同时满足上述所有高频特征的园林 0 处。这也说明高频特征不是所有园林的普遍规律,而是局部特征之和。
 
  基于上述分析,笔者认为传统分类体系和高频特征的研究方法,存在样本覆盖率偏低、信息复杂度降低不明显和各分类规律缺少有机联系的缺陷。
 
  2.2 K-means 与 Hierarchical 聚类比较
 
  现代信息技术面对复杂特征矩阵时,常采用聚类算法,其中比较常见的有 K-means 和Hierarchical 算法,前者在聚类时更看重类内对象是否相似,后者则还考虑类型间的相似性。为与传统方法对照, 聚类均指定最终分为 5 类,其覆盖率和特征样本比例如表 4。由于聚类后无法直接得到聚类的标准,故没有分类后的高频特征项。
 
  从表 4 可知,K-means 和 Hierarchical 在指定聚类结果为 5 类的情况下,并未表现出相较传统方法的明显优势,其中K-means 算法的样本覆盖率约为 42%,信息复杂度降低为原有的 63%,和按园主人身份或植被、建筑要素分类后的结果接近;Hierarchical 算法虽然样本覆盖率有很大优势,达到83%,但分类后的信息矩阵复杂度完全没有降低。这说明针对原始信息主成分高达 19 个的矩阵,在分类数较少的情况下,无论哪种算法都难以取得明显优于传统分类方法的结果。随后人工核查聚类结果并总结类型特征,结果如表 5(仅记录一致率超过 2/3 的特征)。
 
  从表 5 可知,同一类型内,完全符合超过 2/3 特征的样本数远小于聚类样本数。同时,类型数最大的一类并不是造园要素、手法或主人相似的园林,而仅是要素数量接近的不同园林。其原因是聚类算法中,样本间距离受样本要素数量的影响较大。两个都只有 1 个要素的园林间距离差,小于一个要素为 3,另一个要素为 1 的园林间距离差。其结果就是同一类内,主要由要素数量接近,但类型不同的园林组成。因此,其特征构成仍很复杂,不利于寻找规律。但通过聚类算法找到的规律具备传统研究范式不具备的优点。其规律兼顾了造园的社会、场地和要素手法特征。例如从表 5 的K-means 分类后特征可以看出,明代造园的规模和所处地块,造园要素之间存在一定的对应关系。在园林四要素中,又往往只着重其中两三类,而鲜有兼顾的案例,这是相对传统方法突破。
 
  2.3 主成分分析分析比较
 
  由于原始矩阵的特征数和主成分数较多,导致无论是传统或基于算法的分类,样本覆盖率均较
 
  低,且分类后矩阵主成分降低有限,不便于寻找规律。且分类时受要素数量的影响很大,为解决这一问题,必须按某种法则减少过多的造园要素数量造成的影响,故先采用基于数量或等级的转换,降低原始矩阵特征数,再进行主成分分析的流程。转化标准见表 6,将原 57 项特征转化为 9 列特征。
 
  植物类型数 plant species 类型合计
 
  主成分分析法不仅可以用于多维数据的降维,其分项组成还具有指示作用。数值的绝对值越大, 该分项对特征的影响越明显。根据经验,绝对值大于 0.4 的组成对该主成分具有显著影响,绝对值0.15~0.4 之间的为弱影响[36-40]。基于上述原理,可以跨过传统研究范式中先分类后研究规律的步骤, 直接利用主成分中的显著影响组成直接指示明显的数据规律。结果见表 7,共得到 4 个特征向量大于 0.92 的主成分及其显著组成。表 7 中的 4 个主成分合计覆盖 79%~86%的样本,特征数降低为原始矩阵的 21%。在样本覆盖率和降低复杂度指标上提高明显,且单一类别达到 45%,与传统或聚类算法持平。
 
  4 条跨类别的规律如下:①建筑类型数与园林内是否用石正相关;②在地势高的区域新建园林规模较小;③部分明代园林中,建筑类型数越少,植被类型数越丰富;④在地势平坦的区域新建园林使用水池的可能较高。上述 4 条规律,通过地势和建筑类型数两个特征互有联系。
 
  通过进一步解读历史文献,发现上述规律是在一定时代和场地条件下造园历史脉络表现的几个方面:首先,明代造园仍然处于从石峰向石假山转变融合时期。石峰、假山的营建布置一方面要求园主人经济较为宽裕,同时,赏石,尤其是石峰需要建筑前、后的庭院空间配合,故赏石常和建筑同时出现,是这一时期园林的一般规律;其次该区域建园并非一蹴而就,而是逐次推进,较早建立的包括万竹园、凤台园、西园等(图 2)。早期园主人身份高贵,造园规模也大。后续造园只能选择已有园林间的隙地或分割已有园林。而这对有地形限制,地势高的凤凰台周边影响最大。直接造成在其周边新建园林规模较小;第三,早期建造园林中,规模最大的万竹园,主人独爱竹林,鲜少建筑、山石、不用水体。这种独特风格对该地块其他园林有显著影响并导致了两种选择:一类为和万竹园类似又略有不同的风格,部分明代园林,或直接传承分割万竹园,或以密林代替竹林,辅以山石或水体,但都不以建筑多见长;另一类选择出现在平坦区域的新建园林中,主要突出了水池这一造景手法,并出现了配合馆、阁类建筑或多种观赏植被的手法。  即使是最高效的主成分显著组成法,仍然有约 21%的园林不能归纳,通过人工归纳,发现主要是一些具有少量离散造园特征,分布区域不集中的小型园林。由于不具备明确趋势而不能被归入上述的 4 条规律内。通过进一步研究深化梳理了该区块历史园林的历史脉络,一定程度上解释了由聚类算法得到的规律。虽然目前杏花村地区园林大多已毁而仅存历史文献,但有两个方面的实证可印证上述 4 条规律:其一,目前残留的愚园,其为地势平坦区域的较大规模园林,且其水池造景特征
 
  明显,用石量和建筑量均较大,符合上述 4 条规律中的 3 条;其二,在南京近代开放空间的研究中也发现了类似的情况,即后续园林在规模和造园手法上受早期建置影响的规律[41-43]。
 
  3 结 论
 
  结合明、清时期杏花村园林的量化分析,探索了私家园林历史研究中的数据化和分析算法问题。通过统计学及数学模型将史源学材料量化,结合不同聚类算法和主成分分析法,比较了传统研究范式与新型研究工具在样本覆盖率和降低原始信息复杂度、寻找规律两个方面的差异。总结认为,针对主成分数较高的大量园林,传统算法存在样本覆盖率和降低复杂度两个方面的不足,及规律普适性不强的缺陷;而常见的聚类算法虽然可以得到跨类型的组合规律,但在样本覆盖率和降低复杂度两个方面并无相对传统研究范式的特别优势。基于数量及等级合计,并通过主成分显著组成得到的规律则具备了超越前两者的较高样本覆盖率和较低复杂度,利用该方法得到的规律能与其他历史信息有机组合,有效帮助梳理历史脉络,并能得到相关实证的印证。
 
  近 10 年来,有越来越多的相关园林史研究试图将造园的社会属性、城市发展与造园手法特征联系讨论,但对杏花村地块在明、清期间的研究可知,私家园林的演替和营造过程中园林规模变小,建筑增多或多用竹林、密林等,更多是与这一区域的地形特征或早期园林格局有关,并未显示出明显受到城市发展或造园意向的影响趋势。
 
  面对大样本时,传统基于分类后研究高频特征的园林史研究范式存在一定问题,应重新审视已有研究中大量将某地区私园归纳为简单几种类型,又能具体到造园细节特征的研究成果,这对已有成果的回顾和未来开展研究具有重要意义。虽然本研究以区域私家园林为例,但研究思路、体系和方法可供类似的建筑谱系研究、区划研究、村落归类等相似研究借鉴。需要说明的是,整理私家园林信息时,需考据大量文献信息,本研究中资料来源还需要进一步补充整理。此外,此次研究范围时空范畴非常局限,在更大的时空范畴内和新资料的补充下,或会有不同的结论
 

移动版:园林历史研究中的量化及分析算法研究

本文标签: