Casa Nova 新书房
  • 2010-01-03

    导师的评价

    刚才在做LCT的申请时,把导师的评价一个字母一个字母地码进了电脑。

    码的时候很感动,就像那天收到导师的快递时一样,他太了解我了,写的评价很中肯。这些评价让我很受用,所以贴出来,免得以后找不到:

    How do you judge the applicant's previous research (if applicable), scientific knowledge, ability to work in groups, ability to work independently, ability to analyze and solve problems, mathematical skills?

    I think he will do very well in his chosen field of study. His research ability is excellent. When he was still a second-year English major student, he participated in the Postgraduate Conference in Applied Linguistics held in University of Nottingham Ningbo, China on June 26, 2009 with his English paper "A Corpus-based Analysis of Use Frequency of English Words Motherland and Fatherland". His major weakness lied his knowledge about the English language. The suggestion I gave him was that he should keep improving his knowledge of the English language if he wishes to benefit greatly from his diligence and excellent research ability.


    Please provide reasons for your recommendation.

    What impressed me most were many questions he asked at the end of a lecture and various short essays written in English he sent to me by email. They were not limited to the field of English grammar. He was one of the few students I had met during my 22 years of English teaching who were truly eager to learn and learned actively. I believe that, as time goes by, being a diligent, active and highly-motivated learner, he will do much better academically in the end than his ZUNIT classmates.

     

  • 赶了半天论文,浑浑噩噩地跑去听了两个seminar,听的时候也有点似睡非睡的,所以下面记录的可能有些出入~

    第一个talk是Dr. Geoffrey William, 来自UniversitÈ de Bretagne Sud。讲的是culture在英法意三种不同语言中的意义和外延,手法是从双语词典切入,从corpus中寻找例证,最后通过collocational network之类的概念来解释。

    一开始听得有些稀里糊涂,又是法语,又是意语,再加上老先生讲英语带法语口音,实在不好懂。

    听了大半,才发现自己大二写的那篇paper其实和这篇架构非常相像,同样类似的切入点,同样类似的例证手法,只是最后苦于没有更多的材料,没有继续写,听了老先生的构思,觉得完全可以把那篇paper重新修改,或许会有不少惊喜~

    第二个是Bill Louw的,恰好是Firth去坏死五十周年,在我们这做这样的talk,显然有非常意义~讲的主要是语言哲学和corling之间的关系,因为不熟悉Wittgenstein的理论,所以听得云里雾里的。之听到几句重点的,大意是现代的corling从不少方面可以验证维氏的假说。

    而Russell曾经提及哲学的任务就是deal those unsettled problems, but once settled, it will deliver to science,大意如此,我不知道原文出自哪里~ 这么说来,现代语言学发展如此久远,又有很大的进步,那么到底算哲学还算科学呢?

    这个圣诞要补的活真多,这下有多了不少~

  • 昨天看到不少UNNC的同學分享了關於Turnitin的文章,個人直覺這一軟件並不是很靠譜,沒想到今天上課的時候,恰好討論了這一軟件,十分有趣,就拿來分享一下~

    今天的課是ICL的最後一節,主題是forensic linguistics & corpus linguistics,由於上節EAP (English for Academia Purpose) & corpus linguistics沒有講完,所以Paul安排了一個小時的lunch talk,等於是上了兩個半小時的課。

    Paul之前的PhD thesis是關於citation in PhD paper這一問題,顯然是很有趣的題目,這也幫助他對於plagiarism有了更深的理解,所以在課上提及了像Turnitin這樣的軟件~

    先介紹下Turnitin的背景吧,這是一家UCB的畢業生所創立的公司,主打產品有Turnitin,iPlagirisms等一系列用於檢驗plagiarism的軟件。

    幾乎所有的這類軟件都會運用corpus linguistics的理論模型,先來看看copycatch這款開發較早的軟件吧,這款軟件在這兒可以免費下載:http://cebe.cf.ac.uk/learning/Plagiarism/index.php

    copycatch用了幾種算法進行組合計算:

    1. how many lexical words in common? 如果超過50%就有抄襲嫌疑;

    2. how many shared hapaces are there? 如果檢索結果為“many”的話就判為有抄襲嫌疑; hapax是corpus linguistics中的一個術語,意為在一個文本中只出現一次的詞語。語言學中有一個概念是semantic field,意為在一個語篇中,會有特定的一些詞語出現構成一個“場”,也就是說,每個文本都有特定的一些term,通過判別這些term,就能分別出文本類型。比如這篇文本中出現了大量的linguistic terms,所以這篇文章很有可能與linguistics有關~ 而hapax恰好是semantic field中的一個重要概念(雖然這是corling特有的,而非general linguistics的術語),只需判斷文本中出現一次的那些詞匯,就能有效判別文本類型。基於此,通過計算hapex,就可以進一步促進文本相似性的計算;

    3. how many unique tokens are there? 如果少於一半,有可能有抄襲嫌疑。token也是corpus linguistics中的一個術語,意為出現的不同詞語,例如,I hate who I am. 這個句子,如果按一般的解釋,有五個詞語,但是因為corpus linguistics需要大量的計算機運算,而計算機並無那麼智能,所以將這個句子歸為有五個word type,四個token(I出現兩次)。在這一算式中,如果全文出現的token少於全文的50%,就有可能被判為plagiarism,這是因為很多情形下,寫作者試圖通過rephrase來逃避檢查,但這一算法可以有效檢測rephrase的概率~

    4. how frequent are the most frequent words? 頻率越高,嫌疑越大。這個算法比較簡單,只要比較文章間的keyword的相似度即可,原理同第二條;

    5. are there any strings of words that are the same or similar? 也就是通常所說的億群,如果兩篇文章有大量的億群相同或者相似,那麼嫌疑就很大。這個還是針對rephrase的,很多寫作者試圖通過rephrase來“合理引用”,卻依舊容易被識別。這倒是讓我想起了國內眾多的語言類應試培訓大肆鼓吹是用rephrase的方法來提高寫作成績。而實際上,想ETS這樣的機構,都擁有先進的plagiarism 檢測手段,這就是為何很多考生自認為運用了大量應試技巧而寫得不錯,最後被判了低分的一個重要原因~

    這五個算法是十多年前copycatch所采用的,現在的軟件如Turnitin會有更復雜的算法以提高准確度~

    另外像turnitin擁有自己的database,他們購買了幾乎所有英國學生的畢業論文,生成比較樣本庫,這樣一來,檢測的准確率大大提高~

    提醒一下,其實這些plagiarism detector都只是輔助檢測手段,一般有經驗的老師根本不用這些,用肉眼瞟一下,就能看出大概,然後信手google之,就能得出結論,如果確實有嫌疑,才會用這類軟件進行百分比的統計,供學術委員會判定使用(至少我們系的Nick和Paul都說根本不需使用,sigh,這下明白讀corpus linguistics有多難了吧,所有的老師都是捉奸高手~)

    最後想說的是,莫伸手,伸手比被捉~

  • 2010-12-10

    I am back

    Well, I am back.

    From now on, I will continually  update some technical blogs about linguistics and related contents in Chinese, which will be synchronized with my English blog~

    Thx for reading~