“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器,一键搜索你想要的名言警句!
天气太热只会念叨一句“热死了”?发朋友圈翻来覆去才憋出几个字?这个检索神器值得了解一下。只要在搜索框里输入你想表达的意思,如“热死了”。立刻就能有 20 个表达这一意思的句子任君挑选。
句子类型还能按需选取,名言警句、歇后语、古诗文都不在话下。
并且给出的名言还会注明出处作者,这下再也不用啥话都往迅哥儿身上套了。
怪不得网友直呼:朋友圈文案高级表达查找替换系统。
而且,我们在试玩了几轮后发现,这个神器在 hold 住网络俗语“精髓”上的表现有些出人意料。
比如这两天大家都在说的“精神内耗”。它给出了一段卢梭的话,完全拿捏住了词语本来的意思,语言逼格立马提升好几度。
甚至还能找出意思相近的古诗文。来自欧阳修《秋声赋》中的这句“百忧感其心,万事劳其形,有动乎中,必遥其情”,说的意思就是焦虑使人精神疲惫。
果真是能通杀古今了。于是,我们找来了更多网络流行语喂给它,看看还能擦出什么火花~
听我说谢谢你,但古诗版
第一个要尝试的网络名句,是“听我说,谢谢你”。
神器反向输出结果中,意思最为贴近的是王维的这句“举世无相识,终身思旧恩”。这句诗中明确体现了说话主体人表达感谢之意,称得上是“听我说谢谢你”的究极上流版。
还有在句式上非常接近的结果,是温庭筠笔下的“知我意,感君怜”。
最让人意想不到的,是神器反向输出了《将进酒》里的“与君歌一曲,请君为我倾耳听”。
乍看之下,这个答案好像是错的。但要知道“听我说谢谢你”能成为梗,就是因为防疫人员尴尬被迫听歌事件…… 这么看,反向输出神器还意外扣了题。
不只是这句梗,还有很多网络用语,反向输出神器的回答都是貌似不着边际,但又让人觉得异常契合。
比如输入“无语子”,给出的诗句有:满怀心腹事,尽在不言中。
这不就是大家表达无语时的真实心境吗?因为不便明说,所以沉默,所以无语。
还有这句“你品,你细品”,输出的诗句也都带有了仔细品读、反复回味的意思。
那么,这个好用又好玩的神器,到底是什么来头呢?
来自清华的“据意查句”
以上说的这个好登西,是由清华推出的“据意查句”神器 ——WantQuotes。
诞生自清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP),项目指导教师为孙茂松教授和刘知远副教授。
能够快速从全世界这么多语料中找到你想要的句子,这个神器主要靠的是一个超大的数据集和一个推荐模型。数据集包含了英语、现代汉语和文言文三大部分。
其中,英语部分有 6108 个名言警句和 126713 个上下文文本段;现代汉语部分,包含有 3004 句名言和 408433 个相关上下文;文言文部分,则有 4438 段文言典故(包括古诗)和 116537 段相关上下文。
推荐模型方面,本文提出使用 BERT 作为句子编码器来学习名言警句和相关文本表示。
但由于绝大多数名言警句的表达都非常凝练,但是可能其中每个背后的意义又包含很多层,所以在本方法中,研究人员将义原引入到编码器中。
简单来说,义原是语言学中最小的语义单位。语言学家认为义原体系在任何语言中都适用,不与特定语言相关。
举个例子,“男孩”这个词可以由“人类”、“男性”、“儿童”这个三个义原表示,“女孩”则可以由“人类”、“女性”、“儿童”的组合来表达。
因此在模型中引入义原后,就能很好解决词义消歧的问题,并且能更准确地捕捉到词与词之间的关系。也就是让模型把语言学得更加透彻。而在具体任务对比中可以看到,本文方法的性能均优于其他方法。同时用消融实验验证了训练方法的有效性(下表最后三行结果)。
在只给出左侧文本的条件下,本文方法的结果依旧优于过去方法。