如何猜出一系列以某种方式生成的句子的语法?

2024-05-16 03:08:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个由http://www.ywing.net/graphicspaper.php生成的句子丢失,这是一个随机的计算机图形学论文标题生成器,其中一些例句排序如下:


  • 使用纹理映射提取环境光遮挡
  • 抽象环境纹理映射
  • 抽象各向异性软阴影
  • 抽象近似
  • 基于剔除的自适应软阴影抽象逼近
  • 基于硬件加速聚类的环境遮挡抽象逼近
  • 基于估计的分布曲面抽象逼近
  • 纹理映射环境遮挡的几何抽象逼近
  • mipmap不透明性的抽象逼近
  • 次表面散射遮挡场的抽象逼近
  • 基于反射纹理的软阴影抽象逼近
  • 抽象任意渲染
  • 几何的抽象衰减与位移映射
  • 基于视相关纹理映射的环境遮挡抽象衰减方法
  • mipmap光场的抽象衰减
  • 非线性环境遮挡的抽象衰减
  • 基于重网格的预计算mipmap的抽象衰减

    -…

我想尝试反向工程背后的语法,并学习如何做的一些种类的方式,如在共同的lisp方式或NLTK方式。有什么想法吗?在

——德雷克


Tags: http标题net环境www计算机方式句子
3条回答

这似乎是个有趣的问题。然而,我的印象是,从生成的比特序列中猜测生成器并不容易。你能得到的是一个模型,它可能是,也可能不是原始生成器的近似值。当处理大量生成的序列时,近似值将更接近。在

一种简单的技术是创建一个解析树,并在树的每个部分创建一个词汇表。在

像这样的事情:

  Abstract
  |    |
           |Ambient , Anisotropic,(Approximation, Attenuation)
                                        |
                                        of
                                        |
                                   xxxx      yyyy
                                     |         |
                                   using       for

xxxx->;词汇表

yyyy->;词汇表

你可能对门诺·范扎南的Alignment-Based Learning感兴趣。我已经好几年没看他的论文了,但基本的想法是

  1. 查找公共子字符串
  2. 给它指定一个语法规则
  3. 重写文本以使用此规则
  4. 检查重写的文本+语法是否比原始文本短。在

对所有公共子字符串的所有组合运行此命令,以找到最佳语法。在

这有点像一个最佳压缩算法。它背后的理论是Minimum Description Length。在

有一些方法来学习一种语言的语法,给出一些基于基因编程的句子。E、 g.,Learning Context-Free Grammars using an Evolutionary Approach。在

同时wikipedia列出了其他一些方法。在

相关问题 更多 >