中国人民大学:《人工智能》课程教学资源(作业摘选)SCIgen生成文献的检测方案

°SClgen生成文献的检测方案 刘昌灵 中国人民大学2012级本科 多媒体计算实验室
SCIgen生成文献的检测方案 刘昌灵 中国人民大学 2012级本科 多媒体计算实验室

简单的发现 SClgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯 诺尔范式、Backus-Naur Form) ●SClgen使用的生成式存在于scirules.in文 件中 ●对于子生成式的展开,SClgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)
简单的发现 SCIgen是一个使用生成式生成文本的上 下文无关文法(巴科斯范式、巴科斯- 诺尔范式、 Backus-Naur Form) SCIgen使用的生成式存在于scirules.in文 件中 对于子生成式的展开,SCIgen的策略相 对简单,不会自递归(乔姆斯基范式、 Chomsky Normal Form)

通用的解决方案 ·提取特征,观察其分布 。词频、词距等 。Sklearn提供了一部分文本特征 。使用Word2Vec准备意义空间的分析 ●SVMW多层SVM ·神经网络/循环冗余神经网络
通用的解决方案 提取特征,观察其分布 ◦ 词频、词距等 ◦ Sklearn提供了一部分文本特征 ◦ 使用Word2Vec准备意义空间的分析 SVM/多层SVM 神经网络/循环冗余神经网络

SVM/神经网络 。选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 。选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的
SVM/神经网络 选择SVM的原因是特征空间(至少词频 空间)对于正反样本较为可分(高斯核, 甚至线性核都可以得到不错的效果) 选择RNN(Recurrent Neural Network) 的原因为其每一次的运算都具有后效性, 可以在优秀的上下文环境中分析语义空 间。而语义空间是期望具有显著差别的

SVM/NN总结 。优点: 。能够快速适应SClgen做出的改动(更换/添 加特征向量) 解决办法通用,主要的训练学习任务交给 01 机器自己完成,较为智能 。易于分析意义空间 ·缺点: 。训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 需要寻找大量的训练数据 需要局限于SVM/NN的模型
SVM/NN总结 优点: ◦ 能够快速适应SCIgen做出的改动(更换/添 加特征向量) ◦ 解决办法通用,主要的训练学习任务交给 机器自己完成,较为智能 ◦ 易于分析意义空间 缺点: ◦ 训练可能需要较长的时间,运行也有较高 的复杂度。通常需要GPU支持。 ◦ 需要寻找大量的训练数据 ◦ 需要局限于SVM/NN的模型

里应外合 。从内部攻破敌人 。学习SClgen的组合方式(RNN-RBM?) 。除去可能为固定生成的词语 。分析可能为随机生成的部分 ·从外部强硬打击 。除去同义词千扰 (可能的)除去句式干扰 (可能的)联网操作 ·查重 ·查参考文献 ·对于意义空间的操作
里应外合 从内部攻破敌人 ◦ 学习SCIgen的组合方式(RNN-RBM?) ◦ 除去可能为固定生成的词语 ◦ 分析可能为随机生成的部分 从外部强硬打击 ◦ 除去同义词干扰 (可能的)除去句式干扰 ◦ (可能的)联网操作 查重 查参考文献 对于意义空间的操作

小点子 ·在能够分析词性的条件下 。名词与动词是主要影响意义空间的部分 ·猜想:名词与动词的意义可以组合成一个向量 。形容词与副词影响强度、与上组合影响 极性 ·猜想:是否能将强度叠加于名词与动词 ·词向量的叠加是一个非常复杂的过程,通常需要神经网 络进行分析,这里仅作为一个方向导出
小点子 在能够分析词性的条件下 ◦ 名词与动词是主要影响意义空间的部分 猜想I:名词与动词的意义可以组合成一个向量 ◦ 形容词与副词影响强度、与上组合影响 极性 猜想II:是否能将强度叠加于名词与动词 词向量的叠加是一个非常复杂的过程,通常需要神经网 络进行分析,这里仅作为一个方向导出

小点子 ·关于联网操作 。部分网站对于教育网提供查重API ·较高资费、且对于SClgen不是很具有指导意义 。查参考文献 ·知网、谷歌学术可以简单的实现 。对于意义空间的操作 ·除去句式影响后可以根据关键字获取类似的文献 ·比较意义向量的距离
小点子 关于联网操作 ◦ 部分网站对于教育网提供查重API 较高资费、且对于SCIgen不是很具有指导意义 ◦ 查参考文献 知网、谷歌学术可以简单的实现 ◦ 对于意义空间的操作 除去句式影响后可以根据关键字获取类似的文献 比较意义向量的距离

海阔天空 ·小点子中很多点其实是神经网络的优化方向 (适用于RNN) ·比起SClgen Cracker,成果更像是一个基于意 义空间的相似文章查找器 ·比起查SClgen更适合查论文的重复发明 。代码量巨大(即使使用Theano、cafe等高级 封装),且中间有收费项目、可能会遇到验 证码的项目 。 若有兴趣,我校多媒体计算实验室拥有一定 的成果可以参考
海阔天空 小点子中很多点其实是神经网络的优化方向 (适用于RNN) 比起SCIgen Cracker,成果更像是一个基于意 义空间的相似文章查找器 比起查SCIgen更适合查论文的重复发明 代码量巨大(即使使用Theano、caffe等高级 封装),且中间有收费项目、可能会遇到验 证码的项目 若有兴趣,我校多媒体计算实验室拥有一定 的成果可以参考

其他的办法 ·想要Crack SClgen其实没有那么复杂 。回顾“简单的发现” Think in simple way,not lazy way 顾客要一块石头,我们尝试卖给他一粒 钻石
其他的办法 想要Crack SCIgen其实没有那么复杂 ◦ 回顾“简单的发现” Think in simple way, not lazy way. 顾客要一块石头,我们尝试卖给他一粒 钻石
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国人民大学:《人工智能》课程教学资源(作业摘选)人工智能课程总结.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第十章 后台默默的劳动者——探究服务.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第九章 看看精彩的世界——使用网络技术.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第八章 丰富你的程序——运用手机多媒体.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第七章 跨程序共享数据——探究内容提供器.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第六章 数据存储全方案——详解持久化技术.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第五章 全局大喇叭——详解广播机制.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第四章 手机平板要兼顾——探究碎片.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第三章 软件开发也要拼脸蛋——UI开发的点点滴滴.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第二章 先从看得到的入手——探究活动.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第一章 开始启程——你的第一行android代码(负责人:王海).pdf
- 《Oracle数据库》课程教学资源(PPT课件讲稿)视图.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)表空间应用.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)约束.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)用户管理.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)数据库一致性与事务管理.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)序列.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)创建数据库.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)SQL查询.ppt
- 《Oracle数据库》课程教学资源(PPT课件讲稿)SQL更新数据.ppt
- 《人工智能》课程教学资源(参考资料)基于Jupyter Notebook的Tensorflow深度学习教程.pdf
- 南京农业大学:《Web 应用系统开发》课程教学大纲.pdf
- 南京农业大学:《软件工程》课程教学大纲.pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲.pdf
- 南京农业大学:《数据库系统原理实验》课程教学大纲.pdf
- 南京农业大学:《数据结构实验》课程教学大纲.pdf
- 南京农业大学:《数据库系统原理》课程教学大纲.pdf
- 上海海洋大学:信息学院各专业课程教学大纲(汇编).pdf
- 西安电子科技大学:计算机软件开发模式和工具与标准发展历程(主讲:徐悦甡).pdf
- 西安电子科技大学:《构件与中间件技术》课程教学资源(课件讲稿)第一部分 软件构件与中间件(主讲:徐悦甡).pdf
- 西安电子科技大学:《构件与中间件技术》课程教学资源(课件讲稿)第二部分 Java EE与EJB 2.2 Java Web工程.pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)文本聚类(Text Clustering).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)语义网(Semantic Web).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)课程回顾与复习(主讲:徐悦甡).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)文本分类(Text Classification).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)推荐系统(Recommender System).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)课程概述 Parallel Computing(主讲:徐悦甡).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机系统结构模型(第一部分,含第一次作业).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机系统结构(第二部分).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机性能测评.pdf