单选题 N-gram 被定义为 N 个关键词组合在一起。从给定的句子可以产生多少二元组短语(Bigram):「Analytics Vidhya is a great source to learn data science」
单选题 多义现象可以被定义为在文本对象中一个单词或短语的多种含义共存。下列哪一种方法可能是解决此问题的最好选择?
A、随机森林分类器
B、卷积神经网络
C、梯度爆炸
D、上述所有方法
单选题 在从文本数据中提取语境时,你遇到两个不同的句子:The tank is full of soldiers. The tank is full of nitrogen。下面哪种措施可被用于句子中词意模糊的问题?
A、对比模糊词汇与近义词在词典上的定义
B、同指(Co-reference) 解决方案,使用先前句子中包含的正确词意解决模糊单词的含义。
C、使用句子的依存解析理解含义
D、不确定
单选题 CRF(条件随机场)和 HMM(隐马尔可夫模型)之间的主要区别是什么?
A、CRF 是生成式的,而 HMM 是判别式模型;
B、CRF 是判别式模型,HMM 是生成式模型。
C、CRF 和 HMM 都是生成式模型;
D、CRF 和 HMM 都是判别式模型。
单选题 下列关于 Word2vec 的说法哪些是正确的
A、word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型
B、连续性词包是浅层神经网络模型
C、Skip-gram 是深度神经网络模型
D、CBOW 和 Skip-gram 都是深度神经网络模型
单选题 基于检索的模型和生成式模型是建立聊天机器人的两个主流技术,下面那个选项分别包含检索模型和生成式模型例子?
A、基于词典的学习和词向量模型
B、基于规则的学习和序列到序列模型
C、词向量和句子到向量模型
D、循环神经网络和卷积神经网络
单选题 在处理自然结构的新闻性句子的时候,哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测。
A、部分语音标注
B、依存句法分析(Dependency Parsing)和选取句法分析(Constituency Parsing)
C、Skip Gram 和 N-Gram 提取
D、连续性词包
单选题 下列哪种方法不是灵活文本匹配的一部分?
A、字符串语音表示(Soundex)
B、语音发声散列(Metaphone)
C、编辑距离算法(Edit Distance)
D、关键词哈希算法(Keyword Hashing)