目录
Class CodeList<T extends java.lang.Number>
Class SeqLibNotEncodedException
1) 安装版本不低于 JRE 8(推荐)的 Java 运行环境
1. 项目简介
简单地说,本项目要实现的最终目标是,判断某蛋白质序列是否是DNA结合蛋白。报告给出的具体实现已经实现的结果是,将给定的蛋白质序列FASTA 格式(序列名/注释+单个字母表示的核酸或氨基酸)输入,转换成一串便于分类器理解的向量。向量间数学特征的差异,可以反映不同序列输入的文字特征和语义特征,有助于区分不同的蛋白质序列。
项目初步实现的功能包括,运用Kmer分词方法创建词典,给出了包括One Hot Encoding 、 Bag Of Words 、 TF- IDF在内的三种特征提取方法。用户可以通过有限的图形交互界面来实现基于文件输入的交互,并获得向量序列的文件输出。
项目简单实现了数据与表现的分离,提供了一定的可扩展性,既可以通过调用项目实现的有限内容来获得向量序列的文件输出,也可以通过调用项目包含的底层数据逻辑来构造进一步的机器学习模型。





































