July
July week5
*research(ai/bio/nlp-papers/lectrues/projects)
** upload zenodo
MAYBE FUTURE WORKS
** Ideation(with conference?)-please keep the ideas...
*** qiita + norm? -> meta + emb (->llm)
*** unlearning?
** fair vllm?
** LLM app for gene (wait?)
** advAttack_verification and geneLMs (wait?)
* future...research
** iterative alignment algo
** paper focus: E-NLP(??description?)
** Aug focus(B)
** deep hierarchy
(future pro+nu)
** generative benchmark
(gf+rm+dc--->nucl)
(check nucl with blast--->check real nicl whether sim or not)
** using drug bank web or db(good for using)
## eng v/q/w first and.. ( reading/listening/speaking/writing(paper) )
## math? code? (lecture/assignment/project) Monday, July 28, 2025
- research
o
Tuesday, July 29, 2025
- research
o
Wednesday, July 30, 2025
- research
o
Thursday, July 31, 2025
-
research
o -
update for 3ai
- MCP for science->for paper?
-
dna grammar->run test?
- acmbcb-pseudo-OTU COMPARISON(later)
-
dif gen lm?(future..?)
- new 학회
** distilation 흠: contrastiv learning처럼 skew KL 과 reverse skew KL을 사용한 티처-스튜던트 디스틸레이션 효과적, 스케일로우 성립..?
** transformer와 graph모델을 동시에 잘 사용하자(특히 여러 접근방법 많다).. 근데 생각해보니 이미 전에도 보았두아.ㅎ.ㅎ
** uncertainty quantification은 엔트로피를 이용하거나, 같은 질문에 대한 반복적인 대답이 얼마나 유지되는지, 컨피던스 스코어, 어텐션 맵 기반 스코어링(어텐션스코어)로 측정되며 그 외에 신뢰도 측정을 위해 여러 모델들의 답과 얼마나 겹치는지, 정답지와 비교, 외부 문서 없이도 잘 하는지 등을 본다.
- new new
** 여기서의 alignment는 모델이 인간의 의도(intention), 가치(value), 기대(expectation)와 잘 일치하도록 만드는 과정을 의미합니다. 즉, 모델이 단순히 언어를 예측하는 데 그치지 않고, 사용자의 요청을 정확히 이해하고, 해롭지 않으며, 유익하고 바람직한 방식으로 응답하도록 만드는 것
** 스케일링의 시대에서 이제는 변화하는건지..
** synthetic data의 diversity가 중요
*** long tail 재현이 중요?
** KV cache 관련된거 꽤 보이네.. 캐시는 속도 측면인데 트레이드 오프 아무래도 있어서 해결 시도들인듯
** 근데 acl은 생물이나 dna ㄹㅇ택도 없음
** 뇌파가 핫한가? 멀티모달 측면의 한 축인가.. 왤케 브레인 뇌파 eeg가 꽤 보이넹
** 멀티모달? 멀티 에이전트에서 논문이나 아티클 쓰는 거 같이 해도 좋을듯?
** 이미지를 디퓨전 사용해서 만든다음에 그 이미지로 분류기에 줘서 또 다른 소스로 사용
*** 이거 아주 재밌는 아이디어인듯!!
- 학회에서의 인사이트들?
이미 clip, llm 다 씀 for med ai..wow
contrastive learning, generation for aug 등 생각할만한 거 다 하는 느낌..
bio도 금방일듯
federated learning 좀 흥미로웠네(학습한 피처만 보내는거..중앙으로..병원등 개인정보땜에)
unlearning-> 잊게 만드는거.. 요즘 많이 다루는 분야인듯(이것도 개인정보 관련)
diffusion기반(랜덤기반) 디엔에이?
co-scientist? multi agent..llms with other apis(collaborator)..별건아닌거같아..
새로운 신기한거 많네 causal model들이나 hypergraph? heterophilly?
평소같으면 전혀 안 찾아볼 것들 보게되는 것도 아주 굿
그래프네트워크랑 언어모델이랑(트랜스포머)를 함께 사용하는 접근법도 아주 많네..!
트랜스포머에 모종의 확률의 추가하여 약간의 변화를 주는 방법도 많은듯
시퀀스랑 텍스트랑도 많이들 생각하는…
fidelity? 충실도?
fidelity는 모델이 원래 데이터, 원본 모델, 혹은 목표 함수와 얼마나 잘 일치하는지를 나타내는 개념이며, 다양한 머신러닝 응용에서 중요한 품질 평가 기준이 됩니다.
->여러 메트릭을 포함하는 개념인듯.. comsine sim, KL divergence, robust accuracy, 등등
-여기서부터 이어서… 이미지로부터 dna seq추출 신기(사실은 seq분류였음)
이미 rna모델은 엄청 많이 다루네.. 미생물로 확장해서 소타보다 강함을 보이거나
특이한 테스크로 프리트레인하거나 뭐 k mer에 스트라이드를 줘서 최적화하거나…
vector quantization으로 토큰화하는거 진짜 신기하네.. 이걸로 protein 생성모델 만드는거 오오 신기
E(3)-동변량 그래프 신경망(EGNN) 라는 단백질 3d구조 기반의(기울기 등 space정보 포함) 벡터롤 또 얻어서 PLM 벡터랑 합쳐서 뭐 예측 모델에 사용하기도 하네.. 이것도 특이….
rna LM + protein LM도 있는데 각각의 임베딩을 다시 입력으로 받아서 트랜스포머 써서 특정 테스크를 위한 파인튜닝하여 새로 임베딩 얻어서 사용하는… 그것도 인상적이었음
- 테스크 인사이트??
** Drug Target Discovery (유전자 발현 수준에서 특정 바이오마커를 찾는??)
** Disease Trajectory Reconstruction Using EHRs(유전체 데이터(GWAS, RNA-seq)를 포함할 수도..유전자 변이나 발현 패턴이 질병 진행과 연관될 경우)
** identifying pathogen(병원체)
** 좀 다르지만 생물학 문제(뭐 수능문제같은거)로 LLM평가해도 될 듯 … novelty랑 creativity랑 좀 더 depth한 개념들 갖고…
** 바로 위와 연관지어서 라우팅으로 생물과 화학을 나눈다던지, 또 연산부분은 나눈다던지 등..
** 또 좀 다르지만 t-SNE 대체재 또는 보완재로 UMAP, NCVis, It-SNE, 그리고 PaCMAP(with Differential Expression of Genes Between Clusters), LocalMAP
** interpretable neural networks..ProtoPNet? 이건 잘 모르겠군 도입하기가 ㅎㅎ
** 연관해서 causual 연구들도 관련이 있을듯… 분야가 확실히 많더라
July week4
*research(ai/bio/nlp-papers/lectrues/projects)
** upload zenodo
MAYBE FUTURE WORKS
** Ideation(with conference?)-please keep the ideas...
*** qiita + norm? -> meta + emb (->llm)
*** unlearning?
** fair vllm?
** LLM app for gene (wait?)
** advAttack_verification and geneLMs (wait?)
* future...research
** iterative alignment algo
** paper focus: E-NLP(??description?)
** Aug focus(B)
** deep hierarchy
(future pro+nu)
** generative benchmark
(gf+rm+dc--->nucl)
(check nucl with blast--->check real nicl whether sim or not)
** using drug bank web or db(good for using)
## eng v/q/w first and.. ( reading/listening/speaking/writing(paper) )
## math? code? (lecture/assignment/project) Monday, July 21, 2025
- research
o
Tuesday, July 22, 2025
- research
o
Wednesday, July 23, 2025
- research
o
Thursday, July 24, 2025
- research
o
Friday, July 25, 2025
- research
o
Saturday, July 26, 2025
- research
o
Sunday, July 27, 2025
-
research
o - MCP for science->for paper?
-
dna grammar->run test?
- acmbcb-pseudo-OTU COMPARISON(later)
-
dif gen lm?(future..?)
- new 학회
** distilation 흠: contrastiv learning처럼 skew KL 과 reverse skew KL을 사용한 티처-스튜던트 디스틸레이션 효과적, 스케일로우 성립..?
** transformer와 graph모델을 동시에 잘 사용하자(특히 여러 접근방법 많다).. 근데 생각해보니 이미 전에도 보았두아.ㅎ.ㅎ
** uncertainty quantification은 엔트로피를 이용하거나, 같은 질문에 대한 반복적인 대답이 얼마나 유지되는지, 컨피던스 스코어, 어텐션 맵 기반 스코어링(어텐션스코어)로 측정되며 그 외에 신뢰도 측정을 위해 여러 모델들의 답과 얼마나 겹치는지, 정답지와 비교, 외부 문서 없이도 잘 하는지 등을 본다.
- 학회에서의 인사이트들?
이미 clip, llm 다 씀 for med ai..wow
contrastive learning, generation for aug 등 생각할만한 거 다 하는 느낌..
bio도 금방일듯
federated learning 좀 흥미로웠네(학습한 피처만 보내는거..중앙으로..병원등 개인정보땜에)
unlearning-> 잊게 만드는거.. 요즘 많이 다루는 분야인듯(이것도 개인정보 관련)
diffusion기반(랜덤기반) 디엔에이?
co-scientist? multi agent..llms with other apis(collaborator)..별건아닌거같아..
새로운 신기한거 많네 causal model들이나 hypergraph? heterophilly?
평소같으면 전혀 안 찾아볼 것들 보게되는 것도 아주 굿
그래프네트워크랑 언어모델이랑(트랜스포머)를 함께 사용하는 접근법도 아주 많네..!
트랜스포머에 모종의 확률의 추가하여 약간의 변화를 주는 방법도 많은듯
시퀀스랑 텍스트랑도 많이들 생각하는…
fidelity? 충실도?
fidelity는 모델이 원래 데이터, 원본 모델, 혹은 목표 함수와 얼마나 잘 일치하는지를 나타내는 개념이며, 다양한 머신러닝 응용에서 중요한 품질 평가 기준이 됩니다.
->여러 메트릭을 포함하는 개념인듯.. comsine sim, KL divergence, robust accuracy, 등등
-여기서부터 이어서… 이미지로부터 dna seq추출 신기(사실은 seq분류였음)
이미 rna모델은 엄청 많이 다루네.. 미생물로 확장해서 소타보다 강함을 보이거나
특이한 테스크로 프리트레인하거나 뭐 k mer에 스트라이드를 줘서 최적화하거나…
vector quantization으로 토큰화하는거 진짜 신기하네.. 이걸로 protein 생성모델 만드는거 오오 신기
E(3)-동변량 그래프 신경망(EGNN) 라는 단백질 3d구조 기반의(기울기 등 space정보 포함) 벡터롤 또 얻어서 PLM 벡터랑 합쳐서 뭐 예측 모델에 사용하기도 하네.. 이것도 특이….
rna LM + protein LM도 있는데 각각의 임베딩을 다시 입력으로 받아서 트랜스포머 써서 특정 테스크를 위한 파인튜닝하여 새로 임베딩 얻어서 사용하는… 그것도 인상적이었음
- 테스크 인사이트??
** Drug Target Discovery (유전자 발현 수준에서 특정 바이오마커를 찾는??)
** Disease Trajectory Reconstruction Using EHRs(유전체 데이터(GWAS, RNA-seq)를 포함할 수도..유전자 변이나 발현 패턴이 질병 진행과 연관될 경우)
** identifying pathogen(병원체)
** 좀 다르지만 생물학 문제(뭐 수능문제같은거)로 LLM평가해도 될 듯 … novelty랑 creativity랑 좀 더 depth한 개념들 갖고…
** 바로 위와 연관지어서 라우팅으로 생물과 화학을 나눈다던지, 또 연산부분은 나눈다던지 등..
** 또 좀 다르지만 t-SNE 대체재 또는 보완재로 UMAP, NCVis, It-SNE, 그리고 PaCMAP(with Differential Expression of Genes Between Clusters), LocalMAP
** interpretable neural networks..ProtoPNet? 이건 잘 모르겠군 도입하기가 ㅎㅎ
** 연관해서 causual 연구들도 관련이 있을듯… 분야가 확실히 많더라
July week3
*research(ai/bio/nlp-papers/lectrues/projects)
** upload zenodo
MAYBE FUTURE WORKS
** Ideation(with conference?)-please keep the ideas...
*** qiita + norm? -> meta + emb (->llm)
*** unlearning?
** fair vllm?
** LLM app for gene (wait?)
** advAttack_verification and geneLMs (wait?)
* future...research
** iterative alignment algo
** paper focus: E-NLP(??description?)
** Aug focus(B)
** deep hierarchy
(future pro+nu)
** generative benchmark
(gf+rm+dc--->nucl)
(check nucl with blast--->check real nicl whether sim or not)
** using drug bank web or db(good for using)
## eng v/q/w first and.. ( reading/listening/speaking/writing(paper) )
## math? code? (lecture/assignment/project) Monday, July 14, 2025
- research
o
Tuesday, July 15, 2025
- research
o
Wednesday, July 16, 2025
- research
o
Thursday, July 17, 2025
- research
o
Friday, July 18, 2025
-
research
o - revise and save pdf
- what to listen and save pdf
- print(17)
- prepare post talk
Saturday, July 19, 2025
- research
o
Sunday, July 20, 2025
-
research
o - MCP for science->for paper?
-
dna grammar->run test?
- acmbcb-pseudo-OTU COMPARISON(later)
-
dif gen lm?(future..?)
- new 학회
** distilation 흠: contrastiv learning처럼 skew KL 과 reverse skew KL을 사용한 티처-스튜던트 디스틸레이션 효과적, 스케일로우 성립..?
** transformer와 graph모델을 동시에 잘 사용하자(특히 여러 접근방법 많다).. 근데 생각해보니 이미 전에도 보았두아.ㅎ.ㅎ
** uncertainty quantification은 엔트로피를 이용하거나, 같은 질문에 대한 반복적인 대답이 얼마나 유지되는지, 컨피던스 스코어, 어텐션 맵 기반 스코어링(어텐션스코어)로 측정되며 그 외에 신뢰도 측정을 위해 여러 모델들의 답과 얼마나 겹치는지, 정답지와 비교, 외부 문서 없이도 잘 하는지 등을 본다.
- 학회에서의 인사이트들?
이미 clip, llm 다 씀 for med ai..wow
contrastive learning, generation for aug 등 생각할만한 거 다 하는 느낌..
bio도 금방일듯
federated learning 좀 흥미로웠네(학습한 피처만 보내는거..중앙으로..병원등 개인정보땜에)
unlearning-> 잊게 만드는거.. 요즘 많이 다루는 분야인듯(이것도 개인정보 관련)
diffusion기반(랜덤기반) 디엔에이?
co-scientist? multi agent..llms with other apis(collaborator)..별건아닌거같아..
새로운 신기한거 많네 causal model들이나 hypergraph? heterophilly?
평소같으면 전혀 안 찾아볼 것들 보게되는 것도 아주 굿
그래프네트워크랑 언어모델이랑(트랜스포머)를 함께 사용하는 접근법도 아주 많네..!
트랜스포머에 모종의 확률의 추가하여 약간의 변화를 주는 방법도 많은듯
시퀀스랑 텍스트랑도 많이들 생각하는…
fidelity? 충실도?
fidelity는 모델이 원래 데이터, 원본 모델, 혹은 목표 함수와 얼마나 잘 일치하는지를 나타내는 개념이며, 다양한 머신러닝 응용에서 중요한 품질 평가 기준이 됩니다.
->여러 메트릭을 포함하는 개념인듯.. comsine sim, KL divergence, robust accuracy, 등등
-여기서부터 이어서… 이미지로부터 dna seq추출 신기(사실은 seq분류였음)
이미 rna모델은 엄청 많이 다루네.. 미생물로 확장해서 소타보다 강함을 보이거나
특이한 테스크로 프리트레인하거나 뭐 k mer에 스트라이드를 줘서 최적화하거나…
vector quantization으로 토큰화하는거 진짜 신기하네.. 이걸로 protein 생성모델 만드는거 오오 신기
E(3)-동변량 그래프 신경망(EGNN) 라는 단백질 3d구조 기반의(기울기 등 space정보 포함) 벡터롤 또 얻어서 PLM 벡터랑 합쳐서 뭐 예측 모델에 사용하기도 하네.. 이것도 특이….
rna LM + protein LM도 있는데 각각의 임베딩을 다시 입력으로 받아서 트랜스포머 써서 특정 테스크를 위한 파인튜닝하여 새로 임베딩 얻어서 사용하는… 그것도 인상적이었음
- 테스크 인사이트??
** Drug Target Discovery (유전자 발현 수준에서 특정 바이오마커를 찾는??)
** Disease Trajectory Reconstruction Using EHRs(유전체 데이터(GWAS, RNA-seq)를 포함할 수도..유전자 변이나 발현 패턴이 질병 진행과 연관될 경우)
** identifying pathogen(병원체)
** 좀 다르지만 생물학 문제(뭐 수능문제같은거)로 LLM평가해도 될 듯 … novelty랑 creativity랑 좀 더 depth한 개념들 갖고…
** 바로 위와 연관지어서 라우팅으로 생물과 화학을 나눈다던지, 또 연산부분은 나눈다던지 등..
** 또 좀 다르지만 t-SNE 대체재 또는 보완재로 UMAP, NCVis, It-SNE, 그리고 PaCMAP(with Differential Expression of Genes Between Clusters), LocalMAP
** interpretable neural networks..ProtoPNet? 이건 잘 모르겠군 도입하기가 ㅎㅎ
** 연관해서 causual 연구들도 관련이 있을듯… 분야가 확실히 많더라
July week2
*research(ai/bio/nlp-papers/lectrues/projects)
** upload zenodo
MAYBE FUTURE WORKS
** Ideation(with conference?)-please keep the ideas...
*** qiita + norm? -> meta + emb (->llm)
*** unlearning?
** fair vllm?
** LLM app for gene (wait?)
** advAttack_verification and geneLMs (wait?)
* future...research
** iterative alignment algo
** paper focus: E-NLP(??description?)
** Aug focus(B)
** deep hierarchy
(future pro+nu)
** generative benchmark
(gf+rm+dc--->nucl)
(check nucl with blast--->check real nicl whether sim or not)
** using drug bank web or db(good for using)
## eng v/q/w first and.. ( reading/listening/speaking/writing(paper) )
## math? code? (lecture/assignment/project) Monday, July 07, 2025
- research
o
Tuesday, July 08, 2025
-
research
o -
tSNE, UMAP
Wednesday, July 09, 2025
- research
o
Thursday, July 10, 2025
- research
o
Friday, July 11, 2025
-
research
o - gb posters
- presentation for ari
Saturday, July 12, 2025
-
research
o -
papers?
Sunday, July 13, 2025
-
research
o - MCP for science
- dna grammar
- acmbcb-pseudo-OTU COMPARISON(later)
-
dif gen lm?(future..?)
-
new 학회
** distilation 흠: contrastiv learning처럼 skew KL 과 reverse skew KL을 사용한 티처-스튜던트 디스틸레이션 효과적, 스케일로우 성립..? - 학회에서의 인사이트들?
이미 clip, llm 다 씀 for med ai..wow
contrastive learning, generation for aug 등 생각할만한 거 다 하는 느낌..
bio도 금방일듯
federated learning 좀 흥미로웠네(학습한 피처만 보내는거..중앙으로..병원등 개인정보땜에)
unlearning-> 잊게 만드는거.. 요즘 많이 다루는 분야인듯(이것도 개인정보 관련)
diffusion기반(랜덤기반) 디엔에이?
co-scientist? multi agent..llms with other apis(collaborator)..별건아닌거같아..
새로운 신기한거 많네 causal model들이나 hypergraph? heterophilly?
평소같으면 전혀 안 찾아볼 것들 보게되는 것도 아주 굿
그래프네트워크랑 언어모델이랑(트랜스포머)를 함께 사용하는 접근법도 아주 많네..!
트랜스포머에 모종의 확률의 추가하여 약간의 변화를 주는 방법도 많은듯
시퀀스랑 텍스트랑도 많이들 생각하는…
fidelity? 충실도?
fidelity는 모델이 원래 데이터, 원본 모델, 혹은 목표 함수와 얼마나 잘 일치하는지를 나타내는 개념이며, 다양한 머신러닝 응용에서 중요한 품질 평가 기준이 됩니다.
->여러 메트릭을 포함하는 개념인듯.. comsine sim, KL divergence, robust accuracy, 등등
-여기서부터 이어서… 이미지로부터 dna seq추출 신기(사실은 seq분류였음)
이미 rna모델은 엄청 많이 다루네.. 미생물로 확장해서 소타보다 강함을 보이거나
특이한 테스크로 프리트레인하거나 뭐 k mer에 스트라이드를 줘서 최적화하거나…
vector quantization으로 토큰화하는거 진짜 신기하네.. 이걸로 protein 생성모델 만드는거 오오 신기
E(3)-동변량 그래프 신경망(EGNN) 라는 단백질 3d구조 기반의(기울기 등 space정보 포함) 벡터롤 또 얻어서 PLM 벡터랑 합쳐서 뭐 예측 모델에 사용하기도 하네.. 이것도 특이….
rna LM + protein LM도 있는데 각각의 임베딩을 다시 입력으로 받아서 트랜스포머 써서 특정 테스크를 위한 파인튜닝하여 새로 임베딩 얻어서 사용하는… 그것도 인상적이었음
- 테스크 인사이트??
** Drug Target Discovery (유전자 발현 수준에서 특정 바이오마커를 찾는??)
** Disease Trajectory Reconstruction Using EHRs(유전체 데이터(GWAS, RNA-seq)를 포함할 수도..유전자 변이나 발현 패턴이 질병 진행과 연관될 경우)
** identifying pathogen(병원체)
** 좀 다르지만 생물학 문제(뭐 수능문제같은거)로 LLM평가해도 될 듯 … novelty랑 creativity랑 좀 더 depth한 개념들 갖고…
** 바로 위와 연관지어서 라우팅으로 생물과 화학을 나눈다던지, 또 연산부분은 나눈다던지 등..
** 또 좀 다르지만 t-SNE 대체재 또는 보완재로 UMAP, NCVis, It-SNE, 그리고 PaCMAP(with Differential Expression of Genes Between Clusters), LocalMAP
** interpretable neural networks..ProtoPNet? 이건 잘 모르겠군 도입하기가 ㅎㅎ
** 연관해서 causual 연구들도 관련이 있을듯… 분야가 확실히 많더라
July week1
*research(ai/bio/nlp-papers/lectrues/projects)
** upload zenodo
MAYBE FUTURE WORKS
** Ideation(with conference?)-please keep the ideas...
*** qiita + norm? -> meta + emb (->llm)
*** unlearning?
** fair vllm?
** LLM app for gene (wait?)
** advAttack_verification and geneLMs (wait?)
* future...research
** iterative alignment algo
** paper focus: E-NLP(??description?)
** Aug focus(B)
** deep hierarchy
(future pro+nu)
** generative benchmark
(gf+rm+dc--->nucl)
(check nucl with blast--->check real nicl whether sim or not)
** using drug bank web or db(good for using)
## eng v/q/w first and.. ( reading/listening/speaking/writing(paper) )
## math? code? (lecture/assignment/project) Tuesday, July 01, 2025
- research
o
Wednesday, July 02, 2025
- research
o
Thursday, July 03, 2025
- research
o
Friday, July 04, 2025
- research
o
Saturday, July 05, 2025
- research
o
Sunday, July 06, 2025
-
research
o - set atten based test and make abstract and uploade before Sunday(15th)
- paper update with interpretable concept
- book chapter
- plan trip
- additional test for ari
subsidy?
[others..later]
- set attention? ** OTU based prediction->not practical–>maybe add tree number for xgb and rf
** pedict diabetes?
** dif gen lm?
** OTU + meta + LLM